Эта работа прошла предварительную проверку
Дата последней правки страницы: 03.02.2017
Данная работа соответствует формальным критериям.
Проверено Teplov.

Алгоритм устойчивой кластеризации с использованием связей
Последовательный алгоритм
Последовательная сложность	$O(n^2 + n m_m m_a + n^2 \log{} n)$
Объём входных данных	Множество $S$ из $n$ элементов, число кластеров $k$
Объём выходных данных	$n$ точек с метками $k$ кластеров

Основные авторы описания: В.А.Простов(1.1 - 1.6, 1.9, 2.4), М.М.Тихомиров(1.7, 1.8, 1.10, 2.4, 2.7)

Содержание

1 ЧАСТЬ. Свойства и структура алгоритмов
2 ЧАСТЬ. Программная реализация алгоритма
3 Литература

1 ЧАСТЬ. Свойства и структура алгоритмов

1.1 Общее описание алгоритма

Алгоритм устойчивой кластеризации с иcпользованием связей ROCK (RObust Clustering using linKs) был совместно разработан Sudipto Guha, Rajeev Rastogi и Kyuseok Shim при работе в Bell Laboratories. Впервые алгоритм был опубликован в 1999 году в статье под названием "ROCK: A Robust Clustering Algorithm for Categorical Attributes", входящей в "ICDE '99 Proceedings of the 15th International Conference on Data Engineering".

Данный алгоритм принадлежит классу алгоритмов кластеризации, целью которых является разбиение данных на некоторое заранее заданное число групп. Подобные методы часто используются для анализа данных в различных областях, в том числе в маркетинге. Основная особенность алгоритма ROCK заключается в использовании связей между точками (количество общих соседей), в отличие от методов, базирующихся на различных метриках, таких как расстояние между точками (Евклидово и прочие). Такой подход улучшает определение глобальных зависимостей, а также наиболее эффективен при рассмотрении данных, свойства которых принимают достаточно малое конечное количество значений.

Одним из основных понятий для алгоритма ROCK является соседство двух точек. Пусть нам дана функция схожести $sim(p_i,p_j)$ , принимающая значения от 0 до 1, которая выражает схожесть или близость объектов(точек) $p_i$ и $p_j$ . Предполагается, что 1 соответствует абсолютной близости, и 0 - наоборот. Тогда при некоторой границе $\theta$ между 0 и 1, если $sim(p_i,p_j) \geq \theta$ , то $p_i$ и $p_j$ будут соседними точками. Выбор Функции $sim(p_i,p_j)$ и граничного значения $\theta$ зависит входных данных и особенности реализации.

Вторым ключевым понятием являются связи. Функция связи $link(p_i,p_j)$ определяется как количество общих соседей у $p_i$ и $p_j$ . Из такого определения сразу видно, что чем больше значение связи, тем больше вероятность, что эти точки принадлежат одному и тому же кластеру. Такой подход является более глобальным, по сравнению с использованием только близости двух точек, что позволяет снизить число ошибок, особенно в тех случаях, когда кластеры имеют несколько близких точек.

Алгоритм состоит из двух основных этапов. Изначально имеется $n$ точек и $k$ - желаемое число кластеров. На первом этапе вычисляются значения связей $link(p_i,p_j)$ между всеми парами точек, каждая точка объявляется отдельным кластером. Для каждого кластера $i$ создается локальная куча $q[i]$ , которая содержит все такие кластеры $j$ , что связь между ними не нулевая. Кроме этого, создается глобальная куча $Q$ , содержащая все кластеры. После этого алгоритм переходит ко второму этапу. Вторая часть представляет из себя цикл, на каждом шаге которого объединяются два кластера с максимальным значением функции полезности $g(i,j)$ , после чего вносятся соответствующие изменения в кучи. Алгоритм завершает работу в двух случаях: когда осталось $k$ кластеров, или когда все связи между оставшимися кластерами равны нулю.

1.2 Математическое описание алгоритма

Дано множество $S$ из $n$ элементов и число $k$ . Для каждых $p_i,p_j \in S$ задана функция схожести $0 \leq sim(p_i,p_j) \leq 1$ . Также дано число $0 \leq \theta \leq 1$ . Дана функция $f( \theta )$ .

Требуется разбить $S$ на $k$ не пересекающихся подмножеств(кластеров) $C_1, \dots, C_k$ так, чтобы значение целевой функции $E_l$ было как можно большим.

Определим следующие функции, полагая, что $p_i,p_j \in S.$

Функция, определяющая соседство двух точек:

$\begin{align} neib(p_i, p_j) = \begin{cases} 1, sim(p_i, p_j) \geq \theta,\\ 0, sim(p_i, p_j) \lt \theta. \end{cases} \\ \end{align}$

Функция, определяющая количество связей между точками:

$link(p_i, p_j) = \sum_{s\in S} neib(p_i,s) neib(p_j,s).$

Определим теперь целевую функцию, считая $n_i$ количеством элементов в $C_i$ :

$E_l = \sum_{i=1}^{k} n_i * \sum_{p_q, p_r \in C_i} \frac{link(p_q,p_r)}{n_{i}^{1+2f( \theta )}}$

Определим функцию связи для двух подмножеств $C_i, C_j$ :

$link[C_i, C_j] = \sum_{p_q \in C_i, p_r \in C_j} link(p_i, p_j)$

Введем функцию полезности, выражающую то, насколько выгодно объединить подмножества $C_i, C_j$ :

$g(C_i, C_j) = \frac{link[C_i,C_j]}{(n_i + n_j)^{1+2f( \theta )} - n_i^{1+2f( \theta )} - n_j^{1+2f( \theta )}}$

В данном алгоритме сначала все элементы разбиваются на $n$ подмножеств, затем делается $n - k$ шагов, на каждом из которых объединяются два подмножества, для которых значение функции полезности $g(i,j)$ наибольшее.

1.3 Вычислительное ядро алгоритма

Вычислительное ядро алгоритма состоит из двух основных частей.

1. Вычисление всех связей между точками. Для каждой точки создается список соседей. Проходим по каждому такому списку и увеличиваем количество связей между всеми точками из списка, поскольку они имеют общую соседнюю точку (ту, которой принадлежит список).

2. Цикл по объединению кластеров, содержит $n-k$ шагов, на каждом из которых мы находим наилучшие кластеры для объединения и перестраиваем соответствующие кучи.

1.4 Макроструктура алгоритма

Как написано в описании ядра алгоритма, алгоритм состоит из двух основных частей: Вычисление связей и Объединение кластеров.

1.5 Схема реализации последовательного алгоритма

Процедура кластеризации выглядит следующим образом:

procedure cluster(S, k)
begin
  link := compute_links(S)
  for each s [math]\in[/math] S do
    q[s] := build_local_heap(link, s)
  Q := build_global_heap(S, q)
  while size(Q) > k do {
    u := extract_max(Q)
    v := max(q[u])
    delete(Q, v)
    w := merge(u, v)
    for each x [math]\in[/math] q[u] [math]\cup[/math] q[v] do {
      link[x,w] := link[x, u] + link[x, v]
      delete(q[x], u); delete(q[x], v)
      insert(q[x],w, g(x,w)); insert(q[w], x, g(x,w))
      update(Q, x, q[x])
    }
    insert(Q,w, q[w])
    deallocate(q[u]), deallocate(q[v])
  }
end

1. Вычисление связей между каждой парой точек:

procedure compute_links(S)
begin
  Compute nbrlist[i] for every point i in S
  Set link[i, j] to be zero for all i, j
  for i := 1 to n do {
    N := nbrlist[i]
    for j := 1 to |N| - 1 do
      for l := j + 1 to |N| do
        link[N[j],N[l]] := link[N[j],N[l]] + 1
  }
end

Дла каждой точки $i$ строится список соседей $nbrlist[i]$ . Поскольку любые две точки в таком списке имеют nbrlist[i] в качестве общего соседа, то для всех пар точек из списка увеличиваем значение функции связей.

2. Каждая точка объявляется отдельным кластером. Для каждого кластера $i$ строится локальная куча $q[i]$ , которая поддерживается до конца работы алгоритма. $q[i]$ содержит все такие кластеры $j$ , что $link[i,j] \neq 0$ . Кластеры $j$ в $q[i]$ отсортированы в порядке убывания функции полезности $g(i,j)$ . Аналогичным образом создается глобальная куча $Q$ , содержащая все кластеры. Элементы внутри аналогично отсортированы в соответствии с их максимальным значением функции полезности.

3. Запускается while-цикл до тех пор, пока количество кластеров не станет равно $k$ . На каждом шаге цикла берутся два кластера с максимальным значением $g(i,j)$ и объединяются. Из глобальной кучи извлекается максимум, затем для этого кластера из его локальной кучи также извлекается максимум. По построению куч легко видеть, что это будет искомой парой. Далее происходит объединение кластеров, после чего для каждого кластера, который содержал в своей локальной куче один из данных, необходимо провести соответствующую коррекцию. Из глобальной кучи также удаляются два элемента и добавляется один новый с сохранением порядка.

1.6 Последовательная сложность алгоритма

Вычисление связей может рассматриваться как перемножение двух матриц размера $n$ , что можно реализовать за $O(n^{2.37})$ . Затраты памяти на хранение связей не превышают $n(n+1)/2$ , когда любая пара точек - соседние. Однако в большинстве случаев среднее число соседей $m_a$ и максимальное число соседей $m_m$ значительно меньше $n$ , в связи с этим оценки сложности зависят от данных параметров. Сложность построения списка соседей оценивается $O(n^2)$ . Для каждой точки, после вычисления списка своих соседей, алгоритм рассматривает все пары его соседей. Для каждой пары точка вносит одну связь. Если процесс повторяется для каждой точки и счетчик ссылок увеличивается на единицу для каждой пары соседей, то в конце концов, ссылка рассчитывает на будут получены все пары точек. Если $m_i$ - число соседей точки $i$ , тогда для нее мы должны увеличить количество связей на единицу $m_i^2$ раз. Таким образом, сложность алгоритма является $\sum m_i^2$ и может быть оценено $O(n m_m m_a)$ . Поскольку каждая точка $i$ может иметь не более $\min \{ m_m m_i, n \} )$ связей, то общие затраты памяти не превышают $O(\min \{ n m_m m_a, n^2 \} )$ .

Построение каждой кучи потребует не более $O(n)$ времени (поскольку размер каждой кучи не может превышать $n$ ) Сортировка каждой кучи потребует $O( n \log{} n)$ . Рассмотрим теперь основной while-цикл. Он содержит $O(n)$ итераций, где основная сложность каждого шага приходится на for-цикл. В худшем случае потребуется вставить новый кластер в $O(n)$ локальных куч размера $n$ , что потребует $O( n \log{} n)$ времени. Таким образом, сложность всего внешнего цикла составляет $O(n^2 \log{} n)$ в худшем случае. Затраты памяти зависят от начального размера локальных куч, поскольку при слиянии кластеров их старые кучи удаляются, а размер новой не превышает суммы старых. Поскольку каждая куча сожержит лишь кластеры с ненулевыми связями, то сложность совпадает с первой частью и равна $O(\min \{ n m_m m_a, n^2 \} )$ .

Итоговые оценки для всего алгоритма:

Сложность по времени:

$O(n^2 + n m_m m_a + n^2 \log{} n)$

Сложность по памяти:

$O(\min \{ n^2, n m_m m_a \} )$

Список обозначений:

$m_a$ - среднее число соседей

$m_m$ - максимальное число соседей

$m_i$ - число соседей точки

$i$

$n$ - размер входных данных

1.7 Информационный граф

рис 1. Граф в общем виде для n точек и k кластеров.

Обозначения :

CN - вершина построения соседей: заполнение nbrlist[i].
CLM - вершина построения матрицы связей: заполнение link[i][j].
CLH - вершина построения локальных куч: заполнение q[i].
CGH - вершина построения глобальной кучи: заполнение Q.
GC - вершина поиска и слияние топ 2 кластеров: построение w.
RL - пересчет матрицы связей: заполнение link[x,w].
UPDATE - Обновление глобальной кучи: обновление Q.

Как видно из графа в алгоритме есть ряд узких мест. Рассмотрим их подробнее:

1) Вершина построения матрицы links. Данные вычисления не могут быть прямо распараллелены, нельзя для каждого списка соседей запустить данную функцию. Это связано с тем, что во время выполнения данных вычислений необходимо производить запись в матрицу и любой список может писать в любое место матрицы. В худшем случае (когда все соседи всем) при параллельном запуске возможны постоянные конфликты. Но в данной вершине все же есть потенциал для параллельной работы. Он заключается в том, что можно в параллели обрабатывать список соседей. При подходе в лоб нагрузка на ядра будет не равномерна.

Так же данный пункт можно реализовать иначе. Но затраты по памяти возрастут в N раз. Можно параллельно обрабатывать каждый вектор соседей. При среднем количестве соседей $m_a$ это займет $O(m_a ^ 2)$ операций (или если мы имеем $n^2$ ядер, то можно и за $O(m_a)$ + $O(log(n))$ для объединения N матриц.

2) Вершина построения глобальной кучи. В данной вершине необходимо добавить все вершины и после отсортировать в зависимости от наилучшего значения полезности каждой локальной кучи. Сортировку можно распараллелить.

3) Вершина взятия топ 2 кластеров. Узкая, но малозатратная вершина.

4) Вершина обновления куч. Так же узкая вершина в которой нужно в каждой локальной куче вставить в нужное место кластер и так же поступить с глобальной кучей.

1.8 Ресурс параллелизма алгоритма

Кроме нескольких узких мест алгоритма, которые не поддаются распараллеливанию, в целом алгоритм неплохо может быть переложен на параллельную архитектуру. Рассчитаем сложность алгоритма.

1) На первом этапе происходит вычисление соседей. Затраты данных операций при условии достаточного количества ядер $T_1 = O(n)$

2) На этапе построения связей $n$ этапов в каждом из которых можно сделать $m$ расчетов(с учетом распараллеливания), где $m$ - количество соседей. В худшем случае $T_2 = O(n^2)$ в среднем случае $T_2 = O(n * m_a)$ , где $m_a$ среднее ожидаемое число соседей.

3) Построение одной кучи это сложность $O(n)$ . Плюс для каждой кучи сортировка $O(n * log(n))$ . Соответственно итоговая сложность создания локальных куч $T_3 = O(n * log(n))$ .

4) Построение и сортировка глобальной кучи так же $T_4 = O(n * log(n))$ .

5) Цикл в котором происходит выбор кластеров, сливание, пересчет и обновление куч. Игнорируем выбор кластеров (достать из кучи $O(1)$ ). Для всех элементов кучи слитых кластеров пересчитываем значение связи, вставляем в кучу выбранного кластера информацию о новом кластере, удаляем старое. Делается это за $O(log(n))$ . Соответственно в худшем случае, одна итерация цикла это $T_i = O(log(n))$ . Количество итераций n - k. Значит

$T_5 = O((n - k) * log(n))$ . При k = 1,

$T_5 = O(n * log(n))$

Итоговая сложность в худшем случае равна:

$T_1 + T_2 + T_3 + T_4 + T_5 = O(n) + O(n^2) + O(n * log(n)) + O(n * log(n)) + O(n * log(n)) = O(n^2)$

Итоговая сложность в среднем случае равна:

$O(n * m_a) + O(n * log(n))$ .

Тут важно понимать, что в зависимости от данных как $log(n)$ может быть больше $m_a$ , так и наоборот.

Сложность по времени:

$O(n * (m_a + log(n)))$ .

1.9 Входные и выходные данные алгоритма

Входные данные: Множество $S$ из $n$ элементов, число кластеров $k$ . В зависимости от реализации, некоторые параметры алгоритма могут также подаваться на вход или быть определены заранее.

Объем входных данных: Зависит от типа элементов из множества $S$ , поскольку алгоритм может быть реализован для широкого класса данных. В общем случае требуется хранить массив из $n$ элементов.

Выходные данные: Метки класса (номер кластера) для каждого элемента.

Объем выходных данных: Для каждого входного элемента достаточно вернуть соответствующую ему метку (число), поэтому минимальный размер выхода: массив из $n$ чисел.

1.10 Свойства алгоритма

Алгоритм является детерминированным.

Алгоритм является устойчивым.

Вычислительная мощность алгоритма равна:

$\frac{O(n^2 + n m_m m_a + n^2 \log{} n)}{n}$ .

Отношение последовательной и параллельной сложности:

$\frac{O(n^2 + n m_m m_a + n^2 \log{} n)}{O(n * (m_a + log(n)))}$ .

К свойствам алгоритма можно отнести то, что сложность в среднем зависит от данных. Если растет среднее ожидаемое количество соседей, то растет и средняя сложность алгоритма. В худшем случае она может достигать $O(n^2)$ для данных с большой кучностью (одна большая плотная куча, где по факту 1 кластер). Но, если же среднее ожидаемое число соседей меньше $log(n)$ , то сложность алгоритма будет $O(n *log(n))$ . В целом можно взять оценку $O(n * m_m)$ , где $m_m$ максимальное количество соседей.

2 ЧАСТЬ. Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

2.4.1 Масштабируемость алгоритма

Как можно видеть из графа, представленного выше, в алгоритме есть 3 основных места для распараллеливания: 1) Составление матрицы связей 2) Построение локальных куч 3) Основной цикл алгоритма

Теоретическая оценка сложности алгоритма распараллеленного на p потоков:

$O(\frac{n}{p}(n + m_m m_a + n\log{} n))$ .

Соответственно: 1) При одинаковых входных данных, время работы обратно пропорционально количеству потоков. 2) При одинаковом количестве потоков, время зависит от входных данных кубически в худшем случае.

2.4.2 Масштабируемость реализации

Реализация алгоритма тестировалась на IBM pSeries 690 HPC Regatta.

Максимальное количество потоков, способных работать в параллельном режиме: 16.
Процессоры POWER4 1,3 ГГц; 16-процессорная архитектура SMP

Параметры запусков: 1) Запуски осуществлялись на задачах объемом 400, 800, 1600, 2400 точек. 2) Запуски осуществлялись на 1, 2, 4, 8, 16 потоках. 3) Количество кластеров = 2, $\theta$ = 0.3, соседями считались все точки в радиусе 0.3 .

Количество потоков / Количество точек	400	800	1200	1600
1	23 с.	188 с.	631 с.	1514 с.
2	17 с	134 с	452 с	1079 с
4	10 с	79 с	268 с	631 с
8	8 с	45 с	144 с	342 с
16	4 с	24 с	79 с	185 с

Как видно из таблицы, масштабируемость реализации коррелирует с теоретической оценкой.

Наглядно эти данные можно увидеть на следующем изображении.

рис 2. Масштабируемость реализации

Реализация доступна по ссылке на github [1]

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

feed4weka [2] - открытая библиотека, которая содержит различные алгоритмы для работы с данными.

3 Литература

1) ROCK: A Robust Clustering Algorithm for Categorical Attributes[3]

2) Data Mining Algorithms In R/Clustering/RockCluste [4]

Участник:Tikhomirov.mm/Алгоритм устойчивой кластеризации с иcпользованием связей (robust clustering using links, ROCK)