Участник:Артем Таран/Графо-ориентированный алгоритм кластеризации CHAMELEON: различия между версиями

Версия 18:45, 15 октября 2016

Эта работа ждет рассмотрения преподавателем
Дата последней правки страницы: 15.10.2016
Авторы этой статьи считают, что задание выполнено.

Графо-ориентированный алгоритм кластеризации CHAMELEON
Последовательный алгоритм
Последовательная сложность	$O(n^2+nm+m^2log(m))$
Объём входных данных	$\frac{n (n - 1)}{2}$
Объём выходных данных	$n$
Параллельный алгоритм
Высота ярусно-параллельной формы	$O(n + log(n) + m^2log(m))$
Ширина ярусно-параллельной формы	$O(n)$

Статью подготовили: Артём Таран Иванович (разделы 1.1 - 1.10, 2.7), Шимчик Никита Владимирович (разделы 1.1 - 1.10, 2.7).

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Кластеризация — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры) с минимизацией межкластерного сходства и максимизацией внутрикластерного сходства.

Графо-ориентированный алгоритм кластеризации CHAMELEON^[1] - алгоритм, который измеряет сходство двух кластеров на основе динамической модели. В процессе кластеризации два кластера объединяются, только если показатели взаимосвязанности и близости между двумя кластерами являются высокими по отношению к показателям внутренней взаимосвязанности кластеров и близости элементов внутри этих кластеров. Процесс слияния с использованием динамической модели, использующийся в данном алгоритме облегчает открытие природных и однородных кластеров. Методология динамического моделирования кластеров, использующаяся в CHAMELEON, применима ко всем типам данных, для которых может быть построена матрица подобия.

Алгоритм кластеризации CHAMELEON включает в себя три этапа:

1) Построение графа, путём добавления рёбер по принципу k ближайших соседей.

2) Выделение множества сравнительно малых связных подграфов.

3) Формирование набора кластеров, на основе множества подграфов, полученных на предыдущем этапе.

Графы k ближайших соседей: 1) объекты в пространстве, 2) граф по принципу 1-го ближайшего соседа, 3) граф по принципу 2-го ближайшего соседа, 4) граф по принципу 3-х ближайших соседей

1.2 Математическое описание алгоритма

1.2.1 Данные

Исходные данные: множество из $n$ точек $V = \{v_{i}\}$ в метрическом пространстве, которое может быть задано в виде треугольной матрицы расстояний $A$ размера $n\times n$ .

Промежуточный результат после первого этапа: граф $G = (V, E)$ , полученный путём соединения каждой точки с её $k$ ближайшими соседями.

Промежуточный результат после второго этапа: разбиение множества $V$ на набор $K = \{K_{i}\}$ попарно непересекающихся связных подмножеств, из которого образуется взвешенный граф $G_{2} = (K, E_{2})$ .

Промежуточный результат после третьего этапа: итоговое разбиение множества вершин графа $G_{2}$ на набор кластеров $C = \{C_{i}\}$ .

Вычисляемые данные: n-мерный вектор $v$ (элементы $v_{i}$ ), показывающий отображение исходного множества точек на набор кластеров $C$ .

1.2.2 Определения

Абсолютная взаимная связность между парой кластеров $C_{i}$ и $C_{j}$ определяется как сумма весов ребер, соединяющих вершины, принадлежащие $C_{i}$ с вершинами из $C_{j}$ . Эти ребра, фактически, входят в разделитель ребер графа, состоящего из кластеров $C_{i}$ и $C_{j}$ , и разбивающим его на подграфы $C_{i}$ и $C_{j}$ . Обозначается эта величина как

$EC_{(C_{i},C_{j})}$ . Внутреннюю связность $EC_{C_{i}}$ кластера $C_{i}$ можно вычислить как сумму ребер, входящих в разделитель ребер, разбивающий $C_{i}$ на два совершенно равных подграфа.

Относительная взаимная $RI_{(C_{i},C_{j})}$ связность пары кластеров $C_{i}$ и $C_{j}$ определяется формулой:

$RI_{(C_{i},C_{j})} = \frac{2*|EC_{(C_{i},C_{j})}|}{|EC_{C_{i}}|+|EC_{C_{j}}|}$

Учитывая значения относительной взаимной связности, можно добиться получения кластеров разного размера, формы и плотности, то есть общего внутреннего сходства.

Абсолютное взаимное сходство между парой кластеров $C_{i}$ и $C_{j}$ подсчитывается как среднее сходство между соединенными вершинами, принадлежащими $C_{i}$ и $C_{j}$ соответственно. Эти соединения обусловлены предыдущим разбиением общего графа, полученного на матрице сходства.

Относительное взаимное сходство $RC_{(C_{i},C_{j})}$ между парой кластеров $C_{i}$ и $C_{j}$ определяется как абсолютное сходство между этой парой кластеров, нормализованное с учетом их внутреннего сходства и вычисляется по формуле:

$RC_{(C_{i},C_{j})}= \frac{S_{EC_{(C_{i},C_{j})}}}{\frac{|C_{i}|}{|C_{i}+C_{j}|}*S_{EC_{(C_{i})}}+\frac{|C_{i}|}{|C_{i}+C_{j}|}*S_{EC_{(C_{j})}}}$ ,

где $S_{EC_{(C_{i})}}$ и $S_{EC_{(C_{i})}}$ - средние веса ребер (значения сходства), принадлежащих разделителю ребер кластеров $C_{i}$ и $C_{j}$ соответственно, и $S_{EC_{(C_{i},C_{j})}}$ - средний вес ребер, соединяющих вершины $C_{i}$ с вершинами $C_{j}$ , причем ребра принадлежат разделителю ребер $EC_{(C_{i})}$ , определенному ранее.

Далее, алгоритм применяет агломеративную иерархическую кластеризацию с использованием вышеозначенных показателей. Причем существует две стратегии их учета. Первая подразумевает наличие некоторых пороговых значений $T_{RI}$ и $T_{RC}$ . В соответствии с этой стратегией, алгоритм для каждого кластера $C_{i}$ проверяет, отвечают ли смежные (наиболее близкие) ему кластеры условиям:

$RI_{(C_{i},C_{j})} \geqslant T_{RI}$

$RC_{(C_{i},C_{j})} \geqslant T_{RC}$

Если более одного смежного кластера отвечает этим условиям, то алгоритм выбирает для объединения наиболее связный кластер (граф), то есть такой кластер $C_{j}$ , с которым у кластера $C_{i}$ получается наибольшая абсолютная взаимная связность. По завершению прохода по всем кластерам, созданные таким образом пары объединяются. Параметры $T_{RI}$ и $T_{RC}$ могут использоваться для изменения характеристик получаемых кластеров.

Вторая стратегия заключается в использовании специальной функции, объединяющей понятия относительной взаимной связности и относительного взаимного сходства. На каждом шаге выбираются те кластеры для объединения, которые максимизируют эту функцию:

$RI_{(C_{i},C_{j})}*RC_{(C_{i},C_{j})}^\alpha$ ,

где $\alpha$ выбирается пользователем. Если $\alpha \gt 1$ , то алгоритм придает большее значение относительному взаимному сходству, а если $\alpha \lt 1$ , то большее значение имеет относительная взаимная связность. Разумеется, данный подход позволяет получить полную дендрограмму кластерного анализа^[2].

1.3 Вычислительное ядро алгоритма

На первом этапе работы алгоритма вычислительным ядром можно считать процесс нахождения k ближайших соседей для каждой отдельной вершины.

На втором этапе работы алгоритма вычислительным ядром является поиск разбиения графа на два подграфа с минимизацией разделителя рёбер графа.

На третьем этапе работы алгоритма вычислительным ядром является расчёт $EC_{(C_{i},C_{j})}$ , $RC_{(C_{i},C_{j})}$ и $RI_{(C_{i},C_{j})}$ для пары смежных кластеров, а также их слияние.

1.4 Макроструктура алгоритма

Алгоритм CHAMELEON выполняется в 3 этапа, последовательных относительно друг друга. Каждый этап соответствует отдельному алгоритму.

Макрооперацией на первом этапе является процедура выделения k ближайших соседей.

Макрооперацией на втором этапе является процедура разбиения наибольшего подграфа на каждой итерации.

Макрооперациями на третьем этапе являются процедуры вычисления метрики для принятия решения об объединении кластеров и объединение кластеров на каждой итерации.

1.5 Схема реализации последовательного алгоритма

Первый этап (псевдокод):

 integer n; // Количество точек.
 integer k; // Параметр k
 integer A[n][n]; // Верхняя треугольная матрица расстояний между точками.
 
 integer E[n][n]; // Верхняя треугольная матрица рёбер графа G - изначально инициализирована нулями.
 foreach (integer i in (1,n-1) ) {
   integer Neighbors[k]; // матрица, используемая хранения ближайших соседей
   integer countN = 0;
   
   foreach (integer j in (i+1, n) ) {
     // Заполняем матрицу Neighbors, добавляя новые элементы и увеличивая счётчик countN.
     // Когда countN станет равен k, новые элементы будут вставляться на место старых, либо отбрасываться.
   }
 
   foreach (integer j in (0, countN) ) {
     E[min(i,j), max(i,j)] = 1;
   }
 }
 return E;

Второй этап:

Третий этап:

1.6 Последовательная сложность алгоритма

1) Построение графа на основе метода k ближайших соседей в худшем случае требует $O(n^2)$ операций;

2) Для выделения множества сравнительно малых связных подграфов требуется $nm$ операций;

3) Формирование набора кластеров, на основе множества подграфов, полученных на предыдущем этапе, требует $m^2log(m)$ операций.

Итого, получаем последовательную сложность $O(n^2+nm+m^2log(m))$ .

1.7 Информационный граф

1.8 Ресурс параллелизма алгоритма

Первый этап работы алгоритма можно распределить между $n$ процессами: в этом случае каждому процессу назначается своя точка и происходит поиск $k$ ближайших соседей. Таким образом, его параллельная сложность составляет O(n).

На втором этапе количество задействованных процессов может варьироваться в зависимости от входных данных. В худшем случае число итераций можно оценить как $O(log(n))$ .

Третий этап распараллелить возможно частично: при расчете метрик сходства между классами $C_{i}$ и $C_{j}$ , выделив для каждого $C_{i}$ свой процесс. Поскольку процесс сравнения кластеров возможно распараллелить сложность 3-го этапа составляет $mlog(m)$ .

Таким образом, суммарная параллельная сложность оказывается равна $O(n + log(n) + mlog(m))$ .

1.9 Входные и выходные данные алгоритма

Входные данные:

1) Треугольная матрица $A$ размера $n\times n$ (где n — количество объектов), в которой элементу $a_{ij}$ соответствует расстояние между i-м и j-м объектами.

2) Количество ближайших соседей $k$ для вершин (рекомендуемое значение $k$ от 5 до 20 в зависимости от количества анализируемых объектов).

3) Наименьшее число вершин, которое может содержать наибольший подграф на 2-м этапе $l$ . Величина этого параметра варьируется от 1 до 5 % от общего числа объектов.

Объём входных данных: $\frac{n (n - 1)}{2}$

Выходные данные: n-мерный вектор $v$ , в котором элементу $v_{i}$ соответствует номер кластера, присвоенный i-му объекту

Объём выходных данных: $n$

1.10 Свойства алгоритма

Первый этап алгоритма обладает хорошим ресурсом параллелизма: параллельная сложность его выполнения составляет $O(n)$ , что намного лучше последовательной оценки $O(n^2)$ .

У второго и третьего этапов алгоритма сложно полностью оценить ресурсы параллелизма. Но оба этапа возможно частично распараллелить.

Детерминированность: Важной особенностью данного алгоритма является его недетерминированность. Несмотря на то, что 1-й этап детерминирован, алгоритм в целом является недетерминированным, так как на 2-ом этапе невозможно предсказать разбиение исходного графа на подграфы.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

Существует несколько последовательных реализаций алгоритма. С одной из них можно ознакомиться по ссылке ^[3].

Возможна реализация алгоритма CHAMELEON с использованием графовых библиотек, как, например METIS ^[4] , hMETIS ^[5] и RANN ^[6].

Параллельных реализаций алгоритма CHAMELEON найдено не было. Однако существует исследование, связанное с реализацией CHAMELEON посредством технологии OpenMP, с которым можно ознакомиться здесь ^[7].

3 Литература

[rt-1] ttp://www-users.cs.umn.edu/~han/dmclass/chameleon.pdf

[rty-2] ttp://studopedia.ru/7_41934_algoritm-dinamicheskoy-ierarhicheskoy-klasterizatsii-CHAMELEON.html

[tra-3] ttp://www.codeforge.com/article/192925

[tru-4] ttp://glaros.dtc.umn.edu/gkhome/metis/metis/overview

[tri-5] ttp://glaros.dtc.umn.edu/gkhome/metis/hmetis/overview

[tro-6] ttps://cran.r-project.org/web/packages/RANN/index.html

[tr-7] ttp://research.ijcaonline.org/volume79/number8/pxc3891600.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

@@ Строка 169: / Строка 169: @@
 Первый этап алгоритма обладает хорошим ресурсом параллелизма: параллельная сложность его выполнения составляет <math>O(n)</math>, что намного лучше последовательной оценки <math>O(n^2)</math>.
-У второго и третьего этапов алгоритма сложно полностью оценить ресурсы параллелизма. Второй этап возможно частично распараллелить, в том время третий этап в основном является последовательным.
+У второго и третьего этапов алгоритма сложно полностью оценить ресурсы параллелизма. Но оба этапа возможно частично распараллелить.
 <b>Детерминированность:</b> Важной особенностью данного алгоритма является его недетерминированность. Несмотря на то, что 1-й этап детерминирован, алгоритм в целом является недетерминированным, так как на 2-ом этапе невозможно предсказать разбиение исходного графа на подграфы.