Участник:Ruslanlazovskiy/CHAMELEON

Эта работа успешно выполнена
Преподавателю: в основное пространство, в подстраницу
Данное задание было проверено и зачтено.
Проверено Kronberg и Algoman.

CHAMELEON
Последовательный алгоритм
Последовательная сложность	$O(nm + nlog{n} + m*log{m})$
Объём входных данных	$n^2 / 2$
Объём выходных данных	$n$
Параллельный алгоритм
Высота ярусно-параллельной формы	$O(n)$ - этап 1. $O(q)$ - отдельная итерация этапа 3.
Ширина ярусно-параллельной формы	$O(n)$ - этап 1. $O(q)$ - отдельная итерация этапа 3.

Авторы статьи: Лазовский Р. А. (разделы 1.1 - 1.4 , 1.7 , 1.8), Мустафаев Э. Э. (разделы 1.5 , 1.6 , 1.9 , 1.10 , 2.2)

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

CHAMELEON – алгоритм динамической иерархической кластеризации графа, то есть процесса разбиения графа на несколько подграфов-кластеров таким образом, что данные внутри одного кластера имеют максимально схожи, а данные в разных кластерах — максимально различны. В классических алгоритмах кластеризации схожесть объектов определяется с помощью некоторой метрики (простейший пример — евклидова метрика). Не следует путать задачу кластеризации с задачей классификации: в последней характеристики объекта, необходимые для попадания в тот или иной класс, известны заранее, в рассматриваемой же задаче они становятся известны в процессе решения. Первоначально алгоритм был описан в статье^[1].

Алгоритм CHAMELEON работает в 3 этапа. На первом этапе исходное множество объектов организуется в граф по принципу k ближайших соседей. На втором этапе этого граф разбивается на достаточно малые подграфы-кластеры. На третьем этапе происходит агломеративная иерархическая кластеризация полученных подграфов в соответствии с одной из выбранных метрик (возможные метрики будут подробно описаны далее). Число получаемых в итоге кластеров в явном виде не задаётся.

1.2 Математическое описание алгоритма

Исходные данные: Первоначально исходными данными алгоритма являются $n$ векторов длины $p$ , каждый из которых соответствует одному объекту. На основании значений элементов этих векторов строится матрица смежности размера $n * n$ , возможно сокращение требуемого объема памяти до $(n*(n - 1))/ 2$ в соответствии с выбранной метрикой. К исходным данным также относится набор параметров. Это $k$ - количество ближайших соседей на первом этапе алгоритма, $q$ - отношение количества вершин в наибольшем подграфе по отношению к общему числу объектов на втором этапе алгоритма, а также параметры $T_{RI}, T_{RI}$ - пороговые значения, после которых прекращается агломеративная кластеризация на третьем этапе. Следует особо отметить, что число получаемых в итоге кластеров заранее не известно, хотя на него и можно повлиять изменением значений перечисленных параметров.

Первый этап алгоритма: На первом этапе на основании матрицы смежности строится граф $G = (V, E)$ $k$ ближайших соседей, где $V$ - множество вершин графа (т.е. объекты), а $E$ - множество ребер графа (т.е. построенные связи между ближайшими соседями). Указанный граф не обязательно является связным.

Второй этап алгоритма: Граф $G = (V, E)$ итеративно разбивается на множество подграфов $G_{i} = (V_{i}, E_{i}), i = 1 .. m$ , где $\cup V_{i} = V, i = 1 .. m$ . Параметр $m$ явно не задаётся, выполнение этого этапа алгоритма прекращается по выполнении описанных далее условий. На каждой итерации выбирается $G_{b}$ с числом вершин, наибольшим среди всех подграфов, имеющихся на данной итерации. Этот граф разбивается на 2 подграфа $G_{bi}$ и $G_{bj}$ таких, что 1) $min(V_{bi},V_{bj}) \gt = 0.25 * V_{b}$ (имеется ввиду количество вершин) и 2) $\sum{E_{kl}}, E_{kl} = (v_{k}, v_{l}), v_{k} \in V_{bi} , v_{l} \in V_{bj}$ минимальна среди всех разбиений, удовлетворяющих 1). Итеративный процесс прекращается, когда $\sum{v_{b}} \lt = q * \sum{v} , v_{b} \in V_{b} , e \in E$ (имеется ввиду количество вершин). Здесь $q$ - задаваемый параметр, на практике он варьируется от $0.01$ до $0.05$ . Полученные подграфы называются малыми кластерами.

Третий этап алгоритма: Множество кластеров $G_{i} = (V_{i}, E_{i}), i = 1 .. m$ итеративно преобразуется в множество кластеров $G_{j} = (V_{j}, E_{j}), j = 1 .. l$ , $l \lt = m$ . Для этого вводятся следующие понятия:

$EC_{(C_{i},C_{j})}$ - абсолютная взаимная связность пары кластеров $C_{i}, C{j}$ . Это суть сумма весов ребер, соединяющих вершины, принадлежащие $C{i}$ c вершинами из $C{j}$ . $EC_{(C_{i},C_{i})}$ вычисляется как сумма ребер, входящих в разделитель, разбивающий $C{i}$ на два равных подграфа.
$S_{EC_{(C_{i},C_{j})}}$ - абсолютное взаимное сходство пары кластеров $C_{i}, C{j}$ . Это суть среднее сходство между соединенными вершинами, принадлежащими $C{i}$ и $C{j}$ соответственно. Соединения обусловлены разбиением общего графа, полученного на первом этапе алгоритма.
$RI_{(C_{i},C_{j})} = \frac{2*|EC_{(C_{i},C_{j})}|}{|EC_{C_{i}}|+|EC_{C_{j}}|}$ - относительная взаимная связность пары кластеров $C_{i}, C{j}$
$RC_{(C_{i},C_{j})}= \frac{S_{EC_{(C_{i},C_{j})}}}{\frac{|C_{i}|}{|C_{i}+C_{j}|}*S_{EC_{(C_{i})}}+\frac{|C_{i}|}{|C_{i}+C_{j}|}*S_{EC_{(C_{j})}}}$ - относительное взаимное сходство пары кластеров $C_{i}, C{j}$

На основании этих показателей осуществляется агломеративная иерерхическая кластеризация. Существует две стратегии анализа показателей сходства. В первом случае для каждой пары кластеров $C{i}, C{j}$ проверяется истинность выражений $RI_{(C_{i},C_{j})} \gt = T_{RI}$ и $RC_{(C_{i},C_{j})} \gt = T_{RC}$ , где $T_{RI}, T_{RI}$ - заранее заданные пороговые значения. Если для некоторого $C_{i}$ таких $C_{j}$ несколько, то конкретная пара определяется по максимуму значения $EC_{(C_{i},C_{j})}$ . Во втором случае выбираются пары кластеров, максимизирующие функцию вида $RI_{(C_{i},C_{j})}*RC_{(C_{i},C_{j})}^\alpha$ . Здесь $\alpha$ - заданный пользователем параметр. В обоих случаях процесс останавливается либо когда на очередной итерации не находится подходящих пар кластеров, либо когда остаётся только один кластер.

Вычисляемые данные: В процессе агломеративной кластеризации для всех объектов, т.е. всех вершин всех кластеров указывается индекс $j$ кластера, к которому они принадлежат. После завершения алгоритма возможно перенумеровать кластеры. В любом случае на выходе будет иметься $n$ значений, так как число объектов в процессе работы алгоритма не изменялось.

1.3 Вычислительное ядро алгоритма

В алгоритме 3 основных вычислительных ядра, по одному на каждый этап алгоритма.

На первом этапе алгоритма основная вычислительная нагрузка приходится на анализ матрицы смежности, необходимого для построения первоначального графа $G = (V, E)$ , так как для каждого объекта необходимо перебрать всех его соседей и выделить $k$ ближайших по заданной метрике.

На втором этапе наибольшее время занимает поиск подходящего разбиения очередного подграфа. В элементарном варианте этой процедуры необходимо перебрать все комбинации вершин в этом подграфе, удовлетворяющие условию 1) из математического описания алгоритма, и для каждой из них подсчитать значение, используемое в 2).

На третьем этапе алгоритма вычислительное ядро полностью совпадает с самим этапом, то есть итерационным процессов агломеративной иерархической кластеризации, включающем в себя подсчёт выбранной метрики для каждой пары кластеров, имеющихся на очередной итерации.

1.4 Макроструктура алгоритма

Как уже понятно из предыдущих разделов описания, алгоритм CHAMELEON выполняется в 3 этапа, последовательных относительно друг друга. Каждый этап, строго говоря, соответствует отдельному алгоритму. В рамках этого описания макрооперациями будут считаться процедуры разбиения наибольшего подграфа на каждой итерации второго этапа алгоритма, а также процедура вычисления метрики для принятия решения об объединении кластеров на каждой итерации третьего этапа.

1.5 Схема реализации последовательного алгоритма

Схема представлена в виде C++-подобного псевдокода, макрооперации в алгоритме выделены в соответствии с предыдущим разделом описания.

 // First stage.
 int k // Number of neighbors.
 float v[n][p] // Initial vectors.
 float M[n][n] // Adjacency matrix.
 for (int i = 0; i < n; ++i) {
  for (int l = 0; l < n; ++l) {
   M[i][l] = Compute_metric(v[i],v[l]);
  }
 }
 Graph max_graph // Structure/class that represents a graph.
 Neighbor_list list // Here neighbors are initially stored.
 max_graph.add_vertices // Vertices ~ initial vectors.
 for (int i = 0; i < n; ++i) {
  for (int l = i + 1; i < n; ++i) { // "Smart" version - we do not repeat same vertex combinations.
   if (neighbor_number < k) {
     add_neighbor(v[i],v[l]) // Just add.
   }else{
     substitute_neighbor(v[i],v[l]) // Check whether a new element is closer than some of the oldies.
   }
  }
  max_graph.add_neighbors // Looks at neighbor lists of current vector and adds them
 }

 // Second stage. 
 float percent // Determines when to stop splitting graphs. 
 Graph graphs[n] // GRAPHS WILL MOST LIKELY TAKE LESS SPACE, IT'S JUST THE UPPER LIMIT. 
 max_graph = find_max_graph() // Biggest graph by number of vertices available. 
 while (graph_size(max_graph) > n * percent) {
   Split_graph(max_graph); // Split the graph - a macro operation that represents the second phase.
 }

 // Third stage. 
 Graph graphs[m] // That's how many graphs we got. m <= n. 
 bool pairs_exist // Check if the're pairs of clusters to unite.
 while (num_graphs > 1 && pairs_exist){
  pairs_exist = false // So we don't repeat if it fails.
  for (int i = 0; i < m; ++i) {
   for (int l = i + 1; l < m; ++l) { // Also a "Smart" version.
     check_pair(pairs_exist, graphs[i], graphs[l]); // Check whether graphs are similar enough by some metrics.
     if (pairs_exist) { Unite_graphs(graphs[i], graphs[l]) }; // Pairs_exist is set to true if something's found.
   }
  }
 }

1.6 Последовательная сложность алгоритма

Общая временная сложность последовательного варианта алгоритма CHAMELEON определяется как $O(nm + nlog{n} + mlog{m})$ , где $n$ - число исходных объектов, $m$ - число малых кластеров, полученных после первого этапа работы. В случае "предельного" разбиения $m = n$ эта оценка превращается в $O(n^2)$ . В любом случае эта оценка не учитывает необходимости построения матрицы смежности по исходному набору векторов (авторы оригинальной статьи в своих исследованиях подразумевают, что матрица смежности уже построена), что означает дополнительные $O(n^2)$ операций. Тогда оценка будет составлять $O(n^2 + nm + nlog{n} + mlog{m})$ операций или $O(n^2)$ в случае "предельного" разбиения. Следует также обратить внимание, что это оценка по числу не сложений и умножений, а достаточно крупных операций. Например, вычисление метрики между двумя векторами рассматривается как одна операция, а она включает в себя $n$ умножений и $2n$ сложений (для вычисления квадратичной нормы разности векторов).

1.7 Информационный граф

Информационный граф дан в соответствии с макроструктурой алгоритма. Следует отметить, что имеются успешные попытки распараллелить 2 и 3 этапы алгоритма CHAMELEON (см. раздел "Существующие реализации"). Однако они включают в себя модификацию исходного алгоритма. Также возможно распараллеливание выборки пар кластеров и подсчёта их метрик внутри каждой из вершин stage_3_iter. Структура информационного графа внутри этих итераций аналогична структуре информационного графа первого этапа алгоритма.

1.8 Ресурс параллелизма алгоритма

Параллельную сложность алгоритма CHAMELEON следует оценивать отдельно для каждого этапа. На первом этапе алгоритм поиска $k$ ближайших соседей может быть выполнен за $n - 1$ вычислений значения метрики между двумя векторами. На втором этапе итерации алгоритма выполняются строго последовательно, а распараллеливание алгоритма внутри итерации не относится к теме статьи. На третьем этапе итерации также выполняются последовательно, однако возможно распараллеливание обработки пар кластеров внутри итерации. Каждая итерация может быть выполнена за $q - 1$ вычислений значения метрики между двумя кластерами, где q - количество кластеров на этой итерации.

1.9 Входные и выходные данные алгоритма

Входные данные:

$O$ - набор из $n$ векторов длины $p$ .
$k$ - число, определяющиее количество ближайших соседей, по которым строится первоначальный граф.

Выходные данные:

$B$ - вектор длины $n$ , значение $i$ -го элемента указывает на принадлежность соответствующего вектора одному из кластеров.

1.10 Свойства алгоритма

Соотношение последовательной и параллельной сложности: Различные этапы алгоритма строго последовательны относительно друг друга. На первом этапе отношение последовательной сложности алгоритма к параллельной есть $n/2$ . На втором и третьем этапах различные итерации последовательны относительно друг друга. Однако внутри итераций допускается некоторый параллелизм. Например, для итераций третьего этапа в наилучшем случае отношение сложности последовательной реализации к параллельной есть $q/2$ , где $q$ - число кластеров на конкретной итерации.

Вычислительная мощность: графовые алгоритмы, вообще говоря, обладают низкой вычислительной мощностью. В случае CHAMELEON вычислительная мощность первого этапа равна $O(1)$ . Для второго и третьего этапов оценка вычислительной мощности по сложениям и умножениям затруднительна, однако в терминах макроопераций можно дать грубую оценку. Вычислительная мощность каждой итерации второго этапа - $1 / \sum C_n^k$ , где $n$ - число вершин в выбранном подграфе, а $k$ варьируется от $0.25 * n$ до $0.5 * n$ . Вычислительная мощность каждой итерации третьего этапа в этих терминах - $O(1)$ .

Детерминированность: Важной особенностью описываемого алгоритма является его недетерминированность. Условия завершения как 2-го, так и 3-го этапа позволяют обозначить CHAMELEON как итерационный алгоритм с выходом по точности. При этом детерминированность 2-го этапа алгоритма можно обеспечить указанием вырожденных условий кластеризации (такая кластеризация, очевидно, не будет иметь практического смысла), в то время как 2-ый этап является недетерминированным всегда.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

Как можно увидеть из раздела "существующие реализации", параллельной реализации алгоритма CHAMELEON на система с распределенной памятью найдено не было. Однако в ^[2]. приводится экспериментальный вариант параллельной реализации посредством OpenMP для систем с общей памятью, включающий в себя значительную модификацию исходного алгоритма, но не приводится рабочая реализация.

В силу вышескасновного основное внимание будет уделено исследованию масштабируемости алгоритма по размеру задачи, в пределах одного узла. Далее приводятся графики производительности в Гфлопс для различных размеров задачи. Эффективность работы алгоритма убывает на всей рассматриваемой области. Темпы убывания эффективности снижаются с ростом размера задачи.

Для исследования такой масштабируемости вширь использовалась референсная последовательная реализация алгоритма (cм. раздел "Существующие реализации"). Соответствующая программа запускалась на системе BG/P на одном вычислительном узле. Характеристики вычислительного узла, а также микропроцессорного ядра - элемента такого узла, приводятся в ^[3] Таким образом, удостоверенными экспериментальными данными являются только значения, полученные для случая 1 процесса. Значения для случаев 2 и 4 процессов являются ОЦЕНОЧНЫМИ и выводятся из результатов работы модифицированной версии алгоритма, исследуемой в ^[2]. К сожалению, указанной реализации авторы не предоставляют.

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

С копией референсной реализации иерархической кластеризации, взятой с данного ресурса Sequental, в случае неработоспособности последнего, можно ознакомиться здесь Copy
Последовательная реализация алгоритма CHAMELEON использовалась в статье ^[4] Теоретически возможна реализация алгоритма CHAMELEON с использованием графовых библиотек, например METIS , hMETIS и RANN.
Параллельных реализаций алгоритма CHAMELEON в графовых библиотеках мною найдено не было. Однако существует исследование, связанное с реализацией CHAMELEON посредством технологии OpenMP, с которым можно ознакомиться здесь параллельная реализация.

3 Литература

Краткий обзор алгоритма [1]
Первоначальная статья от авторов алгоритма [2]

Исследования возможной параллелизации алгоритма[3]

↑ CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling. George Karypis, Eui-Hong Han, Vipin Kumar. IEEE Computer 32(8): 68-75, 1999
↑ ^{Перейти обратно: 2,0} ^2,1 Parallel Algorithm for the Chameleon Clustering Algorithm using Dynamic Modeling. Rajnish Dashora, Harsh Bajaj, Akshat Dube, Geetha Mary .A. VIT University,Vellore. International Journal of Computer Applications (0975 – 8887) Volume 79 – No8, October 2013
↑ http://hpc.cmc.msu.ru/bgp
↑ Clustering Of Web Usage Data Using Chameleon Algorithm, T.Vijaya Kumar, Dr. H.S.Guruprasad, International Journal of Innovative Research in Computer and Communication Engineering, Vol. 2, Issue 6, June 2014

[1] CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling. George Karypis, Eui-Hong Han, Vipin Kumar. IEEE Computer 32(8): 68-75, 1999

[exp-2] {Перейти обратно: 2,0} ^2,1 Parallel Algorithm for the Chameleon Clustering Algorithm using Dynamic Modeling. Rajnish Dashora, Harsh Bajaj, Akshat Dube, Geetha Mary .A. VIT University,Vellore. International Journal of Computer Applications (0975 – 8887) Volume 79 – No8, October 2013

[3] ttp://hpc.cmc.msu.ru/bgp

[4] Clustering Of Web Usage Data Using Chameleon Algorithm, T.Vijaya Kumar, Dr. H.S.Guruprasad, International Journal of Innovative Research in Computer and Communication Engineering, Vol. 2, Issue 6, June 2014

[1]

[2]

[3]

[4]