Участник:Denemmy/Partitioning Around Medoids (Алгоритм)

Эта работа успешно выполнена
Преподавателю: в основное пространство, в подстраницу
Данное задание было проверено и зачтено.
Проверено Dexter и Zhum.

Partitioning Around Medoids
Последовательный алгоритм
Последовательная сложность	$O(TKN^2)$
Объём входных данных	$N*(N-1)/2 + 2$
Объём выходных данных	$N$

Авторы: Галеев Д.Ф, Запутляев И.

Оба автора в равной мере участвовали в написании, обсуждении и оформлении содержимого статьи.

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Кластеризация - это задача из области машинного обучения, которая заключается в том, что нужно выделить некоторое число групп в исходном множестве, в каждой из которых содержатся схожие по некоторой метрике элементы.

Алгоритм Partitioning Around Medoids (PAM) был создан Леонардом Кауфманом (Leonard Kaufman) и Питером Руссивом (Peter J. Rousseeuw)^[1]. и он очень похож на алгоритм K-means, в основном потому, что оба являются алгоритмами кластеризации, другими словами, оба разделяют множество объектов на группы (кластеры) и работа обоих основана на попытках минимизировать ошибку, но PAM работает с медоидами - объектами, являющимися частью исходного множества и представляющими группу, в которую они включены, а K-means работает с центроидами - искусственно созданными объектами, представляющими кластер.

Алгоритм PAM разделяет множество из N объектов на K кластеров, где и множество объектов, и число K являются входными данными алгоритма. Алгоритм работает с матрицей расстояний, его цель - минимизировать расстояние между представителями каждого кластера и его членами. Алгоритм использует следующую модель для решения задачи:^[2]

$F(x)=minimize \sum_{i=1}^{N}\sum_{j=1}^{N} d(i,j)z_{ij}$

При этом:

1. $\sum_{i=1}^N {z_{ij} = 1} , j = 1,2,...,N$ ;

2. $z_{ij} \le y_i , i, j = 1,2,...,N$ ;

3. $\sum_{i=1}^N {y_i = K} , K -$ число кластеров;

4. $y_i , z_{ij} \in \{ 0,1 \} , i, j = 1,2,...,N$ .

где функция $F(x)$ - целевая минимизируемая функция, $d(i,j)$ - мера расстояния между объектами $i$ и $j$ , $z_{ij}$ - переменная, которая гарантирует, что расстояние только между объектами из одного кластера будет вычислено в целевой функции. Остальные выражения являются следующими ограничениями:

1. Каждый объект принадлежит одному и только одному кластеру;

2. Каждый объект относится к медоиде, представляющей его кластер;

3. Есть в точности K кластеров;

4. Решающая переменная принимает значения 0 или 1.

PAM может работать с двумя типами входных данных:

1. С матрицей объектов и значениями ее переменных;

2. С матрицей расстояний.

Алгоритм имеет две фазы:

Фаза Build:

1. Выбрать K объектов в качестве медоид;

2. Построить матрицу расстояний, если она не была задана;

3. Отнести каждый объект к ближайшей медоиде;

Фаза Swap:

4. Для каждого кластера найти объекты, снижающие среднее расстояние, и если такие объекты есть, выбрать те, которые снижают его сильней всего, в качестве медоид;

5. Если хотя бы одна медоида поменялась, вернуться к шагу 3, иначе завершить алгоритм.

1.2 Математическое описание алгоритма

Обозначения:

1. $M = \{ x_{m_1}, x_{m_2}, ... , x_{m_s} \} -$ множество медоид;

2. $L = \{ x_{l_1}, x_{l_2}, ... , x_{m_t} \} -$ множество объектов $x_i$ , не являющихся медоидами;

3. $F_{M,L} = \sum_{j = 1}^{N} \min_{ x_{m_q} \in M} d(x_{m_q},x_{l_j}) -$ целевая функция.

Входные данные:

1. Множество $X = \{ x_{1}, x_{2}, \dots, x_{N} \}$ объектов $x_i$ , каждый из который задается $P$ вещественными значениями;

2. Симметрическая матрица $D$ , элементы $d_{ij} = d(x_i,x_j)$ которой являются расстояниями между объектами $x_i$ и $x_j$ ;

3. Число кластеров $K \le N$ ;

4. Метрика $d_{ij} = d(x_i,x_j)$ , задающая расстояние между объектами $x_i$ и $x_j$ .

Вычислительные формулы метода:

Фаза Build:

Представляет из себя выбор K медоид за K последовательных шагов:

1. $M_0 = \varnothing, L_0 = X$ ;

2. $x_{m_i} = \arg \min_{x_{l_q} \in L_0} \sum_{j = 1}^N d(x_{l_q},x_j), L_1 = L_0 \backslash \{x_{m_i}\}, M_1 = M_1 \cup \{x_{m_i}\}, i=1 \dots N$ ;

Фаза Swap:

Представляет из себя итерационный процесс.

1. Начальное приближение: $M_0 = M_{BUILD}, L_0 = L_{BUILD}$ ;

2. Множественные вычисления значений целевой функции для различных вариантов замены текущей медоиды на новую:

$F = arg \min_{i \in M , j \in L} \sum_{y \in L \backslash \{j\}} {min (d(i,y),d(j,y))}$ ;

3. Изменение множеств в соответствии с выбранной парой $(x_{m_t}, x_{l_q})$ :

$M_i = M_{i-1} \backslash \{x_{m_t}\} \cup \{x_{l_q}\} , L_i = L_{i-1} \cup \{x_{m_t}\} \backslash \{x_{l_q}\}$ ;

4. Проверка критерия останова.

Выходные данные:

1. $M = \{ x_{m_{1}}, x_{m_{2}}, ..., x_{m_{K}} \}$ - множество медоид;

2. $K_{m_i} = \{ x_{l_q} \in L \| x_{m_i} = \arg \min_{x_{m_s} \in M} d(x_{l_q}, x_{m_s}) \}, i=1 \dots K, K -$ множество искомых кластеров.

1.3 Вычислительное ядро алгоритма

Вычислительное ядро алгоритма PAM сосредоточено в стадии SWAP и состоит из вычислений значений целевой функции для различных вариантов замены текущей медоиды на новую:

$F = arg \min_{i \in M , j \in L} \sum_{y \in L \backslash \{j\}} {min (d(i,y),d(j,y))}$

1.4 Макроструктура алгоритма

Если на вход алгоритма была подана не матрица расстояний, а матрица объектов с их координатами в пространстве $R^P$ , то операция вычисления расстояния между объектами $a$ и $b$ размерности $P$ будет являться макрооперацией. В качестве меры расстояния может быть использована евклидова метрика: $d(a,b) = \sqrt{\sum_{i=1}^P (a_i-b_i)^2}$

1.5 Схема реализации последовательного алгоритма

Псевдокод алгоритма ^[3]

1  функция PAM(D, k, tmax=100):
2      # D - матрица расстояний, k - число кластеров, tmax - маскимальное число итераций
3      выполнить фазу BUILD, получить множество метоидов M и множество не-метоидов L
4      вычислить значение целевой функции F
5      для t = 0..tmax-1:
6          выполнить фазу SWAP, вычислить значение целевой функции F'
7          delta = F - F'
8          если delta > 0:
9              обновить множества M и L
10             F = F'
11         иначе:
12             выйти из цикла
13     вернуть М

1.6 Последовательная сложность алгоритма

Обозначим количество кластеров как $K$ , количество объектов как $N$ , число итераций алгоритма как $T$ .

На стадии BUILD каждый шаг нахождения очередного метоида имеет сложность $O(N^2)$ по количеству операций сложения вещественных чисел и по количеству операций сравнения двух вещественных чисел.
Тогда стадия BUILD имеет сложность $O(K*N^2)$

На стадии SWAP вычисление целевой функции имеет сложность $O(K*N^2)$ по количеству операций сложения вещественных чисел и по количеству операций сравнения двух вещественных чисел.

Таким образом алгоритм PAN имеет сложность $O(T*K*N^2)$

1.7 Информационный граф

Фаза BUILD

Общий вид информационного графа для шага t представлен на рисунке 1:

Рисунок 1. Информационный граф шага t фазы BUILD алгоритма.

Операции

Update $_M$ и Update $_L$ - операции обновления множества метоидов и не-метоидов соответственно
SUM - вычисление функции ошибки, на вход подается расстояния от очередного объекта до всех остальных, а также минимальные расстояния от выбранных на данном шаге метоидов до всех остальных вершин
MIN $_s$ - нахождение аргумента, соответствующего минимальному значению, а также само минимальное значение
MIN $_d$ - нахождение минимальных расстояний от медоидов до остальных вершин, используется в операции SUM

Количество шагов t равно K, где K - число кластеров

Фаза SWAP

Общий вид информационного графа для итерации t представлен на рисунке 2:

Рисунок 2. Информационный граф итерации t фазы SWAP алгоритма.

Операции

Update $_M$ и Update $_L$ - операции обновления множества метоидов и не-метоидов соответственно
SUM - вычисление целевой функции
MIN - нахождение аргумента, соответствующего минимальному значению, а также само минимальное значение

1.8 Ресурс параллелизма алгоритма

Пусть число кластеров равно $K$ , а число объектов равно $N$ . Тогда параллельная сложность фазы BUILD имеет $O(K*N)$ операций сложения и $O(K*N)$ операций сравнения двух вещественных чисел. Таким образом параллельная сложность фазы BUILD равна $O(K*N*T)$ .

Параллельная сложность фазы SWAP имеет $O(K*N)$ операций сложения и $O(K*N)$ операций сравнения двух вещественных чисел. Параллельная сложность фазы SWAP равна $O(K*N*T)$ .

Таким образом параллельная сложность алгоритма равна [math]O(K*N*T)[/math].

1.9 Входные и выходные данные алгоритма

Входные данные:

* число [math]K[/math] - количество кластеров;
* число [math]N[/math] - количество объектов;
* вектор попарных расстояний, имеющий длину [math]N*(N-1)/2[/math], из данных чисел однозначно восстанавливается симметрическая матрица расстояний [math]D[/math]

Объём входных данных: $N*(N-1)/2$ вещественное число и $2$ целых числа.

Выходные данные:

* K чисел [math]m_1, m_2, ..., m_K[/math] - индексы объектов соответствующие метоидам;
* N-K чисел [math]k_1, k_2, ..., k_{N-K}[/math] - номера кластеров для каждого объекта (кроме тех, что являются метоидами);

Объём выходных данных: $N$ целых чисел.

1.10 Свойства алгоритма

Вычислительная мощность

Суммарный объем входных данных равен $O(N^2)$ , число операций алгоритма PAM равно $O(K*N^2*\Tau)$ , где $K$ – число кластеров, $\Tau$ – число итераций алгоритма, $N$ - число точек. Тогда вычислительная мощность алгоритма PAM равна $O(K*\Tau)$ .

Детерминированность и Устойчивость

Алгоритм PAM является итерационным, количество итераций может быть ограничено сверху, однако в общем случае не фиксируется. Из-за недетермирированности выбора элементов, на которых достигается минимум целевой функции, алгоритм не является детермирированным. Однако, данный алгоритм является устойчивым, поскольку не накапливает ошибки в процессе своей работы. ^[4]

Сильные стороны алгоритма:

Меньшая чувствительность к выбросам, чем k-means
Несложность реализации
Возможность распараллеливания

Однако равномерная загрузка процессоров не всегда возможна.

Недостатки алгоритма:

Квадратичная сложность алгоритма
Количество кластеров является параметром алгоритма

Во многих задачах число кластеров может быть неизвестным.
Возможность сходимости к локальному оптимуму

Оптимальное решение не гарантировано.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

Исследование проводилось на суперкомпьютере "Ломоносов" ^[5]. Аппаратные характеристики суперкомпьютера. Алгоритм реализован с использованием технологии MPI.

Данные были сгенерированы в Matlab'е случайным образом. Количество кластеров равно 16, каждый кластер был промоделирован нормальным распределением с некоторыми случайными значениями среднего и среднеквадратического отклонения. Размерность данных равна 2, а число точек на каждый кластер было достаточно большим для проведения экспериментов с различными значениями размерности матрицы расстояний. Пример сгенерированных данных показан на рисунке 3.

Рисунок 3. Пример сгенерированных данных.

Измерялось время выполнения стадий BUILD и SWAP, без учета времени, потраченного на построение матрицы расстояний, а также измерялось число итераций алгоритма. Были проведены эксперименты для следующих значений размерности матрицы расстояний и числа процессоров:

Значения размерности: [2500, 2000, 1500, 1000, 500, 200, 150, 100, 50]
Значения числа процессоров: [500, 400, 256, 128, 64, 32, 16, 8, 4, 1]

Полученные графики производительности и эффективности представлены на рисунках 4 и 5 соответственно.

Рисунок 4. Зависимость производительности реализации параллельного алгоритма от размера матрицы и числа процессоров

Рисунок 5. Зависимость эффективности реализации параллельного алгоритма от размера матрицы и числа процессоров.

Таким образом, из полученных графиков можно сделать вывод о том, что эффективность задачи при фиксированном размере входной матрицы понижается с увеличением числа процессоров, это связано с увеличением передачи данных между процессорами. При фиксированном значениии числа процессоров эффективность увеличивается при увеличении размера входной матрицы, это в свою очередь связано с тем, что доля времени, потраченного на передачу данных между процессорами, от общего затраченного на вычисления времени уменьшается.

В экспериментах была использована сторонняя реализация алгоритма, с небольшими изменениями она выложена в репозитории[1]

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

ELKI реализует несколько вариантов алгоритма кластеризации, включая алгоритм PAM. Написан на Java
Java-ML. Включает реализацию k-metoid. Написан на Java
Julia содержит реализацию k-metoid в пакете для кластеризации JuliaStats
R включает различные варианты k-means в пакете flexclust. Алгоритм PAM реализован в пакете cluster
MATLAB. Реализованы PAM, CLARA и другие алгоритмы кластеризации
Python. Алгоритм PAM реализован как k-medoids в пакете pyclust, содержащем также различные варианты k-means

3 Литература

↑ Kaufman, L. and Rousseeuw, P.J., Clustering by means of Medoids. Statistical Data Analysis Based on the L1-Norm and Related Methods. Springer US; 1987, p. 405–416.
↑ Fasulo D. An analysis of recent work on clustering algorithms. – Technical report, 1999. – №. 01-03. – С. 02.
↑ Park H. S., Jun C. H. A simple and fast algorithm for K-medoids clustering //Expert Systems with Applications. – 2009. – Т. 36. – №. 2. – С. 3336-3341.:
↑ Нейский И. М. Классификация и сравнение методов кластеризации //ББК 32.813 И 76 Составитель: ЮН Филиппович. – 2006. – С. 130.
↑ Воеводин Вл., Жуматий С., Соболев С., Антонов А., Брызгалов П., Никитенко Д., Стефанов К., Воеводин Вад. Практика суперкомпьютера «Ломоносов» // Открытые системы, 2012, N 7, С. 36-39.

[1] Kaufman, L. and Rousseeuw, P.J., Clustering by means of Medoids. Statistical Data Analysis Based on the L1-Norm and Related Methods. Springer US; 1987, p. 405–416.

[2] Fasulo D. An analysis of recent work on clustering algorithms. – Technical report, 1999. – №. 01-03. – С. 02.

[3] Park H. S., Jun C. H. A simple and fast algorithm for K-medoids clustering //Expert Systems with Applications. – 2009. – Т. 36. – №. 2. – С. 3336-3341.:

[4] Нейский И. М. Классификация и сравнение методов кластеризации //ББК 32.813 И 76 Составитель: ЮН Филиппович. – 2006. – С. 130.

[Lom-5] Воеводин Вл., Жуматий С., Соболев С., Антонов А., Брызгалов П., Никитенко Д., Стефанов К., Воеводин Вад. Практика суперкомпьютера «Ломоносов» // Открытые системы, 2012, N 7, С. 36-39.

[1]

[2]

[3]

[4]

[5]