Участник:Parkhomenko/Алгоритм k средних

Эта работа успешно выполнена
Преподавателю: в основное пространство, в подстраницу
Данное задание было проверено и зачтено.
Проверено Konshin и Zhum.

Алгоритм k средних
Последовательный алгоритм
Последовательная сложность	$O(tnkd)$
Объём входных данных	$nd$
Объём выходных данных	$n$
Параллельный алгоритм
Высота ярусно-параллельной формы	$O(t \cdot \log nkd)$
Ширина ярусно-параллельной формы	$O(nkd)$

Основные авторы описания: П.А.Пархоменко (1.1, 1.3, 1.6, 1.8, 1.9, 1.10, 2.4), И.Д.Машонский (1.2, 1.4, 1.5, 1.7, 1.8, 1.10, 2.7)

1 Свойства и структура алгоритмов

1.1 Общее описание алгоритма

Алгоритм k средних (англ. k-means) - один из алгоритмов машинного обучения, решающий задачу кластеризации. Он был изобретен в середине 1950-х математиком Гуго Штейнгаузом^[1] и Стюартом Ллойдом^[2]. Алгоритм стал особо популярным после публикации Маккуина^[3], в которой впервые был использован термин “k-means”.

Задача алгоритма кластеризации заключается в разбиении N объектов (d-мерных векторов) на K групп (кластеров). Каждый вектор может принадлежать только одному кластеру. Количество кластеров K фиксировано, оно задается в качестве параметра.

K-means является итерационным алгоритмом, разновидностью EM-алгоритма. Основная идея работы алгоритма заключается в проведении некоторого количества итераций, на каждой из которых происходит пересчет центра масс для каждого кластера, полученного на предыдущей итерации. После этого векторы перераспределяются по кластерам: вектор относится к тому кластеру, расстояние до центра масс которого минимально. Алгоритм завершает работу в том случае, если на очередной итерации центры масс кластеров не изменились.

1.2 Математическое описание алгоритма

Исходные данные: множество d-мерных векторов (наблюдений) $X$ = $\{x_1, x_2, ..., x_n\}$ , число кластеров $k \in \mathbb{N}$

В результате работы алгоритма исходное множество векторов $X$ разбивается на $k$ непересекающихся множеств (кластеров) $S_1, S_2, ..., S_k$ , таких что $X = {\bigcup \limits _{i = 1}^k S_i}$ и значение $\sum_{i=1}^{k} \sum_{\mathbf x \in S_i} \left\| \mathbf x - \mu_i \right\|^2$ — минимально для всех возможных наборов $S_1, S_2, ..., S_k$ . Под $\mu_i$ здесь подразумевается центр масс векторов из множества $S_i$ .

Первоначальные значения центров масс $\mu_1^{(1)}, ..., \mu_k^{(1)}$ определяются в начале работы алгоритма случайным образом среди векторов множества $X$ .

Алгоритм заключается в попеременном применении двух шагов ^[4]: распределения векторов по кластерам и обновления центров масс каждого кластера

Распределение векторов по кластерам: на данном шаге каждый вектор распределяется в один из кластеров $S_i^{(t)}$ :

$S_i^{(t)} = \big \{ x_p : \big \| x_p - \mu^{(t)}_i \big \|^2 \le \big \| x_p - \mu^{(t)}_j \big \|^2 \ \forall j, 1 \le j \le k \big\},$

Обновление центров масс: на данном шаге вычисляются новые центры масс для кластеров, полученных на предыдущем шаге.

$\mu^{(t+1)}_i = \frac{1}{|S^{(t)}_i|} \sum_{x_j \in S^{(t)}_i} x_j$

Алгоритм завершается, когда на очередном шаге не происходит изменения центров масс кластеров.

1.3 Вычислительное ядро алгоритма

Вычислительное ядро последовательного алгоритма k-means состоит из двух операций, повторяющихся на каждой итерации алгоритма:

пересчета центров масс кластеров;
соотнесения каждого вектора к одному из кластеров.

Пересчет центра масс кластера заключается в нахождении d-мерного вектора, являющегося средним арифметическим d-мерных векторов, принадлежащих кластеру. Эту операцию необходимо выполнять для каждого из K кластеров.

Для соотнесения вектора к одному из кластеров, необходимо для каждого из N вектора посчитать расстояние до центров масс всех K кластеров. Для нахождения расстояния между двумя d-мерными векторами p и q используется Евклидова метрика: $\sqrt{\sum_{k=1}^d (p_k-q_k)^2}$

1.4 Макроструктура алгоритма

Инициализация центров масс кластеров

В начале алгоритма осуществляется инициализация центров масс $\mu_1^{(1)}, ..., \mu_k^{(1)}$ , которая может быть реализована двумя возможными способами ^[5]:

случайный выбор центров масс среди исходных наблюдений $x_1, x_2, ..., x_n$ ;
все наблюдения случайным образом распределяются по кластерам $S_1, S_2, ..., S_k$ , а затем для каждого кластера выполняется операция обновления центра масс.

Распределение векторов по кластерам

На шаге распределения векторов по кластерам производится операция нахождения квадратов расстояний между векторами кластера и центром масс кластера:

$\rho = \big \| x_p - \mu^{(t)}_i \big \|^2$

Обновление центров масс кластеров

На шаге обновления центров масс производится операция суммирования векторов кластера:

$\mu^{(t+1)}_i = \frac{1}{|S^{(t)}_i|} \sum_{x_j \in S^{(t)}_i} x_j$

1.5 Схема реализации последовательного алгоритма

Последовательность исполнения метода следующая:

Инициализируются центры масс $\mu_1^{(1)}, ..., \mu_k^{(1)}$
$t := 1$
Для каждого вектора $x_i, i = 1, 2, ..., n$ вычисляется
$m = \underset{j \in \{1, 2, ..., k\}} {\operatorname{arg\,min}} \big \| x_i - \mu^{(t)}_j \big \|^2$ ,
вектор $x_i$ распределяется в кластер $S^{(t)}_m$
Для каждого $j = 1, 2, ..., k$ вычисляется
$\mu^{(t+1)}_j = \frac{1}{|S^{(t)}_i|} \sum_{x_j \in S^{(t)}_i} x_j$
Если $\mu^{(t)}_j = \mu^{(t+1)}_j, j = 1, 2, ..., k$ , завершить выполнение алгоритма, иначе $t := t + 1$ , переход на шаг 3.

1.6 Последовательная сложность алгоритма

Для вычисления центра массы кластера, содержащего $n_i$ d-мерных векторов, необходимо:

$n_i \cdot (d - 1)$ операций сложения
$d$ операций деления

Для определения центров масс всех k кластеров требуется:

$n \cdot (d - 1)$ операций сложения
$k \cdot d$ операций деления

Для определения расстояния между двумя d-мерными векторами, требуется:

$d$ операций вычитания
$d$ операций умножения
$d - 1$ операций сложения

Для определения кластера для n d-мерного векторов, необходимо:

$n \cdot k \cdot d$ операций вычитания
$n \cdot k \cdot d$ операций умножения
$n \cdot k \cdot (d - 1)$ операций сложения

Таким образом, общая сложность одной итерации:

$O(n k d)$ операций сложения/вычитания
$O(n k d)$ операций умножения/деления

Сложность всего алгоритма, состоящего из $t$ итераций: $O(t n k d)$

1.7 Информационный граф

В данном разделе описывается информационный граф алгоритма k-средних при $n = 3, k = 2$

На рисунке 1 показана общая структура алгоритма: в качестве входных данных выступает матрица, строками которой являются входные векторы $x_1, x_2, x_3$ , на выходе получается массив из $n$ чисел, где элемент с номером $i = 1, 2, 3$ обозначает номер кластера, которому принадлежит вектор $x_i$ . На шаге $init$ происходит инициализация значений центров масс кластеров, после этого осуществляется итеративное повторение этапов распределения векторов по кластерам ( $as$ ) и обновления значений центров масс кластеров ( $up$ ). Когда на очередном шаге обновления центров масс кластеров значения центров масс не изменяются, алгоритм завершает работу, и в качестве выходных данных выступают номера кластеров для каждого из входных векторов.

Рисунок 1. Общая схема работы алгоритма k-средних

Распределение векторов по кластерам. На рисунке 2 изображен информационный граф для этапа распределения векторов по кластерам. В качестве входных данных выступают строки входной матрицы (входные векторы) $x_1, x_2, x_3$ и текущие значения центров масс кластеров $\mu_1, \mu_2$ (вычисленные на этапе инициализации или предшествующего этапа обновления центров масс кластеров). В качестве выходных данных выступают числа $m_1, m_2, m_3$ , где $m_i, i = 1, 2, 3$ - номер кластера, содержащего вектор $x_i$ . Вершинами с пометкой $sub$ обозначены операции векторной разности, вершинами $sn$ - операция вычисления квадрата нормы вектора, вершинами $am$ - операция $\underset{i \in \{1, 2\}} {\operatorname{arg\,min}} p_i$ .

Рисунок 2. Граф алгоритма для этапа распределения векторов по кластерам

Обновление центров масс кластеров. На рисунке 3 представлен информационный граф для этапа обновления центров масс кластеров. В качестве входных данных выступают строки входной матрицы (входные векторы) $x_1, x_2, x_3$ с соответствующими номерами кластеров $m_1, m_2, m_3$ , содержащих эти векторы. В качестве выходных данных здесь выступают обновленные значения центров масс кластеров: $\mu_1, \mu_2$ . Вершинами с пометками $s_i, i = 1, 2$ обозначены операции суммирования векторов, принадлежащих кластеру $i$ . Вершинами с пометками $cs_i, i = 1, 2$ обозначены операции вычисления выражения $1 / |S_i|$ , где за $S_i$ обозначен кластер с номером $i$ . Вершинами с пометкой $p$ обозначена операция произведения.

Рисунок 3. Граф алгоритма для этапа обновления центров масс кластеров

1.8 Ресурс параллелизма алгоритма

Алгоритм кластеризации k средних имеет место массовый параллелизм: в основе каждого из основных этапов алгоритма (распределения векторов по кластерам и обновления центров масс кластеров) лежат циклы, итерации которых являются информационно независимыми. Учитывая данный факт можно оценить параллельную сложность алгоритма в предположении доступности неограниченного числа необходимых процессоров.

В силу особенностей алгоритма k средних порядок выполнения основных этапов существенен, что не позволяет выполнять их параллельно. Таким образом, итоговая сложность параллельного алгоритма будет определяться, исходя из формулы $T = t \cdot (T_{as} + T_{up})$ , где $T_{as}$ - параллельная сложность этапа распределения векторов по кластерам, $T_{up}$ - параллельная сложность этапа обновления центров масс кластеров, $t$ - общее число итераций алгоритма.

Параллельная сложность этапа распределения векторов по кластерам с учетом доступности неограниченного числа процессоров вычисляется следующим образом: так как вычисление значений $\big \| x_i - \mu^{(t)}_j \big \|^2$ для каждой пары векторов $x_i, i = 1, 2, ..., n$ и $\mu^{(t)}_j, j = 1, 2, ..., k$ можно выполнять независимо и для вычисления этого выражения требуется $O(\log d)$ операций в соответствии с параллельной реализацией нахождения сумм элементов массива сдваиванием. Параллельная сложность реализации операции нахождения минимума из $k$ элементов определяется как $O(\log k)$ . Таким образом, сложность этапа распределения векторов по кластерам $O(\log kd)$ .

Параллельная сложность этапа обновления центров масс кластеров вычисляется следующим образом: так как обновление значений каждого из центров масс кластеров можно выполнять независимо, параллельная сложность определяется сложностью обновления центра масс самого большого кластера. В худшем случае для нахождения значения выражения $\mu^{(t+1)}_j = \frac{1}{|S^{(t)}_i|} \sum_{x_j \in S^{(t)}_i} x_j$ требуется $O(\log n)$ операций.

С учетом вышесказанного, итоговая параллельная сложность алгоритма k средних определяется выражением $O(t \cdot \log nkd)$ .

1.9 Входные и выходные данные алгоритма

Входные данные:

целое неотрицательное число $k$ - количество кластеров;
матрица координат векторов $A$ размерностью $n * d$ .

Объем входных данных:

$n * d$ вещественных чисел (если координаты вещественные числа), $1$ целое неотрицательное число.

Выходные данные:

вектор длины $n$ - для каждого вектора указан номер кластера.

Объем выходных данных:

$n$ целых неотрицательных чисел.

1.10 Свойства алгоритма

Соотношение последовательной и параллельной сложности алгоритма равно $\frac{O(tnkd)}{O(t \cdot \log nkd)}$ .

Число операций алгоритма k средних оценивается как $O(tnkd)$ , суммарный объем входных и выходных данных равен $n(d+1)$ . Следовательно, вычислительная мощность алгоритма линейна по $k$ и линейна по $t$ .

Стоит отметить следующие ключевые особенности алгоритма k средних:

Алгоритм прост в реализации и имеет высокую скорость работы по сравнению с другими алгоритмами кластеризации (при удачном выборе начальных значений центров масс кластеров)
В качестве метрики используется евклидово расстояние, а в качестве меры разброса кластера используется дисперсия
Количество кластеров k является входным параметром алгоритма, поэтому неправильный выбор этого параметра может негативно повлиять на качество кластеризации
Сходимость алгоритма к локальному минимуму может породить некорректный конечный результат работы
Алгоритм очень чувствителен к выбору начальных центров масс кластеров: классический вариант подразумевает случайный их выбор, что может являться источником погрешности. Из этого и предыдущего свойства следует то, что алгоритм не является устойчивым.

Как и любой другой алгоритм кластеризации, результат работы алгоритма k средних зависит от того, удовлетворяет ли входной набор данных предположениям, на которые опираются алгоритмы кластеризации. Таким образом, на одних наборах данных алгоритм может показывать хорошие результаты, но на других выдавать некорректные результаты.

Алгоритм не является детерминированным, в силу того, что он чувствителен к выбору начальных центров масс кластеров, который осуществляется, как правило, случайным образом и тем самым вносит различия в работу алгоритма от запуска к запуску.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

Исследование масштабируемости алгоритма k-means в зависимости от количества используемых процессов было проведено в статье Кумара^[6]. Исследование происходило на суперкомпьютере Jaguar - Cray XT5^[7]. На момент экспериментов данный суперкомпьютер имел следующую конфигурацию: 18,688 вычислительных узлов с двумя шестнадцатиядерными процессорами AMD Opteron 2435 (Istanbul) 2.6 GHz, 16 GB of DDR2-800 оперативной памяти, и SeaStar 2+ роутер. Всего он состоял из 224,256 вычислительных ядер, 300 TB памяти, и пиковой производительностью 2.3 petaflops.

Реализация алгоритма была выполнена на языке программирования C с использованием MPI.

Объем данных составлял 84 гигабайта, количество объектов (d-мерных векторов) n равнялось 1,024,767,667, размерность векторов d равнялась 22, количество кластеров k равнялось 1000.

На рисунке 4 показана зависимости времени работы алгоритма кластеризации k-means в зависимости от количества используемых процессоров. Можно отметить, что время, затраченное на чтение данных и запись результатов кластеризации, практически не изменяется с увеличением количества задействованных процессоров. Время же работы самого алгоритма кластеризации уменьшается с увеличением количества процессоров.

Рисунок 4. Зависимости времени работы алгоритма кластеризации k-means в зависимости от количества используемых процессоров.

Также было произведено самостоятельное исследование масштабируемости алгоритма. Исследование производилось на суперкомпьютере "Blue Gene/P"^[8].

Набор и границы значений изменяемых параметров запуска реализации алгоритма:

число процессоров [1, 2, 4, 8, 16, 32, 64, 128, 256, 512];
количество объектов [5000, 10000, 25000, 50000].

Был использован набор данных Dataset for Sensorless Drive Diagnosis Data Set^[9] из репозитория Machine learning repository^[10].

Исследуемый набор данных содержит векторы, размерность которых равна 49. Компоненты векторов являются вещественными числами. Количество кластеров равно 11. Пропущенные значения отсутствуют.

Для исследования масштабируемости алгоритма была использована реализация на языке C с использованием MPI^[11]. Код можно найти здесь: https://github.com/serban/kmeans. Данная реализация предоставляет возможность распараллеливать решение задачи с помощью технологий MPI, OpenMP И CUDA. Для запуска MPI-версии программы использовалась цель "mpi_main" Makefile.

На рисунке 5 показана зависимости времени работы алгоритма кластеризации k-means в зависимости от количества используемых процессоров (использовались логарифмические оси). Разными цветами помечены запуски, соответствующие разным количествам объектам, участвующих в кластеризации. Можно видеть близкое к линейному увеличение времени работы программы в зависимости от количества процессоров. Также можно видеть увеличение времени работы алгоритма при увеличении количества объектов.

Рисунок 5. Зависимости времени работы алгоритма кластеризации k-means в зависимости от количества используемых процессоров.

На рисунке 6 показана эта же зависимость, только в трехмерном пространстве. Аналогично с рисунком 5, были использованы логарифмические оси. Как и в случае двумерного рисунка, можно видеть близкое к линейному увеличение времени работы программы.

Рисунок 6. Зависимости времени работы алгоритма кластеризации k-means в зависимости от количества используемых процессоров.

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

Существуют следующие реализации алгоритма k-средних:

scikit-learn библиотека машинного обучения для языка Python.
SciPy библиотека на языке Python, содержащая большое число реализаций различных алгоритмов, в том числе k-средних.
ELKI библиотека для анализа данных на языке программирования Java, содержит различные алгоритмы кластеризации, в том числе k-средних.
MLPACK библиотека машинного обучения для C++, содержит реализацию алгоритма k-средних.
Julia k-means реализация алгоритма k-средних на языке программирования Julia.
OpenCV библиотека содержит реализацию k-средних.
Apache Mahout содержит реализацию алгоритма k-средних на базе MapReduce.
Weka библиотека и инструмент для анализа данных на языке Java.
Torch библиотека машинного обучения на базе языка программирования Lua.
Apache Spark MLlib содержит распределенную реализацию алгоритма k-средних.
Accord.NET содержит несколько различных реализаций k-средних на языке C#.
R k-means реализация k-средних на языке R.

3 Литература

↑ Steinhaus H. (1956). Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. III vol IV: 801—804.
↑ Lloyd S. (1957). Least square quantization in PCM’s. Bell Telephone Laboratories Paper.
↑ MacQueen J. (1967). Some methods for classification and analysis of multivariate observations. In Proc. 5th Berkeley Symp. on Math. Statistics and Probability, pages 281—297.
↑ MacKay, David (2003). "Chapter 20. An Example Inference Task: Clustering" (PDF). Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292.
↑ Hamerly, G.; Elkan, C. (2002). "Alternatives to the k-means algorithm that find better clusterings" (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM).
↑ Kumar, J., Mills, R. T., Hoffman, F. M., & Hargrove, W. W. (2011). Parallel k-means clustering for quantitative ecoregion delineation using large data sets. Procedia Computer Science, 4, 1602-1611.
↑ https://www.top500.org/system/176029
↑ http://hpc.cmc.msu.ru/bgp
↑ PASCHKE, Fabian ; BAYER, Christian ; BATOR, Martyna ; MÃ–NKS, Uwe ; DICKS, Alexander ; ENGE-ROSENBLATT, Olaf ; LOHWEG, Volker: Sensorlose ZustandsÃ¼berwachung an Synchronmotoren, Bd. 46. In: HOFFMANN, Frank; HÃœLLERMEIER, Eyke (Hrsg.): Proceedings 23. Workshop Computational Intelligence. Karlsruhe : KIT Scientific Publishing, 2013 (Schriftenreihe des Instituts fÃ¼r Angewandte Informatik - Automatisierungstechnik am Karlsruher Institut fÃ¼r Technologie, 46), S. 211-225
↑ https://archive.ics.uci.edu/ml/datasets/Dataset+for+Sensorless+Drive+Diagnosis
↑ http://users.eecs.northwestern.edu/~wkliao/Kmeans/index.html

[1] Steinhaus H. (1956). Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. III vol IV: 801—804.

[2] Lloyd S. (1957). Least square quantization in PCM’s. Bell Telephone Laboratories Paper.

[3] MacQueen J. (1967). Some methods for classification and analysis of multivariate observations. In Proc. 5th Berkeley Symp. on Math. Statistics and Probability, pages 281—297.

[4] MacKay, David (2003). "Chapter 20. An Example Inference Task: Clustering" (PDF). Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292.

[5] Hamerly, G.; Elkan, C. (2002). "Alternatives to the k-means algorithm that find better clusterings" (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM).

[6] Kumar, J., Mills, R. T., Hoffman, F. M., & Hargrove, W. W. (2011). Parallel k-means clustering for quantitative ecoregion delineation using large data sets. Procedia Computer Science, 4, 1602-1611.

[7] ttps://www.top500.org/system/176029

[8] ttp://hpc.cmc.msu.ru/bgp

[9] PASCHKE, Fabian ; BAYER, Christian ; BATOR, Martyna ; MÃ–NKS, Uwe ; DICKS, Alexander ; ENGE-ROSENBLATT, Olaf ; LOHWEG, Volker: Sensorlose ZustandsÃ¼berwachung an Synchronmotoren, Bd. 46. In: HOFFMANN, Frank; HÃœLLERMEIER, Eyke (Hrsg.): Proceedings 23. Workshop Computational Intelligence. Karlsruhe : KIT Scientific Publishing, 2013 (Schriftenreihe des Instituts fÃ¼r Angewandte Informatik - Automatisierungstechnik am Karlsruher Institut fÃ¼r Technologie, 46), S. 211-225

[10] ttps://archive.ics.uci.edu/ml/datasets/Dataset+for+Sensorless+Drive+Diagnosis

[11] ttp://users.eecs.northwestern.edu/~wkliao/Kmeans/index.html

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]