Участник:IanaV/Алгоритм k means

Эта работа успешно выполнена
Преподавателю: в основное пространство, в подстраницу
Данное задание было проверено и зачтено.
Проверено Konshin и Zhum.

Алгоритм k средних (k means)
Последовательный алгоритм
Последовательная сложность	$O(iknd)$
Объём входных данных	$nd$
Объём выходных данных	$n$

Авторы страницы: Валуйская Я.А., Глотов Е.С.

Вклад в основную часть работы (сбор и анализ данных) у авторов одинаков, четких разграничений по пунктам статьи сделать невозможно. Итоговое оформление статьи выполнила Валуйская Я.А.

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Алгоритм k-means (k средних) - один из наиболее популярных алгоритмов кластеризации. Наиболее простой, но в то же время достаточно неточный метод кластеризации в классической реализации.

Алгоритм был разработан в 1956 году математиком Гуго Штейнгаузом ^[1], и почти одновременно его изобрел Стюарт Ллойд ^[2]. Особую популярность алгоритм снискал после работы Джеймса Маккуина ^[3]

Алгоритм кластеризации k-means решает задачу распределения $N$ наблюдений (элементов векторного пространства) на заранее известное число кластеров $K$ . Действие алгоритма таково, что он стремится минимизировать среднеквадратичное отклонение на точках каждого кластера.

Алгоритм k-means является итерационным алгоритмом кластеризации. На каждой итерации происходит пересчет центра масс для каждого кластера, полученного на предыдущем шаге, затем исходные векторы заново распределяются по кластерам в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров.

1.2 Математическое описание алгоритма

Исходные данные:

множество наблюдений $X = \{x_1, x_2, ..., x_n\}$ , где каждое наблюдение $x_i \in R^d, i = 1, ..., n$ ;
количество кластеров $k \in N, k \leq n$

Обозначения:

$S = \{S_1, S_2, ..., S_k \}$ - множество кластеров, которые удовлетворяют следующим условиям:
- $S_i \bigcap S_j = \emptyset, i \neq j$ ;
- $X = {\bigcup \limits _{i = 1}^k S_i}$ .
$\mu_i \in R^d, i = 1, ..., k$ - центр масс кластера $S_i$
$d(u, v)$ - расстояние между векторами $u \in R^m, v \in R^m$

Выходные данные:

$L = (l_1, l_2, ..., l_n)$ - набор меток, где метка $l_i \in N_{[1, k]}$ - является порядковым номером кластера, к которому принадлежит вектор $x_i$ : $x_i \in S_{l_i}$

Цель алгоритма k-means - распределить наблюдения из входного множества $X$ по $k$ кластерам $S = \{S_1, S_2, ..., S_k \}$ таким образом, чтобы сумма квадратов расстояний от каждой точки кластера до его центра масс по всем кластерам была минимальной:

$\arg\min_{S} \sum_{i=1}^{k} \sum_{x \in S_i} (d(x, \mu_i))^2$ ,

Алгоритм состоит из следующих шагов:

Инициализация центров масс
На данном шаге задаются начальные значения центров масс $\mu_1^1, ..., \mu_k^1$ . Существует несколько способов их выбора. Они будут рассмотрены ниже.
t-ый шаг итерации:
- Распределение векторов по кластерам
  На данном шаге каждый вектор $x_i \in X$ распределяется в свой кластер $S_j^t$ так, что:
  $l_i^t = \arg \min_{j} (d(x_i, \mu_j^t))^2 , j = 1, ..., k; i = 1, ..., n$
- Пересчет центров масс кластеров
  На данном шаге происходит пересчет центров масс кластеров, полученных на предыдущем этапе:
  $\mu_i^{t+1} = \frac{1}{|S_i^t|} \sum_{x \in S_i^t} x$ ; $i = 1, ..., k$
Критерий останова
$\mu_i^t = \mu_i^{t+1},$ для всех $i = 1, ..., k$

Способы инициализации начальных данных:

Метод Forgy
Случайным образом выбираются $k$ векторов из множества наблюдений $X$ . Эти вектора используются в качестве центров масс кластеров $\mu_1, ..., \mu_k$
Метод случайного разбиения (Random Partition) ^[4]
Каждый вектор $x_i, i = 1, .., n$ случайным образом распределяется в кластер $S_j, j = 1, .., k$ , затем для каждого кластера вычисляется его центр масс $\mu_j$ .

1.3 Вычислительное ядро алгоритма

Вычислительном ядром алгоритма является шаг 2, состоящий из следующих этапов:

распределение векторов по кластерам;
пересчет центров масс кластеров.

Распределение векторов по кластерам заключается в следующем: для каждого вектора $x_i \in X, i = 1, ..., n$ необходимо посчитать расстояние между этим вектором и центром масс кластера $\mu_j^t, j = 1, ..., k$ . Следовательно, на каждой итерации необходимо выполнить $nk$ операций вычисления расстояния между векторами.

Пересчет центров масс кластеров заключается в следующем: для каждого кластера $S_i^t \in S, i = 1, ..., k$ необходимо пересчитать кластер по формуле, приведенной в пункте выше. Следовательно, на каждой итерации необходимо выполнить $k$ операций пересчета центров масс кластеров.

1.4 Макроструктура алгоритма

Макрооперация "Расстояние между векторами"
В данном алгоритме используется Евклидова метрика:
$v \in R^m$ и $u \in R^m: d(v, u) = \sqrt{\sum_{j=1}^{m} (v_j - u_j)^2}$ ;
Макрооперация "Пересчет центра масс кластера"
$\mu_i^{t+1} = \frac{1}{|S_i^t|} \sum_{x \in S_i^t} x$

Таким образом, алгоритм в терминах макроопераций выглядит следующим образом:

Инициализация центров масс
Метод Forgy: центры масс $\mu_j^1, j = 1, ..., k$ выбираются случайным образом.

Метод случайного разбиения: вектора $x_i \in X$ случайным образом распределяются по кластерам. Для каждого кластера выполняется макрооперация "Пересчет центра масс кластера" для нахождения $\mu_j^1$ .
t-ый шаг итерации:
- Распределение векторов по кластерам
  На данном шаге для каждого вектора $x_i \in X$ k раз выполняется макрооперация "Расстояние между векторами" для нахождения расстояния между $x_i$ и $\mu_j^t, j = 1, ..., k$ . Затем для каждого вектора $x_i$ находится минимальное расстояние.
- Пересчет центров масс кластеров
  На данном шаге для каждого кластера выполняется макрооперация "Пересчет центра масс" для нахождения $\mu_j^{t+1}$ .
Критерий останова
$\mu_i^t = \mu_i^{t+1},$ для всех $i = 1, ..., k$

1.5 Схема реализации последовательного алгоритма

Псевдокод алгоритма:

Входные данные  : Множество векторов [math]X[/math], количество кластеров [math]k[/math]
Выходные данные : Набор меток [math]L[/math] принадлежности к кластеру
1  Инициализация центров масс [math]\mu_i^1, i = 1, ..., k[/math];
2  t := 1;
3  Для каждого вектора [math]x_i \in X, i = 1, ..., n:[/math] [math]l_i^t = \arg \min_{j} (d(x_i,\mu_j^t))^2 , j = 1, ..., k[/math];
4  Для каждого кластера [math]S_i^t, i = 1, ..., k[/math] выполняется макрооперация "Пересчет центра масс";
5  if ([math]\exists i = 1, ..., k: \mu_i^t \neq \mu_i^{t+1}[/math]) {
6      t := t + 1;
7      goto 3;
8  } else {
9      stop;
10 };

Существующие способы оптимизации алгоритма ^[5] ^[6] ^[7]

1.6 Последовательная сложность алгоритма

Подсчитаем количество операций для каждого шага алгоритма.

Инициализация:
- Метод Forgy: $N_{\rm init} = 0$
- Метод случайного разбиения:
  - Количество операций деления: $N^{/}_{\rm init} = kd$ ;
  - Количество операций сложения: $N^{+}_{\rm init} = d(n - k)$ .
Распределение $n$ векторов $x_i \in R^d$ по $k$ кластерам на одной итерации:
- Количество операций умножения: $N^{*}_{\rm distr} = knd$ ;
- Количество операций сложения: $N^{+}_{\rm distr} = kn(d - 1)$ ;
- Количество операций вычитания: $N^{-}_{\rm distr} = knd$ ;
- Количество операций взятия минимума: $N^{\rm min}_{\rm distr} = n(k - 1)$ .
Пересчет центра масс $\mu_i \in R^d$ для $k$ кластеров на одной итерации:
- Количество операций деления: $N^{/}_{\rm update} = kd$ ;
- Количество операций сложения: $N^{+}_{\rm update} = d(n - k)$ .

Следовательно, в случае если алгоритм сошелся за $i$ итераций, получаем:

Операций сложения/вычитания: $N^{+,-}_{\rm k-means} = N^{+}_{\rm init} + i \cdot (N^{+}_{\rm distr} + N^{-}_{\rm distr} + N^{+}_{\rm update}) = d(n - k) + i \cdot (kn(d-1)+knd+d(n-k)) \thicksim O(iknd)$
Операций умножения/деления: $N^{*,/}_{\rm k-means} = N^{/}_{\rm init} + i \cdot (N^{*}_{\rm distr} + N^{/}_{\rm update}) = kd + i \cdot (knd+kd) \thicksim O(iknd)$

Таким образом, последовательная сложность алгоритма k-means для $n$ $d$ -мерных векторов и $k$ кластеров за $i$ итераций, требуемых для сходимости алгоритма:

$O(iknd)$

1.7 Информационный граф

Рассмотрим информационный граф алгоритма k-means. На рисунке 1 представлена общая схема алгоритма k-means, согласно разделу "Схема реализации последовательного алгоритма". Вершина $\rm Init$ - этап инициализации. Вершина $\rm Distribute$ - этап распределения векторов по кластерам. Вершина $\rm Update$ - этап пересчета центров масс кластеров.

Рисунок 1. Общая схема алгоритма k-means

На рисунке 2 представлен информационный граф этапа распределения векторов по кластерам. На вход данному этапу подают множество векторов $x_1, x_2, ..., x_n$ из входных данных и множество центров масс кластеров $\mu^t_1, ..., \mu^t_k$ , полученных с шага инициализации или с предыдущей итерации. Для каждой пары векторов $x_i, \mu^t_j, i = 1, ..., n; j = 1,..., k$ считается расстояние между ними (вершина $\rm dist$ ). Информационный граф вычисления расстояния между двумя векторами рассмотрен ниже (рисунок 3). Затем выполняется операция нахождения минимума (вершина $\rm min$ ), в результате которой каждому вектору $x_i, i = 1, ..., n$ приписывается метка $l^t_i$ , равная порядковому номеру кластера $S^t_j, j = 1 ..., k$ , которому принадлежит данный вектор: $x_i \in S^t_j$ .

Рисунок 2. Схема этапа распределения векторов по кластерам

На рисунке 3 представлен информационный граф вычисления расстояния между двумя векторами $x_i = (x_{i1}, ..., x_{id}), i = 1, ..., n$ и $\mu^t_j = (\mu^t_{j1}, ..., \mu^t_{jd}) , j = 1, ..., k$ . Выполняется операция поэлементного вычитания двух векторов (вершины $-$ ), затем возведение в квадрат (вершины $\rm sqr$ ), затем суммирование полученных результатов (вершина $+$ ). На выходе получаем квадрат расстояния между векторами.

Рисунок 3. Схема вычисления расстояния между двумя векторами

На рисунке 4 представлен информационный граф этапа пересчета центров масс кластеров $\mu^t_1, \mu^t_2,..., \mu^t_k$ . Для каждого кластера $S^t_j, j = 1, ..., k$ выполняется операция суммирования (вершина $\rm sum_j$ ) векторов, которые принадлежат данному кластеру. Кроме того, для каждого кластера выполняется операция определения количества элементов в нем (вершина $\rm size_j$ ). Затем выполняется операция деления (вершина $/$ ). На выходе получаем новые центры масс кластеров $\mu^{t+1}_1, \mu^{t+1}_2,..., \mu^{t+1}_k$ .

Рисунок 4. Схема этапа пересчета центров масс кластеров

1.8 Ресурс параллелизма алгоритма

Вычислительное ядро алгоритма имеет большие возможности для параллелизма:

Распределение векторов по кластерам: вектора $x_i, x_j, i \neq j; i, j = 1, ..., n$ могут быть распределены по кластерам независимо друг от друга;
Пересчет центров масс кластеров: центры масс кластеров $\mu_i, \mu_j, i \neq j; i, j = 1, ..., k$ могут быть пересчитаны независимо друг от друга.

Однако, этап пересчета центров масс кластеров зависит от этапа распределения векторов по кластерам, так что эти этапы должны выполняться строго последовательно. Таким образом, параллельная сложность алгоритма может быть вычислена следующим образом:
$N_{\rm k-means} = i \cdot (N_{\rm distr} + N_{\rm update})$ , где $i$ - количество итераций, необходимых для сходимости алгоритма, $N_{\rm distr}$ - параллельная сложность этапа распределения векторов по кластерам, $N_{\rm update}$ - параллельная сложность этапа пересчета центров масс кластеров.

Рассчитаем параллельную сложность $N_{\rm distr}$ этапа распределения векторов по кластерам в предположении наличия неограниченного числа процессоров для одной итерации. Для каждой пары векторов $(x_i, \mu_j), i = 1,...,n; j = 1, ..., k$ операция вычисления расстояния выполняется независимо.

При выполнении операция вычисления расстояния операции вычитания и умножения выполняются независимо друг от друга, поэтому требуется только одно вычитание и одно умножение. Число операций сложения: $N^{+}_{\rm distr} = O(\log(d))$ согласно алгоритму нахождения частичной суммы элементов массива путем сдваивания;
Для нахождения минимума среди $k$ элементов требуется $\log(k))$ операций сравнения.

Таким образом, получаем, что $N_{\rm distr} = O(\log(kd))$

Рассчитаем параллельную сложность $N_{\rm update}$ этапа пересчета центров масс кластеров в предположении наличия неограниченного числа процессоров для одной итерации. Нахождение центра масс $\mu_j, j = 1, ..., k$ кластера $S_j$ может выполняться независимо от нахождения центров масс других кластеров. Таким образом, получаем, что $N_{\rm update} \leq O(\log(n))$ в худшем случае, когда почти все векторы находятся в одном кластере.

Итоговая параллельная сложность алгоритма:
$N_{\rm k-means} \leq i \cdot (\log(kd) + \log(n)) \thicksim O(i \cdot \log(knd)); i$ - количество итераций, необходимых для сходимости.

1.9 Входные и выходные данные алгоритма

Входные данные:

$n$ векторов $x_i \in R^d, i = 1, ..., n$ ;
число кластеров $k \in N_{[1,n]}$ .

Объем входных данных: $nd$ действительных чисел, 1 целое положительное число

Выходные данные:

вектор меток $L \in N^n$ .

Объем выходных данных: $n$ целых неотрицательных чисел.

1.10 Свойства алгоритма

Достоинства

Алгоритм прозрачный и понятный, за счет чего очень прост в реализации;
Алгоритм имеет высокую скорость работы в случае выбора оптимальных начальных значений центров масс кластеров.

Недостатки

Число кластеров является входным аргументом алгоритма. Таким образом, некорректный выбор данного параметра может привести к плохим результатам работы алгоритма, поэтому зачастую проводят несколько прогонов алгоритма с разными значениями $k$ , чтобы подобрать оптимальный;
Алгоритм может сойтись к локальному минимуму (достижение глобального минимума не гарантируется);
Результат сильно зависит от выбора начальных значений центров масс кластеров. Существует улучшенная версия алгоритма - k-means++ ^[8], которая предлагает свой способ нахождения начальных оптимальных значений центров масс кластеров;
Чувствительность к выбросам и шумам, так как они учитываются при вычислении центров масс кластеров.

Устойчивость: Алгоритм является устойчивым к погрешностям во входных данных, так как при вычислении центров кластеров расстояния между объектами усредняются, что приводит к уменьшению ошибки. Алгоритм также является устойчивым к погрешностям, допускаемых при вычислениях, так как операция сложения на каждой новой итерации выполняется над входными данными.

Сбалансированность

Множество входных векторов можно равномерно разделить между параллельными вычислителями. Центры всех кластеров можно распространить на все вычислители (так как их заведомо меньше, чем число входных векторов). В таком случае на каждой итерации определение для каждого объекта ближайшего кластера представляет собой вычисление расстояния от каждого входного вектора, находящегося на вычислителе, до каждого кластера, и является сбалансированной операцией. После данного этапа происходит пересчёт центров кластеров. Данная операция является несбалансированной в случаях, когда число объектов в одном из кластеров значительно больше числа объектов в других кластерах, из-за чего один кластер занимает большое число вычислителей, а остальные занимают по одному или несколько вычислителей. В таком случае для данного кластера потребуется вычислить центр алгоритмом нахождения частичной суммы элементов массива путем сдваивания. Данная операция представляет несбалансированность порядка $O(\log (kn))$ . После данного шага происходит сбалансированная операция рассылки центров кластеров на все вычислители.

В идеальном случае параллелизации алгоритм не является сбалансированным, однако в реальных задачах, когда $n \gt \gt p$ , где $p$ - количество вычислителей, эта несбалансированность сглаживается наличием объектов из каждого кластера на каждом вычислителе

Соотношение последовательной и параллельной сложности: ${O(iknd) \over O(i \cdot \log(knd))} \thicksim O \bigg( {knd \over \log(knd)} \bigg)$

Вычислительная мощность

Последовательный алгоритм: ${O(iknd) \over nd+n+1} \thicksim {O(ikd) \over d+1} \thicksim O(ik)$ , где $n$ - число входных векторов, $d$ - размерность векторов, $k$ - число кластеров, $i$ - число итераций, требуемое для сходимости

Параллельный алгоритм: $O(i \cdot \log(knd)) \over nd+n+1$

Детерминированность: Алгоритм является недетерминированным, так как результат зависит от выбора исходных центров кластеров, а их оптимальный выбор неизвестен.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.2.1 Локальность реализации алгоритма

2.2.1.1 Структура обращений в память и качественная оценка локальности

2.2.1.2 Количественная оценка локальности

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

Исследование проводилось на суперкомпьютере "Ломоносов" Суперкомпьютерного комплекса Московского Государственного Университета имени М.В. Ломоносова

Набор данных для тестирования состоял из 946000 векторов размерности 2 (координаты на сфере)

Набор и границы значений изменяемых параметров запуска реализации алгоритма:

число процессов (виртуальных ядер) [8 : 512];
число кластеров [128 : 384].

В результате проведённых экспериментов был получен следующий диапазон эффективности реализации алгоритма:

минимальная эффективность реализации $2,47%$ достигается при делении исходных данных на 128 кластеров с использованием 512 процессов;
максимальная эффективность реализации $7,13%$ достигается при делении исходных данных на 352 кластера с использованием 8 процессов.

На рисунках 5 и 6 соответственно представлены графики зависимости производительности и эффективности параллельной реализации k means от числа кластеров и числа процессов.

Рисунок 5. График зависимости производительности параллельной реализации алгоритма от числа кластеров и числа процессов.

По рис. 5 можно отметить практически полное отсутствие роста производительности с увеличением числа процессов от 256 до 512 при минимальном размере задачи. Это связано с быстрым ростом накладных расходов по отношению к крайне низкому объёму вычислений. При росте размера задачи данный эффект пропадает, и при одновременном пропорциональном увеличении числа кластеров и числа процессов рост производительности становится близким к линейному.

Рисунок 6. График зависимости эффективности параллельной реализации алгоритма от числа кластеров и числа процессов.

Исследовалась параллельная реализация алгоритма k means на MPI.

Были получены следующие оценки масштабируемости реализации алгоритма k means:

По числу процессов: $-0.02209$ . Следовательно, с ростом числа процессов эффективность уменьшается. На рис. 6 можно наблюдать плавное и равномерное снижение производительности по мере увеличения числа процессов при неизменном числе кластеров, что свидетельствует об относительно невысоком росте накладных расходов на передачу данных между процессами и преобладании объёма вычислений над объёмом пересылок данных по сети.
По размеру задачи: $0.01252$ . Следовательно, с ростом размера задачи (числа кластеров) эффективность увеличивается. При этом объём пересылок данных по сети пропорционален $(n + k) \cdot p$ (где $k$ - число кластеров, $n$ - число входных векторов, $p$ - число процессов) таким образом, поскольку $k \lt \lt n$ , рост накладных расходов с ростом числа кластеров при неизменном числе процессов и входных векторов представляет собой незначительную величину.
Общая оценка: $-0.00081$ . Таким образом, с ростом и размера задачи, и числа процессов эффективность уменьшается. Это связано с тем, что отношение объёма вычислений к объёму передаваемых данных изменяется пропорционально ${kn \over (n + k) \cdot p} \thicksim {k \over p}$ , что представляет собой невысокий коэффициент, но при этом позволяет параллельной реализации не деградировать до нулевой эффективности при значительном увеличении числа процессов.

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

Существуют следующие Open Source реализации алгоритма:

ELKI - содержит реализацию алгоритма k-means на языке Java (в том числе реализацию улучшенного алгоритма k-means++)
Weka - содержит реализацию k-means на языке Java
Apache Mahout - содержит реализацию k-means в парадигме MapReduce
Spark Mllib - содержит распределенную реализацию k-means
Accord.NET - содержит реализацию k-means на C# (в том числе реализацию улучшенного алгоритма k-means++)
MLPACK - содержит реализацию k-means на языке C++
OpenCV - содержит реализацию k-means на C++. А также есть обертки для языков Python и Java
SciPy - содержит реализацию k-means на языке Python
Scikit-learn - содержит реализацию k-means на языке Python
Julia - содержит реализацию алгоритма k-means на языке Julia
Octave - содержит реализацию k-means на языке Octave
R - содержит реализацию k-means на языке R
Torch - содержит реализацию k-means на языке Lua

3 Литература

[1] Steinhaus H. (1956). Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. III vol IV: 801—804.

[2] Lloyd S. (1957). Least square quantization in PCM’s. Bell Telephone Laboratories Paper. Опубликовано позже в IEEE Transactions on Information Theory 28 (1982): 129-137.

[3] MacQueen J. (1967). Some methods for classification and analysis of multivariate observations. In Proc. 5th Berkeley Symp. on Math. Statistics and Probability, pages 281—297.

[4] Hamerly, G.; Elkan, C. (2002). "Alternatives to the k-means algorithm that find better clusterings". Proceedings of the eleventh international conference on Information and knowledge management (CIKM).

[5] Phillips S. J. Acceleration of k-means and related clustering algorithms //Workshop on Algorithm Engineering and Experimentation. – Springer Berlin Heidelberg, 2002. – С. 166-177.

[6] Hamerly G. Making k-means Even Faster //SDM. – 2010. – С. 130-140.

[7] Elkan C. Using the triangle inequality to accelerate k-means //ICML. – 2003. – Т. 3. – С. 147-153.

[8] Arthur, D.; Vassilvitskii, S. (2007). "k-means++: the advantages of careful seeding". Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. pp. 1027–1035.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]