Версия 18:12, 15 октября 2016

Алгоритм k-средних (k-means)
Последовательный алгоритм
Последовательная сложность	[math]O(nkd)[/math]
Объём входных данных	[math]n*d[/math]
Объём выходных данных	[math]n[/math]

Страница создана группой "Илья Егоров — Евгений Богомазов"

Содержание

1 ЧАСТЬ. Свойства и структура алгоритмов
2 ЧАСТЬ. Программная реализация алгоритма
- 2.1 Масштабируемость алгоритма и его реализации
- 2.2 Существующие реализации алгоритма
  - 2.2.1 Бесплатный доступ
  - 2.2.2 Платный доступ/лицензия
3 Литература

1 ЧАСТЬ. Свойства и структура алгоритмов

1.1 Общее описание алгоритма

Алгоритм кластеризации k-средних впервые был предложен в 1950-х годах математиками Гуго Штейнгаузом и Стюартом Ллойдом независимо друг от друга. Наибольшую популярность он получил после работы Маккуина.

Алгоритм позволяет при заданном числе [math]k[/math] построить [math]k[/math] кластеров, расположенных на максимальном расстоянии друг от друга. Таким образом, наибольшей точности результат выполнения алгоритма достигает при полной осведомленности Пользователя о характере кластеризуемых объектов и, как следствие, при обладании максимально корректной информацией о числе кластеров.

В общем случае выбор числа [math]k[/math] может базироваться на любых значимых факторах, в том числе на результатах предшествующих исследований, теоретических соображениях или интуиции.

1.2 Математическое описание алгоритма

Исходные данные:

Совокупность n d-мерных векторов [math] X = \{x_1 \dots x_n\} , [/math] где [math] x_i = \{x_{i1} \dots x_{id}\} [/math]
Предполагаемое количество кластеров k

Выходные данные:

Разбиение X на множество [math] S = \{S_1 \dots S_k \}, \bigcup S_i = X, S_i \cap S_j = \emptyset, i \neq j [/math]
k центров кластеров [math] \Mu = \{\mu_1 \dots \mu_k \} [/math], где [math] \mu_i = \{\mu_{i1} \dots \mu_{id} \} [/math] такие, что

[math] \begin{cases}\tilde{\mu_i} = \underset{y}{argmin } \sum_{x \in S_i} ||x-y||^2_E \\ \Mu = \underset{\tilde{\Mu}}{argmin } \sum_{i \in k} \sum_{x \in S_i} ||x-\tilde{\mu_i}||^2_E \end{cases} [/math]

Алгоритм:

1) [math] \mu_{ij} = random [/math]

2) [math] S_i = \{x \in S | \underset{j}{argmin } ||x-\mu_j||_E = i\} i = 1 \dots k [/math]

3) [math] \tilde{\mu_{i}} = E_{x \in S_i}(x) [/math]

4) Если для [math] \forall i: \mu_i = \tilde{\mu_i} [/math] то алгоритм завершен, иначе [math] \mu_i = \tilde{\mu_i} [/math] и перейти на пункт 2)

1.3 Вычислительное ядро алгоритма

Вычислительным ядром алгоритма является второй этап, а точнее нахождение матрицы расстояний между [math]X[/math] и [math]\Mu[/math]. Для d-мерного вектора [math]a:[/math]

[math]||a||=\sqrt{\sum_{i=1\dots d} a_i^2}[/math], поэтому заполнение одной ячейки такой матрицы потребует [math]d[/math] операций умножения, [math]d-1[/math] операций сложения и одну операция вычисления квадратного корня. Но так как эти расстояния используются только для сравнения, а sqrt является монотонно возрастающей функцией, то ее можно не вычислять. Поэтому нахождения матрицы расстояний потребует всего [math]n*k*d[/math] операций умножений и [math]n*k*(d-1)[/math] операций сложений.

1.4 Макроструктура алгоритма

Алгоритм k-средних базируется на алгоритме вычисления расстояния между векторами, расстояние на каждом шаге высчитывается [math]k\cdot n[/math] раз.

Помимо этого, в конце каждого шага вычисляется центр масс объектов кластера, для всех объектов потребуется [math]n-1[/math] суммирование и [math]k[/math] делений.

1.5 Схема реализации последовательного алгоритма

Последовательность шагов алгоритма следующая:

   1. Инициализация центроидов [math]\Mu[/math], [math] iter = 1 [/math], задание максимального количество итераций [math]maxiter[/math]
       
   2a. Нахождение матрицы расстояний [math]dist:[/math]
   
       [math]dist_{ij} = \sum_{l = 1\dots d} (x_{il}-\mu_{jl})^2[/math]
       
   2b. Нахождение вектора распределения объектов по кластерам [math]index: [/math]
   
       [math]index_{i} =   \underset{j}{argmin }~dist_{ij} [/math]
   
   3. Пересчет центроидов [math]\tilde{\Mu}:[/math]
   
       [math]\tilde{\mu_{ij}} = \sum_{l \in \tilde{S_i}} \dfrac{x_{lj}}{|\tilde{S_i}|} [/math], где [math]\tilde{S_i} = \{l~|~l \in 1\dots n, index_l = i\}  [/math]
   
   4. Проверка критерия останова:
   
       Если [math] \exists i: \tilde{\mu_i} \neq \mu_i[/math], [math] iter \lt  maxiter [/math],
   
       то [math] inc(iter), \Mu=\tilde{\Mu},[/math] GOTO 2.а.

1.6 Последовательная сложность алгоритма

   1) Сложность инициализации в общем случае зависит от применяемого метода генерации/получения случайных чисел, но ей можно пренебречь
   
   2a) Вычисление матрицы расстояний требует [math] n*k*d [/math] операций умножений и [math] n*k*(d-1) [/math] операций сложений
   
   2b) Нахождение вектора распределения требует [math] n*(k-1) [/math] операций сравнений
   
   3) Для вычисления [math] \tilde{\Mu} [/math] требуется [math] (n - k + 1) * d [/math] операций сложений и [math] k * d [/math] операций деления
   
   4) Для критерия останова требуется [math] n*d [/math] сравнений

Итого: так как максимальное количество итераций задается в алгоритме заранее и не зависит от входных данных, то количество итераций ограничено константой. Тогда сложность алгоритма:

[math] O(n*k*d)[/math] операций сложений/вычитаний
[math] O(n*k*d)[/math] операций умножений, [math] O(k*d) [/math] операций делений

1.7 Информационный граф

1.8 Ресурс параллелизма алгоритма

Подправь стилистику!!!

Для получения общей картины достаточно посмотреть, каким ресурсом параллелизма обладает каждый из этапов алгоритма с оглядкой на информационный граф:

2a) Нахождение каждой ячейки матрицы [math] dist [/math] может происходить полностью независимо в виду нахождения их на одном ярусе. Рассмотрев вычисление конкретной ячейки [math] dist_{ij} [/math] можно заметить, что все операции умножения также независимы между собой (поэтому понадобится всего одно умножение), а конечный результат получается в результате суммирования всех слагаемых. При помощи стандартной методологии reduction ее можно выполнить параллельно за [math] \log(d) [/math] бинарных операций сложения

2b) Нахождение вектора распределений заключается в нахождение минимального элемента в каждой строке матрицы [math] dist [/math]. Снова при помощи reduction ее можно выполнить за [math] \log(k) [/math] бинарных операций сравнения

3) При условии существовании методологии быстрого распределения n объектов на k множеств при помощи вектора индексации (косвенной адресации), то все [math] \tilde{S_i} [/math] могут быть обработаны параллельно. В рамках каждого отдельного [math] \tilde{S_i} [/math] можно проводить распараллеливание дальше, так как [math] x_{lj} [/math] также не зависят друг от друга, поэтому вычисление всех слагаемых для всех [math] \tilde{\mu_{ij}} [/math] может быть выполнено за одно параллельное деление, а нахождение суммы всех этих слагаемых для каждого [math] \tilde{\mu_{ij}} [/math] может быть выполнено за [math] O(log(n)) [/math] в худшем случае (при вхождение почти всех объектов в один кластер)

Если же такой методологии не существуют, то узким местом становится распределения на множества согласно вектору [math]index[/math], которое можно выполнить за [math] n [/math] операций косвенных адресаций.

4) Все сравнения для критерия останова также независимы между собой и могут быть выполнены за одну операцию сравнения, финальный результат может быть получен за одну операцию сложения при работе над общей памятью(нужно ли объяснять как?, например прибавление единицы при несовпадении в общую память и сравнение ее с 0 по завершению (при этом пофиг на конфликты)) или за [math]\log(k*d)[/math] сложений иначе

Так как количество итераций ограничено константой, то на сложность оно не влияет. Итого параллельная сложность алгоритма:

[math] O(\log(n*d)) [/math] операций сложения
[math] O(\log(k)) [/math] операций сравнения
[math] O(1) [/math] операций умножений и делений

1.9 Входные и выходные данные алгоритма

Входные данные: Количество кластеров k, n кластеризуемых элементов

Дополнительные ограничения:

k — положительное число, т. е. k > 0.
Для кластеризуемых элементов определена метрика (расстояние между объектами)

Объём входных данных: n [math]\cdot[/math] d + 1 (кластеризуемые объекты в виде векторов и число k)

Выходные данные: Массив, в который записаны принадлежности каждого элемента кластеру (допустим вывод в другой эквивалентной более удобной структуре).

Объём выходных данных: Размер массива равен 2 [math]\cdot[/math] n.

1.10 Свойства алгоритма

Ограничения алгоритма

Алгоритм эффективно работает только на небольших объемах данных.

Преимущества алгоритма

Простота использования
Быстрота использования
Понятность и прозрачность описания
Обладает вычислительной устойчивостью
Предрасположенность к распараллеливанию
Достаточно популярный, поэтому имеет множество реализаций и вариаций

Недостатки алгоритма

Нет проверки корректности выбора числа кластеров
Алгоритм чувствителен к количеству кластеров
Алгоритм чувствителен к выбору начальных элементов в качестве центроидов
Алгоритм крайне чувствителен к выбросам по данным
Медленная работа на больших объемах данных

2 ЧАСТЬ. Программная реализация алгоритма

2.1 Масштабируемость алгоритма и его реализации

2.2 Существующие реализации алгоритма

2.2.1 Бесплатный доступ

Десктопные программы

Weka
Orange

Фреймворки для языков

Python:
- scikit-learn
- SciPy
C++:
- MLPACK
- OpenCV
- Octave
C#:
- Accord.NET
Java:
- ELKI
- Mahout
Lua
- Torch

Языки R и Julia содержат алгоритм k-means в базовой реализации.

2.2.2 Платный доступ/лицензия

Существует целый перечень мощных статистических и математических пакетов для разных ОС:

3 Литература

[1] Нейский И.М. Классификация и сравнение методов кластеризации http://it-claim.ru/Persons/Neyskiy/Article2_Neiskiy.pdf

[2] https://ru.wikipedia.org/wiki/K-means

@@ Строка 97: / Строка 97: @@
 == Ресурс параллелизма алгоритма ==
+'''Подправь стилистику!!!'''
+Для получения общей картины достаточно посмотреть, каким ресурсом параллелизма обладает каждый из этапов алгоритма с оглядкой на информационный граф:
+a) Нахождение каждой ячейки матрицы <math> dist </math> может происходить полностью независимо в виду нахождения их на одном ярусе. Рассмотрев вычисление конкретной ячейки <math> dist_{ij} </math> можно заметить,
+что все операции умножения также независимы между собой (поэтому понадобится всего одно умножение), а конечный результат получается в результате суммирования всех слагаемых. При помощи стандартной методологии reduction ее можно выполнить параллельно за <math> \log(d) </math> бинарных операций сложения
+b) Нахождение вектора распределений заключается в нахождение минимального элемента в каждой строке матрицы <math> dist </math>. Снова при помощи reduction ее можно выполнить за <math> \log(k) </math> бинарных операций сравнения
+) При условии существовании методологии быстрого распределения n объектов на k множеств при помощи вектора индексации (косвенной адресации), то все <math> \tilde{S_i} </math> могут быть обработаны параллельно. В рамках каждого отдельного <math> \tilde{S_i} </math> можно проводить распараллеливание дальше, так как <math> x_{lj} </math> также не зависят друг от друга, поэтому вычисление всех слагаемых для всех <math> \tilde{\mu_{ij}} </math> может быть выполнено за одно параллельное деление, а нахождение суммы всех этих слагаемых для каждого <math> \tilde{\mu_{ij}} </math> может быть выполнено за <math> O(log(n)) </math> в худшем случае (при вхождение почти всех объектов в один кластер)
+Если же такой методологии не существуют, то узким местом становится распределения на множества согласно вектору <math>index</math>, которое можно выполнить за <math> n </math> операций косвенных адресаций.
+) Все сравнения для критерия останова также независимы между собой и могут быть выполнены за одну операцию сравнения, финальный результат может быть получен за одну операцию сложения при работе над общей памятью('''нужно ли объяснять как?''', например прибавление единицы при несовпадении в общую память и сравнение ее с 0 по завершению (при этом пофиг на конфликты)) или за <math>\log(k*d)</math> сложений иначе
+Так как количество итераций ограничено константой, то на сложность оно не влияет. Итого параллельная сложность алгоритма:
+* <math> O(\log(n*d)) </math> операций сложения
+* <math> O(\log(k)) </math> операций сравнения
+* <math> O(1) </math> операций умножений и делений
 == Входные и выходные данные алгоритма ==

Участник:Илья Егоров/Алгоритм k-средних: различия между версиями

Версия 18:12, 15 октября 2016

Содержание

1 ЧАСТЬ. Свойства и структура алгоритмов

1.1 Общее описание алгоритма

1.2 Математическое описание алгоритма

1.3 Вычислительное ядро алгоритма

1.4 Макроструктура алгоритма

1.5 Схема реализации последовательного алгоритма

1.6 Последовательная сложность алгоритма

1.7 Информационный граф

1.8 Ресурс параллелизма алгоритма

1.9 Входные и выходные данные алгоритма

1.10 Свойства алгоритма

2 ЧАСТЬ. Программная реализация алгоритма

2.1 Масштабируемость алгоритма и его реализации

2.2 Существующие реализации алгоритма

2.2.1 Бесплатный доступ

2.2.2 Платный доступ/лицензия

3 Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Хранилище файлов

Инструменты

На других языках