Участник:Dmitry/Плотностный алгоритм кластеризации: различия между версиями
Dmitry (обсуждение | вклад) |
Dmitry (обсуждение | вклад) |
||
Строка 34: | Строка 34: | ||
[[Файл:Достижимость_по_плотности.png|thumb|center|300px|Рис. 3. Достижимость по плотности]] | [[Файл:Достижимость_по_плотности.png|thumb|center|300px|Рис. 3. Достижимость по плотности]] | ||
+ | Точка <math>X</math> соединена (связана) по плотности с точкой <math>f</math> (согласно <math>\varepsilon</math> и <math>MCP</math>) если существует точка <math>e</math> такая, что обе точки <math>X</math> и <math>f</math> являются достижимыми от точки <math>e</math> (согласно <math>\varepsilon</math> и <math>MCP</math>) (рис. 4). | ||
+ | |||
+ | [[Файл:Соединение_по_плотности.png|thumb|center|300px|Рис. 4. Соединение по плотности]] | ||
+ | |||
+ | Кластер, сформированный на основе размещения объектов по плотности должен удовлетворять таким свойствам: максимальность; связность. | ||
+ | |||
+ | В этом случае, под кластером понимается непустое подмножество точек <math>G</math> из набора данных <math>D</math>, которое удовлетворяет вышеупомянутым свойствам, причем, максимальность интерпретируется таким образом: если <math>X \in G</math> и <math>f</math> достижима по плотности от точки <math>X</math>, тогда и <math>f \in G</math>, это значит, что обе точки принадлежат одному кластеру. | ||
+ | |||
+ | Свойство связности гласит, что каждый объект в подмножестве <math>G</math> соединен по плотности со всеми объектами кластера (при заданных <math>\varepsilon</math> и <math>MCP</math>). | ||
+ | |||
+ | Все объекты из набора данных <math>D</math> представляют собой совокупность подмножеств: | ||
+ | |||
+ | <math>D= \{ G_1, G_2,..., G_n, N \}</math>, | ||
+ | |||
+ | где <math>G_1, G_2,..., G_n</math> – кластеры, образованные по плотности; <math>N</math> – некоторое подмножество, объекты которого не принадлежат ни одному из подмножеств <math>G_1, G_2,..., G_n</math>. | ||
== Вычислительное ядро алгоритма == | == Вычислительное ядро алгоритма == |
Версия 17:15, 1 февраля 2017
Авторы описания: Титов Д.Е.
Содержание
- 1 Свойства и структура алгоритма
- 1.1 Общее описание алгоритма
- 1.2 Математическое описание алгоритма
- 1.3 Вычислительное ядро алгоритма
- 1.4 Макроструктура алгоритма
- 1.5 Схема реализации последовательного алгоритма
- 1.6 Последовательная сложность алгоритма
- 1.7 Информационный граф
- 1.8 Ресурс параллелизма алгоритма
- 1.9 Входные и выходные данные алгоритма
- 1.10 Свойства алгоритма
- 2 Программная реализация алгоритма
- 2.1 Особенности реализации последовательного алгоритма
- 2.2 Локальность данных и вычислений
- 2.3 Возможные способы и особенности параллельной реализации алгоритма
- 2.4 Масштабируемость алгоритма и его реализации
- 2.5 Динамические характеристики и эффективность реализации алгоритма
- 2.6 Выводы для классов архитектур
- 2.7 Существующие реализации алгоритма
- 3 Литература
1 Свойства и структура алгоритма
1.1 Общее описание алгоритма
Под кластеризацией понимается деление заданного множества точек данных (объектов) на подгруппы, каждая из которых, насколько это возможно, однородна. В основе метода кластеризации DBSCAN лежит объединение некоторых объектов в соответствии с их внутригрупповым «соединением». Для проведения корректной процедуры кластеризации необходимо указать критерии, по которым объекты будут объединены в кластеры. Прежде всего, необходимо сказать, что кластеры представляют собой плотные области некоторых объектов в пространстве данных, разделенных между собой объектами, плотность которых значительно ниже. Расположение точек в одном кластере обусловлено их соединением, т.е. некоторой связью между собой.
1.2 Математическое описание алгоритма
Плотность точек для данной точки X определяется двумя параметрами. Первым из них является \varepsilon – радиус «соседства» (приближенности) точки X. Тогда множество M_\varepsilon(X) будет включать в себя такие точки f_i, (i=\overline{1,n}), для которых следующее неравенство будет истинно:
[math]dist(X,f_i) \le \varepsilon[/math], [math](i=\overline{1,n})[/math]
Функция dist(var1, var2) определяет расстояние между объектами выборки D. Это расстояние может вычисляться различными способами, например, как евклидово расстояние или с помощью метрики Минковского.
Вторым параметром определения плотности точек является MCP – это минимальное количество точек, которые расположены ближе всего к данной точке согласно определенному радиусу \varepsilon.
Точка f_i, (i=\overline{1,n}) будет являться окруженной точкой (согласно \varepsilon и MCP) если:
[math]M_\varepsilon(X) \le MPC[/math]
Это значит, что точка f_i, (i=\overline{1,n}) окруженная, если количество «соседствующих» точек выборки D окажется большим, либо равным значению параметра MCP (рис. 1).
Точка X является прямо достижимой по плотности от точки f (при соответствующих \varepsilon и MPC), если точка X \in M(X), т.е. точка X – это одна из точек f для другого окружения (соседства), где f – окруженная точка (рис. 2).
Достижимость по плотности – это транзитивное замыкание прямо достижимой по плотности точки. Точка f достижима по плотности из точки X, но точка X не достижима по плотности из точки f (рис. 3).
Точка X соединена (связана) по плотности с точкой f (согласно \varepsilon и MCP) если существует точка e такая, что обе точки X и f являются достижимыми от точки e (согласно \varepsilon и MCP) (рис. 4).
Кластер, сформированный на основе размещения объектов по плотности должен удовлетворять таким свойствам: максимальность; связность.
В этом случае, под кластером понимается непустое подмножество точек G из набора данных D, которое удовлетворяет вышеупомянутым свойствам, причем, максимальность интерпретируется таким образом: если X \in G и f достижима по плотности от точки X, тогда и f \in G, это значит, что обе точки принадлежат одному кластеру.
Свойство связности гласит, что каждый объект в подмножестве G соединен по плотности со всеми объектами кластера (при заданных \varepsilon и MCP).
Все объекты из набора данных D представляют собой совокупность подмножеств:
[math]D= \{ G_1, G_2,..., G_n, N \}[/math],
где G_1, G_2,..., G_n – кластеры, образованные по плотности; N – некоторое подмножество, объекты которого не принадлежат ни одному из подмножеств G_1, G_2,..., G_n.