Версия 17:34, 26 октября 2016

Плотностный алгоритм кластеризации DBSCAN
Последовательный алгоритм
Последовательная сложность	$O(n \log n)$
Объём входных данных	$n$
Объём выходных данных	$n$
Параллельный алгоритм
Высота ярусно-параллельной формы	$O(\|H\| \log \|H\|)$
Ширина ярусно-параллельной формы	$O(w)$

Основной автор описания: Гилевич В.В.

1 Свойства и структура алгоритмов

1.1 Общее описание алгоритма

Кластеризация — это процедура, упорядочивающая элементы из некоторого множества в сравнительно однородные группы (кластеры). Элементы могут содержать числовые, категориальные или смешанные данные. Плотностные методы выделяют кластеры на основе следующей идеи: кластером считается регион с высокой плотностью объектов, которые разделены разреженными регионами (с низкой плотностью объектов)

Алгоритм DBSCAN (Density Based Spatial Clustering of Applications with Noise) ^[1] — плотностной алгоритм для кластеризации пространственных данных с присутствием шума, был предложен Мартином Эстер, Гансом-Питером Кригель и их коллегами в 1996 году как решение проблемы разбиения данных на кластеры произвольной формы.

1.2 Математическое описание алгоритма

1.2.1 Исходные данные

Множество $X$ , на котором определена функция расстояния $D$ .

1.2.2 Вычисляемые данные

Множество пар из элемента множества $X$ , и соответствующий ему номер кластера.

1.2.3 Параметры алгоритма

$\varepsilon$ — максимальное расстояние между соседями;
$MinPts$ — минимальное количество элементов находящихся $\varepsilon$ -окрестности данного элемента для создания кластера.

1.2.4 Определения

ядровой элемент: элемент $p$ является ядровым, если количество элементов в $\varepsilon$ -окрестности, включая сам элемент $p$ больше или равно $MinPts$ ;

достижимость напрямую элемента $p$ из элемента q: элемент $p$ считается достижимым напрямую из элемента $q$ , если элемент $q$ является ядровым, а элемент $p$ находится в $\varepsilon$ -окрестности элемента q;

достижимость элемента $p$ из элемента $q$ : элемент $p$ достижим из элемента $q$ , если существует путь $p_1, \dots, p_n$ , где $p_1 = p$ и $p_n = q$ , где $p_{i + 1}$ напрямую достижим из $p_{i}$ ;

шум: все элементы, недостижимые из какого-либо другого считаются шумом.

Так как достижимость не является симметричным отношением (никакой элемент не может быть достижим из неядрового, вне зависимости от расстояния), то предлагается ввести следующее отношение:

связанность элемента p и элемента q: элемент $p$ считается связанным с $q$ , если существует такой элемент $o$ , что $p$ и $q$ достижимы из него.

Таким образом кластер должен удовлетворять двум условиям:

Все элементы внутри кластера взаимно связанны;
Если элемент связан с каким-либо элементом кластера, то он тоже является частью кластера.

Рис. 1^[2]. Для MinPts = 4. Красные элементы соответствуют ядровым, желтые — достижимым, синяя — шуму.

1.2.5 Пошаговое описание алгоритма

Выбирается произвольная непосещенный элемент $p$ .
Элемент $p$ помечается как посещенный.
Проверяется, является ли элемент $p$ ядровым.
- Если элемент $p$ является ядровым, то:
  - Он становится началом нового кластера или сохраняет номер кластера, который был присвоен элементу ранее;
  - Все элементы из $\varepsilon$ -окрестности элемента $p$ добавляются в его кластер (им присваевается номер кластера элемента $p$ );
  - Процесс продолжается рекурсивно для каждого непосещенного элемента текущего кластера c шага 2.
- Если элемент $p$ не является ядровым, то $p$ объявляется шумом. Алгоритм продолжается с шага 4.
Если остались непосещенные точки, то алгоритм продолжается с шага 1.

1.3 Вычислительное ядро алгоритма

Вычислительным ядром алгоритма является поиск элементов в $\varepsilon$ -окрестности каждого элемента входного множества $X$ . На эту часть алгоритма приходится основное время работы алгоритма, так как для каждого элемента необходимо выполнить эту операцию.

1.4 Макроструктура алгоритма

Алгоритм DBSCAN предполагает использование пространственной структуры данных: такие структуры позволяют найти все элементы в пределах определенного расстояния от текущего за $O(\log n)$ . Сложность построения таких структур $O(n \log n)$ , таким образом, использование такой структуры не увеличивает сложность всего алгоритма.

1.5 Схема реализации последовательного алгоритма

[math]DBSCAN(X, \varepsilon, MinPts)[/math]
  [math]C = 0[/math]
  for [math]p[/math] in [math]X[/math]:
    if [math]p[/math] is [math]visited[/math]:
      continue
    mark [math]p[/math] as [math]visited[/math]
    [math]neighbours[/math] = [math]\{ o \ | \ \forall o \in X: D(p, o) \le \varepsilon \}[/math]
    if [math]| neighbours | \ge MinPts[/math]:
      [math]C = C + 1[/math]
      add [math]p[/math] to cluster [math]C[/math]
      for [math]q \in neighbours[/math]:
        if [math]q[/math] is not [math]visited[/math]:
          mark [math]q[/math] as [math]visited[/math]
          [math]q\_neighbours[/math] = [math]\{ o \ | \ \forall o \in X: D(q, o) \le \varepsilon \}[/math]
          if [math]| q\_neighbours | \ge MinPts[/math]:
            [math]neighbours[/math] = [math]neighbours \cup q\_neighbours[/math]  
        if [math]q[/math] has no cluster mark:
          mark [math]q[/math] as part of cluster [math]C[/math]
    else:
      mark [math]p[/math] as [math]noise[/math]

1.6 Последовательная сложность алгоритма

Для того, чтобы проверить принадлежность элемента множества к кластеру необходимо получить список соседей в его $\varepsilon$ -окрестности. При использовании пространственной структуры данных данная операция может быть выполнена со сложностью $O(\log n)$ . Так как для необходимо определить принадлежность к кластеру всех элементов множества, то сложность самого алгоритма $O(n \log n)$ . При отказе от использования таких сткрутр сложность возрастает до $O(n^2)$ , так как для каждого элемента требуется проверить на нахождение в $\varepsilon$ -окрестности все остальные элементы множества.

1.7 Информационный граф

Опишем граф алгоритма как аналитически, так и в виде рисунка:

Граф алгоритма состоит из двух групп вершин, расположенных узлах двух областей двумерной размерности.

Первой группе вершин соответствует операция Neighbours. Естественно введённые координаты области таковы:

$i$ — меняется от $1$ до $k + f$ , принимая все целочисленные значения, где $k$ — число результирующих кластеров, $f$ — число элементов помеченных, как шум
$j$ — меняется от $1$ до $t$ , принимая все целочисленные значения, где $t$ — число вершин в кластере $i$

Второй группе вершин соответствует операция Check. Естественно введённые координаты области аналогичны предыдущей.

Граф алгоритма DBSCAN

1.8 Ресурс параллелизма алгоритма

Так как в данном алгоритме присутствует параллелизм по данным, ширина ярусно-параллельной формы алгоритма $O(w)$ , где $w$ — количество частей, на которые разбиваются все входное множество объектов $X$ . Высотой ярусно-параллельной формы алгоритма является $O(|H| \log |H|)$ , где $|H|$ — максимальное количество элементов в области среди всех частей разбиения. Именно такую сложность имеет алгоритм PDBSCAN^[3], применяемый к каждой отдельной части разбиения.

1.9 Входные и выходные данные алгоритма

Входные данные: множество $X$ , на котором определена функция расстояния $D$ .

Объём входных данных: $n$ (размерность входящего множества)

Выходные данные: размеченное множество точек $X$ , в котором каждому элементу соответствует номер его кластера.

Объём выходных данных: $n$ (размерность выходящего множества)

1.10 Свойства алгоритма

Алгоритм может определять кластера произвольной формы;
Параллельная реализация при равномерном разбиении сбалансирована по количеству и виду производимых операций;
Не требуется задание числа кластеров;
Может выделять кластеры в присутствии шума;
Не детерминирован относительно граничных точек кластеров.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

3 Литература

↑ A density-based algorithm for discovering clusters in large spatial database / M. Ester, H.-P. Kriegel, J. Sander, X. Xu // Proc. 1996 Intern. Conf. on Knowledge Discovery and Data Mining. – 1996.
↑ https://en.wikipedia.org/wiki/DBSCAN Density-based spatial clustering of applications with noise (DBSCAN)
↑ A New Scalable Parallel DBSCAN Algorithm Using the Disjoint-Set Data Structure \ Md. Mostofa Ali Patwary, Diana Palsetia, Ankit Agrawal, Wei-keng Liao, Fredrik Manne, Alok Choudhary

[1] A density-based algorithm for discovering clusters in large spatial database / M. Ester, H.-P. Kriegel, J. Sander, X. Xu // Proc. 1996 Intern. Conf. on Knowledge Discovery and Data Mining. – 1996.

[2] ttps://en.wikipedia.org/wiki/DBSCAN Density-based spatial clustering of applications with noise (DBSCAN)

[3] A New Scalable Parallel DBSCAN Algorithm Using the Disjoint-Set Data Structure \ Md. Mostofa Ali Patwary, Diana Palsetia, Ankit Agrawal, Wei-keng Liao, Fredrik Manne, Alok Choudhary

[1]

[2]

[3]

@@ Строка 1: / Строка 1: @@
-{{Assignment}}
 {{algorithm
 | name              = Плотностный алгоритм кластеризации DBSCAN

Участник:Elmon/Плотностный алгоритм кластеризации DBSCAN: различия между версиями