COBWEB
Последовательный алгоритм
Последовательная сложность	$log_{B}n*B^{2}AV$

Содержание

1 Свойства и структура алгоритмов
2 Программная реализация алгоритма

1 Свойства и структура алгоритмов

1.1 Общее описание алгоритма

Задача кластеризации – частный случай задачи обучения без учителя, которая сводится к разбиению имеющегося множества объектов данных на подмножества таким образом, что элементы одного подмножества существенно отличались по некоторому набору свойств от элементов всех других подмножеств. Объект данных обычно рассматривается как точка в многомерном метрическом пространстве, каждому измерению которого соответствует некоторое свойство (атрибут) объекта, а метрика – есть функция от значений данных свойств. Кластерный анализ выполняет следующие основные задачи:

разработка типологии или классификации.
исследование полезных концептуальных схем группирования объектов.
порождение гипотез на основе исследования данных.
проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Для решения многих практических задач в настоящее время используется концептуальная кластеризация данных, ярким представителем которой является метод COBWEB. Алгоритм COBWEB – классический метод инкрементальной концептуальной кластеризации. Он создаёт иерархическую кластеризацию в виде дерева классификации: каждый узел этого дерева ссылается на концепт и содержит вероятностное описание этого концепта, которое включает в себя вероятность принадлежности концепта к данному узлу и условные вероятности вида: $P(A_{j}=u_{ij}|C_{k})$ , где $A_{j}$ = $u_{ij}$ – пара атрибут-значение, $C_{k}$ – класс концепта. Узлы, находящейся на определённом уровне дерева классификации, называют срезом. Алгоритм использует для построения дерева классификации эвристическую меру оценки, называемую полезностью категории – прирост ожидаемого числа корректных предположений о значениях атрибутов при знании об их принадлежности к определённой категории относительно ожидаемого числа корректных предположений о значениях атрибутов без этого знания. Чтобы встроить новый объект в дерево классификации, алгоритм COBWEB итеративно проходит всё дерево в поисках «лучшего» узла, к которому отнести этот объект. Выбор узла осуществляется на основе помещения объекта в каждый узел и вычисления полезности категории получившегося среза. Также вычисляется полезность категории для случая, когда объект относится к вновь создаваемому узлу. В итоге объект относится к тому узлу, для которого полезность категории больше.

1.2 Математическое описание алгоритма

Пусть $X$ — множество объектов, $Y$ — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами $\rho (x,x')$ . Имеется конечная обучающая выборка объектов $X^{m}=\{x_{1},\dots ,x_{m}\}\subset X$ . Требуется разбить выборку на непересекающиеся подмножества, называемыекластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике $\rho$ , а объекты разных кластеров существенно отличались. При этом каждому объекту $x_{i}\in X^{m}$ приписывается номер кластера $y_{i}$ . Алгоритм кластеризации — это функция $a\colon X\to Y$ , которая любому объекту $x\in X$ ставит в соответствие номер кластера $y\in Y$ . Множество $Y$ в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

В алгоритме COBWEB реализовано вероятностное представление категорий. Принадлежность категории определяется не набором значений каждого свойства объекта, а вероятностью появления значения. Например, $P(A_{j}=u_{ij}|C_{k})$ - это условная вероятность, с которой свойство $A_{j}$ , принимает значение $u_{ij}$ , если объект относится к категории $C_{k}$ . Для каждой категории в иерархии определены вероятности вхождения всех значений каждого свойства. При предъявлении нового экземпляра система COBWEB оценивает качество отнесения этого примера к существующей категории и модификации иерархии категорий в соответствии с новым представителем. Критерием оценки качества классификации является полезность категории (category utility). Критерий полезности категории был определен при исследовании человеческой категоризации. Он учитывает влияние категорий базового уровня и другие аспекты структуры человеческих категорий. Критерий полезности категории максимизирует вероятность того, что два объекта, отнесенные к одной категории, имеют одинаковые значения свойств и значения свойств для объектов из различных категорий отличаются. обозначим через – множество распознаваемых объектов, характеризуемое бинарными параметрами , принимаемыми одно из возможных значений . – множество формируемых кластеров, где n – заранее неизвестно. Полезность кластеризации в методе COBWEB рассматривается как функция $CU$ , определяющая сходство объектов в рамках одного кластера, и их различие по отношению к объектам из других кластеров. Внутриклассовое сходство определяется условной вероятностью , а межклассовое сходство условной вероятностью . Функция полезности кластеризации определяется в виде $CU= \frac{\sum_{k=1}^{N}P(A=u_{ij}|C_{k})\sum_{j}\sum_{i}(P(C_{k}|A=u_{ij})^2-P(A=u_{ij})^2)}{N}$ , где N – количество кластеров.

1.3 Вычислительное ядро алгоритма

Метод COBWEB строит дерево классификации с вероятностными описаниями концептов. Выбор возможного способа кластеризации объектов основан на значениях функции полезности кластеризации. При построении дерева классификации используются следующие 4 операции:

отнесение объекта к наилучшему из существующих кластеров
добавление нового кластера, содержащего единственный объект
слияние двух существующих кластеров в один новый с добавлением в нее этого объекта
разбиение существующего кластера на два и отнесение объекта к лучшему из вновь созданных кластеров

Модель концептуальной кластеризации

Пошаговое описание метода концептуальной кластеризации:

Вводится корневой кластер $C_{0}$ , свойства которого совпадают со свойствами первого объекта $O_{1}$ = $V_{11},\dots, V_{1m}$ . Для каждого последующего объекта $O_{i}$ = $V_{i1},\dots, V_{im}$ выполняется цикл, реализующий шаги 2‒6, в рамках которых выполняются 4 выше представленные операции.
Объект $O_{i}$ добавляется поочередно в кластеры $C_{1}$ , $C_{2}$ ,…, $C_{k}$ . После каждого добавления вычисляется полезность кластеризации $CU_{1},\dots, CU_{k}$ .
Для объекта $O_{i}$ создается новый кластер $C_{k+1}$ , объект помещается в кластер и вычисляется полезность кластеризации $CU_{k+1}$ .
Объединяются два кластера с максимальными значением полезности кластеризации из $CU_{1},\dots, CU_{k}$ . Образуется новый кластер, в него добавляется объект $O_{i}$ . Вычисляется полезность кластеризации $CU_{k+2}$ .
Объект $O_{i}$ добавляется в кластер с максимальным значением полезности кластеризации из $CU_{1},\dots, CU_{k}$ . Образуется новый кластер с двумя кластерами-потомками. Вычисляется полезность кластеризации $CU_{k+3}$ .
Выбирается максимальное значение полезности кластеризации среди полезностей $CU_{1},\dots, CU_{k}, CU_{k+1}, CU_{k+2}, CU_{k+3}$ , в соответствии с ним выбирается операция разбиения объектов по кластерам.

1.4 Макроструктура алгоритма

Макроструктура алгоритма представлена итеративным вызовом вычислительного ядра для каждого элемента из входного набора данных с уточнением дерева кластеризации на каждом шаге.

1.5 Схема реализации последовательного алгоритма

COBWEB(root, record):
  Input: A COBWEB node root, an instance to insert record
  if root has no children then
    children := {copy(root)}
    newcategory(record) \\ adds child with record’s feature values.
    insert(record, root) \\ update root’s statistics
  else
    insert(record, root)
    for child in root’s children do
      calculate Category Utility for insert(record, child),
      set best1, best2 children w. best CU.
    end for
    if newcategory(record) yields best CU then
      newcategory(record)
    else if merge(best1, best2) yields best CU then
      merge(best1, best2)
      COBWEB(root, record)
    else if split(best1) yields best CU then
      split(best1)
      COBWEB(root, record)
    else
      COBWEB(best1, record)
    end if
  end

1.6 Последовательная сложность алгоритма

Пусть $B$ - среднее число потомков узлов в дереве классификации и $n$ - число уже классифицированных объектов, тогда $log_{B}n$ - оценка глубины дерева классификации. Кроме того, положим $A$ равным числу свойств у классифицируемых объектов, а $V$ - среднее число значений, которые могу принимать данные свойства. В ходе определения к каком у классу отнести каждый следующий объект из входного набора, необходимо рассчитать значение функции полезности категории. Сложность расчета данной функции есть $O(BAV)$ и данное действие необходимо повторить для каждого из B потомков (в среднем). Кроме того, для классификации нам необходимо пройти по дереву, имеющему глубину $log_{B}n$ , таким образом мы имеем оценку по сложности $O(log_{B}n*B^{2}AV)$ .

1.7 Информационный граф

Для выполнения каждой итерации алгоритма (добавления очередного элемента в дерево классификации) необходимо иметь доступ по всему текущему состоянию дерева классификации. Однако, внутри шага алгоритма наблюдается полная независимость по данным. Имеется возможность произвести расчет функции полезности для каждого кластера независимо и в конце сравнить их значения.

1.8 Ресурс параллелизма

Основной вычислительной нагрузкой алгоритма является вычисление функции полезности для категорий. Однако, именно эта часть алгоритма поддается простому и логичному распараллеливанию. Можно выделить два пути к получению параллельной версии исходного алгоритма:

распараллеливание вычисления каждой конкретной функции полезности
распараллеливание процесса вычисления совокупности функций полезности

В первом случае предлагается распараллелить цикл вычисления суммы, являющийся основой функции полезности. Второй подход предлагает распараллелить процесс более высокоуровнево. Из описания ядра алгоритма видно, что для добавления каждого элемента в дерево необходимо вычислить $k+3$ раза функцию полезности. Стоит заметить, что вычисления функции полезности никак не зависят друг от друга и могут быть выполнены параллельно.

Кроме того, стоит отметить, что оба данных подхода к распараллеливанию могут быть использованы вместе, что может быть полезно на системах типа MPI+OpenMP.

С точки зрения простоты реализации и получения наибольшей выгоды второй подход является более привлекательным и позволяет избавиться от квадратичной сложности, понизив оценку до $log_{B}n*BAV$ .

1.9 Входные и выходные данные алгоритма

На вход алгоритм принимает множество объектов, характеризуемых набором свойств. В свою очередь, каждое свойство может принимать какое-либо значение из множества допустимых значений. Результатом работы алгоритма является построенное дерево классификации, листья которого представляют собой различные классы объектов и содержат сами объекты принадлежащие данному классу.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

Working python implementation of COBWEB

Участник:Мязина Екатерина/Алгоритм концептуальной кластеризации COBWEB