Участник:MelLain/ЕМ-алгоритм (Тематическое моделирование): различия между версиями

Версия 23:06, 22 сентября 2016

Содержание

1 Свойства и структура алгоритма
- 1.1 Общее описание алгоритма
- 1.2 Математическое описание
  - 1.2.1 Математическое описание модели
  - 1.2.2 Математическое описание ЕМ-алгоритма
2 Литература

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Тематическое моделирование - одно из направлений статистического анализа текстовых коллекций в машинном обучении. В литературе описываются многочисленные разновидности моделей, а также методов их обучения. В данной статье будет рассмотрена тематическая модель вероятностного латентного семантического анализа (PLSA), и процесс её обучения с помощью параллельного ЕМ-алгоритма.

Существует множество разновидностей ЕМ-алгоритмов, ориентированных на учёт тех или иные аспектов решаемой задачи. Наиболее простым вариантом является т.н. оффлайновый алгоритм, непригодный для работы с большими текстовыми данными в силу значительных требований к потребляемой оперативной памяти. Существует ряд модернизаций этого алгоритма, позволяющих избавить его от ряда недостатков. Наилучшей из них является онлайновый вариант алгоритма. Тем не менее, в силу относительно высокой сложности его эффективной параллельной реализации, в данной статье будет рассматриваться гибридный вариант алгоритма, избавленный от большинства недостатков оффлайнового, но имеющий меньшую скорость сходимости, чем онлайновый.

1.2 Математическое описание

1.2.1 Математическое описание модели

В большинстве тематических моделей коллекция текстов рассматривается в виде "мешка слов", т.е. модель учитывает только статистическую встречаемость слов в документах и никак не использует информацию об их взаимном расположении внутри документа.

Вероятностная модель PLSA имеет следующий вид:

$\begin{align} F \approx \Phi \times \Theta \end{align}$

Здесь $F$ - это матрица исходных данных размера $|W| \times |D|$ , где $D$ - это множество документов, а $W$ - словарь коллекции, т.е. множество всех уникальных слов, встретившихся в документах.

$\Phi$ - это матрица параметров модели размера $|W| \times |T|$ , где $T$ - это множество тем, которые мы хотим извлечь из коллекции. Под темой в бытовом смысле смысле понимается набор слов, характеризующих её. Формально говоря, тема - это вероятностное распределение на множестве слов $W$ , поэтому матрица $\Phi$ является стохастической, т.е. столбцы её неотрицательны и суммируются в единицу.

$\Theta$ - матрица результатов кластеризации обучающей коллекции по полученным темам размера $|T| \times |D|$ , в ней столбцы также являются вероятностными распределениями, на этот раз документов на множестве тем.

Фактически, PLSA есть ни что иное, как задача приближённого стохастического матричного разложения, в ходе которой производится мягкая бикластеризация (мягкая - потому что объекты распределяются по классам не строго, а с некоторой вероятностью, би - потому что производится одновременная кластрезация слов по темам, и тем - по документам).

В данной статье будут расматриваться только плотные матрицы (хотя при определённых условиях можно эффективно использовать разреженные).

1.2.2 Математическое описание ЕМ-алгоритма

2 Литература

@@ Строка 7: / Строка 7: @@
 Существует множество разновидностей ЕМ-алгоритмов, ориентированных на учёт тех или иные аспектов решаемой задачи. Наиболее простым вариантом является т.н. ''оффлайновый'' алгоритм, непригодный для работы с большими текстовыми данными в силу значительных требований к потребляемой оперативной памяти. Существует ряд модернизаций этого алгоритма, позволяющих избавить его от ряда недостатков. Наилучшей из них является ''онлайновый'' вариант алгоритма. Тем не менее, в силу относительно высокой сложности его эффективной параллельной реализации, в данной статье будет рассматриваться гибридный вариант алгоритма, избавленный от большинства недостатков оффлайнового, но имеющий меньшую скорость сходимости, чем онлайновый.
-=== Математическое описание алгоритма ===
+=== Математическое описание ===
+==== Математическое описание модели ====
 В большинстве тематических моделей коллекция текстов рассматривается в виде "мешка слов", т.е. модель учитывает только статистическую встречаемость слов в документах и никак не использует информацию об их взаимном расположении внутри документа.
@@ Строка 28: / Строка 30: @@
 В данной статье будут расматриваться только плотные матрицы (хотя при определённых условиях можно эффективно использовать разреженные).
+==== Математическое описание ЕМ-алгоритма ====
 == Литература ==

Участник:MelLain/ЕМ-алгоритм (Тематическое моделирование): различия между версиями

Версия 23:06, 22 сентября 2016

Содержание

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

1.2 Математическое описание

1.2.1 Математическое описание модели

1.2.2 Математическое описание ЕМ-алгоритма

2 Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Хранилище файлов

Инструменты