Участник:Kruglikov/PLSA: различия между версиями

Материал из Алговики
Перейти к навигации Перейти к поиску
(Структура)
 
Строка 4: Строка 4:
  
 
=== Общее описание алгоритма ===
 
=== Общее описание алгоритма ===
 +
Задача тематического моделирования заключается в том, чтобы выделить в коллекции текстовых документов скрытые структуры, называемые ''темами''. Неформально под ''темой'' понимается семантически однородное множество документов. Более формально, темой называется условное распределение на множестве терминов <math>p(w|t)</math>, а ''тематикой документа'' называется условное распределение <math>p(t|d)</math>. Переменная <math>t</math> является скрытой. Таким образом, задача тематического моделирования — оценить вероятности <math>p(w|t)</math> и <math>p(t|d)</math> по наблюдаемым частотам <math>p(w|d)</math> слов в документах.
 +
 +
Задачу восстановления скрытого распределения можно решать, максимизируя правдоподобие выборки ''EM-алгоритмом''. В применении к тематическому моделированию такой подход называется ''probabilistic latent semantic analysis'' — PLSA.
 +
 +
  
 
=== Математическое описание алгоритма ===
 
=== Математическое описание алгоритма ===
 
  
 
== Программная реализация алгоритма ==
 
== Программная реализация алгоритма ==

Версия 23:05, 28 октября 2017

Общая схема описания алгоритмов имеет следующий вид:

1 Свойства и структура алгоритмов

1.1 Общее описание алгоритма

Задача тематического моделирования заключается в том, чтобы выделить в коллекции текстовых документов скрытые структуры, называемые темами. Неформально под темой понимается семантически однородное множество документов. Более формально, темой называется условное распределение на множестве терминов [math]p(w|t)[/math], а тематикой документа называется условное распределение [math]p(t|d)[/math]. Переменная [math]t[/math] является скрытой. Таким образом, задача тематического моделирования — оценить вероятности [math]p(w|t)[/math] и [math]p(t|d)[/math] по наблюдаемым частотам [math]p(w|d)[/math] слов в документах.

Задачу восстановления скрытого распределения можно решать, максимизируя правдоподобие выборки EM-алгоритмом. В применении к тематическому моделированию такой подход называется probabilistic latent semantic analysis — PLSA.


1.2 Математическое описание алгоритма

2 Программная реализация алгоритма

3 Литература