Участник:Kruglikov/PLSA
Общая схема описания алгоритмов имеет следующий вид:
Содержание
1 Свойства и структура алгоритмов
1.1 Общее описание алгоритма
Задача тематического моделирования заключается в том, чтобы выделить в коллекции текстовых документов скрытые структуры, называемые темами. Неформально под темой понимается семантически однородное множество документов. Более формально, темой называется условное распределение на множестве терминов [math]p(w|t)[/math], а тематикой документа называется условное распределение [math]p(t|d)[/math]. Переменная [math]t[/math] является скрытой. Таким образом, задача тематического моделирования — оценить вероятности [math]p(w|t)[/math] и [math]p(t|d)[/math] по наблюдаемым частотам [math]p(w|d)[/math] слов в документах.
Задачу восстановления скрытого распределения можно решать, максимизируя правдоподобие выборки EM-алгоритмом. В применении к тематическому моделированию такой подход называется probabilistic latent semantic analysis — PLSA.