Мы внедрили алгоритм LDA для определения тематик доноров ссылок.
Подробнее об алгоритме — https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
Суть алгоритма лежит в текстовом анализе сайтов или документов, при котором исследуемый сайт сравнивается с заданной коллекцией. В качестве базовой коллекции мы взяли сайты, разбитые по категориям Яндекс Каталога.
Для каждого из исследуемых сайтов рассчитывает тематический вектор, который сравнивается с векторами, посчитанными для сайтов из каждой тематической к...
-
Определения тематик доноров по LDA
megaindex.org