Джон Мюллер: Механизм подсчета показателя TF-IDF сильно устарел

Джон Мюллер: Механизм подсчета показателя TF-IDF сильно устарел

От автора: Джон Мюллер рассказал о роли статистического показателя TF-IDF в процессе ранжирования выдачи Google.

Общаясь с вебмастерами, инженер Google ответил на вопрос о применении статистического показателе TF-IDF в процессе ранжирования поисковых результатов. Эта метрика используется для оценки «веса» отдельного слова в текстовом содержимом документа, который является частью коллекции. Показатель часто используется для решения задач в сфере анализа текста и информационного поиска.

Мюллер сообщил, что кроме этого способа определения релевантности контента Google применяет множество других (новых) метрик. Поэтому он посоветовал вебмастерам не акцентировать внимание на этом методе оценки.

Также представитель Google отметил, что с помощью метрики TF-IDF в поисковой выдаче невозможно получить максимально точные результаты. Так как при ее использовании измерение осуществляются на основе анализа всех проиндексированных в интернете документов.

Намного эффективнее применять более современные метрики, которые отражают релевантность контента для самих пользователей сайта. Этот «тренд» еще долго не устареет.

Тем не менее, TF-IDF используется в Google, но в ограниченных масштабах. Например, с помощью этого подхода поисковик отсеивает стоп-слова, встречающиеся в контенте.

Источник: https://www.searchengines.ru