Google впервые рассказал о системе Caffeine и ее роли в индексации контента

Google впервые рассказал о системе Caffeine и ее роли в индексации контента

От автора: представитель Google впервые рассказал о Caffeine – системе поисковика, которая отвечает за индексацию контента.

В очередном эпизоде подкастов Search Off the Record Гэри Илш рассказал, что собой представляет система индексирования контента Caffeine. Но такое название носит только внешняя часть системы.

Caffeine обрабатывает все данные, которые собирает GoogleBot. После чего эти данные добавляются в поисковый индекс.

На первом этапе обработки осуществляется поглощение информации буфером протокола (поисковым ботом). Затем данные перегоняются в другой формат и происходит лексический анализ агрегированного HTML-кода.

Далее обрабатываются HTML-теги заголовков и проводится их нормализация, в ходе которой Google разбирает CSS-стили, примеренные к ним. Это позволяет поисковику определить важность каждого из заголовков.

Также Caffeine может обрабатывать не только HTML и CSS код, но и другие форматы. Например, PDF. Для конвертации данного формата Google использует инструмент от Adobe.

После нормализации HTML Caffeine начинает обрабатывать метатеги. Но некоторые из них (например, keywords) он игнорирует.

За обработку страниц ошибок отвечает отдельная подсистема Caffeine, которая называется коллапсер. Она следит за тем, чтобы ошибки (404 и другие) не попали в поисковый индекс.

При этом коллапсер сравнивает найденные страницы ошибок с большой коллекцией подобных веб-страниц. Иногда при таком анализе Google может не допускать в индекс страницы с полезным контентом. Например, если в просканированной GoogleBot статье речь идет о стандартных кодах HTTP-ответов.

Источник: http://search-off-the-record.googledevelopers.libsynpro.com