В интернете нашли секретный документ Google, который раскрывает принцип работы поисковика

В сеть слили секретный документ Google на 2500 страниц, в котором подробно описывается механизм работы поисковой системы.

Об утечке сообщил Рэнд Фишкин, основатель компании SparkToro, которая производит программное обеспечение для исследования аудитории. С 2001 по 2016 год он занимался SEO-продвижением сайтов. Утечкой с ним поделился Эрфан Азими, специалист по SEO и основатель EA Eagle Digital.

Документ под названием Google API Content Warehouse был случайно обнародован на GitHub с 27 марта по 7 мая. Об этом свидетельствует тот факт, что в нем содержатся ссылки на частные репозитории GitHub и внутренние страницы на корпоративном сайте Google, для которого требуется специальная учетная запись.

Несколько бывших сотрудников Google сообщили, что код и документация очень похожи на настоящие. Эту же информацию подтвердил Майк Кинг, основатель iPullRank, и один из ведущих технических специалистов по поисковой оптимизации в мире.


Вот так выглядит вся утечка.

В документе описывается, как работает поиск Google, и какие факторы и компоненты влияют на результаты поиска. В основном файл содержит технические данные.

Некоторые детали ставят под сомнение достоверность публичных заявлений Google. Например, компания утверждает, что не использует данные Chrome для ранжирования страниц, но Chrome упоминается в разделах о том, как сайты отображаются в поиске. В частности, ссылки, появляющиеся под основным URL-адресом, могут быть частично созданы с использованием данных Chrome.

Согласно просочившиеся документации, Google использует белые списки сайтов для чувствительных тем, таких как выборы и ковид.

Google никак не комментировала утечку и не обращалась к Фишкину с просьбой удалить её. [WccfTech]