В слитой базе Google нашли записи детских голосов, данные об адресах и другую конфиденциальную информацию

Журналисты 404 Media получили в свое распоряжение копию базы данных Google. В ней нашли тысячи инцидентов, связанных с конфиденциальностью пользователей.

Так, за 6 лет в неё попали примерно 1000 детских голосов, домашние адреса пользователей Waze, удаленные истории просмотров, а также номерные знаки из Google Street View из-за алгоритма, который обнаружил текст на изображениях.

Отмечается, что не во всех инцидентах виновата сама Google, иногда подобная информация случайно собиралась сторонними сервисами.

Ранее в интернете нашли внутренний документ Google, подробно описывающий алгоритм работы системы ранжирования и поиска компании. Это вызвало настоящий ажиотаж среди SEO-экспертов. [404 Media]

В сеть слили секретный документ Google на 2500 страниц, в котором подробно описывается механизм работы поисковой системы.

Об утечке сообщил Рэнд Фишкин, основатель компании SparkToro, которая производит программное обеспечение для исследования аудитории. С 2001 по 2016 год он занимался SEO-продвижением сайтов. Утечкой с ним поделился Эрфан Азими, специалист по SEO и основатель EA Eagle Digital.

Документ под названием Google API Content Warehouse был случайно обнародован на GitHub с 27 марта по 7 мая. Об этом свидетельствует тот факт, что в нем содержатся ссылки на частные репозитории GitHub и внутренние страницы на корпоративном сайте Google, для которого требуется специальная учетная запись.

Несколько бывших сотрудников Google сообщили, что код и документация очень похожи на настоящие. Эту же информацию подтвердил Майк Кинг, основатель iPullRank, и один из ведущих технических специалистов по поисковой оптимизации в мире.


Вот так выглядит вся утечка.

В документе описывается, как работает поиск Google, и какие факторы и компоненты влияют на результаты поиска. В основном файл содержит технические данные.

Некоторые детали ставят под сомнение достоверность публичных заявлений Google. Например, компания утверждает, что не использует данные Chrome для ранжирования страниц, но Chrome упоминается в разделах о том, как сайты отображаются в поиске. В частности, ссылки, появляющиеся под основным URL-адресом, могут быть частично созданы с использованием данных Chrome.

Согласно просочившиеся документации, Google использует белые списки сайтов для чувствительных тем, таких как выборы и ковид.

Google никак не комментировала утечку и не обращалась к Фишкину с просьбой удалить её. [WccfTech]