Эксперимент: сливают ли браузеры информацию поисковым ботам?
UP: Придется выделить этот текст ниже, а то в комментах самые внимательные пишут, что я тут «гоняю порожняк о том, что известно было с 2001 года». И да, соглашусь с тем, что заголовок тут больше для хайпа, а смысл поста немного о другом.
Этой дружной компанией мы и исследовали поведение поисковых ботов в связке с браузерами. Я просто хотел посмотреть, как это всё происходит (или нет), тренируясь на кошках. Весь эксперимент создан из говна и палок с небольшим добавлением корицы.
Итак, что я сделал?
Я зарегистрировал 2 домена, которые абсолютно точно не имели никакой истории в ПС.
Один в зоне .com у Godaddy. Второй в зоне .ru — у нашего отечественного регистратора.
Добавил всё это дело на сервер, активировал логи доступа и поочередно прошелся по доменам браузерами.
Сначала открыл оба в Яндекс-браузере, затем в Хроме. Если эти поделки сдают меня с потрохами, то я должен был увидеть активность поисковых ботов на свежих доменах.
Содержание
Домен в зоне .com
Связка Chrome + Googlebot
Тут я, видимо, тупанул. Но это выяснилось чуть позже.
Я добавил домен в клауд и оставил его на сутки. Зайдя на него для того, чтобы промониторить логи (после того, как я прошелся браузерами) я увидел, что на нем уже побывал гуглобот.
Более того, этот домен одной своей страницей попал в индекс:
В логах была следующая картина:
То есть, произошло следующее: я зарегистрировал домен, добавил его в клауд, прописав NS-ы у Гоудедди и ко мне пришел Гуглобот.
Либо:
а) меня слил Гоудедди;
б) меня слил Клаудфлэр.
Понятно, что дальше смотреть не было смысла, ибо задача была в том, чтобы посмотреть взаимосвязь Хрома и прихода бота.
Поэтому, я тут же зарегистрировал другой .com домен, сразу направил его на свой сервер, минуя клауд и прошелся по нему браузерами, наблюдая за логами.
Практически мгновенно на сайт пришли посетители. Ими оказались какие-то боты с Domaintools. Какой-то сервис по анализу доменов или типа того.
Потом были мои заходы с Хрома.
Далее херова туча всяких ботов, сканеров уязвимостей и прочая шелуха. Но я так и не увидел Гуглобота, что очень странно. Про домен узнали все, кроме Гугла (:
И, так как бот не заходил к нам в гости, то в индексе этого домена соответственно нет.
Выводы на коленке в жанре вопросов:
— клауд рассказывает Гуглу о доменах?
— у связки Хром + поисковый бот есть значительный временной лаг?
— о регистрации домена легко узнают сервисы, которые заточены на работу с этими самыми доменами, даже если домена нет в индексе ПС?
Может получиться (и часто получается ситуация), когда вашего домена еще нет в индексе, но на него уже направили свои орудия спаммеры и заливают вас спам-комментами.
Плюс ко всему вас уже сканируют на уязвимости и может случиться так, что домен — полный ноль, но в него уже залили шелл, если вы имели неосторожность поставить какой-то движок \ плагин с дырами (:
Связка YaBrowser + YandexBot
Теперь посмотрим на поведение ботов от Яндекса в связке с его браузером.
Сразу возьмем тот второй .com домен, который был привязан к серверу сразу через регистратора.
Усейн Болт бегает стометровку за 9, 58 сек.
Яндекс-бот приходит на домен через 13 секунд после посещения его Яндекс-браузером.
Здесь поисковик немного проигрывает, поэтому ему есть еще к чему стремиться.
То есть, мы получаем практически моментальный отклик от бота, который первым делом начинает дергать наш отсутствующий robots.txt
Надо ли говорить, что домен очень быстро влетает в индекс?
Я не знаю, как изнутри выглядит «переобход» Яндекса, который есть в панеле вебмастера. Но, если там идет тупое направление бота на нужную страницу, то, возможно, достаточно будет пройтись по нужным страницам Яндекс-браузером?
Если пойти дальше, то можно приманивать быстробота, написав что-то вроде паука на основе Я-браузера, который будет сканировать весь сайт по нажатию одной кнопки и отправлять инфу о страницах в базу.
Здесь нужно производить более глубокие тесты на бОльших выборках, чем какой-то один сраный домен. На объеме картина может оказаться прямо противоположной.
Домен в зоне .ru
В зоне ру я сразу натравил домен на мой сервер. С Гуглом повторилась ситуация — бота я не увидел даже через сутки после того, как прошелся по домену Хромом.
А Яндекс и здесь порадовал:
Собственно, индекс тоже имеется:
Итого
Из трех свежих доменов в индекс Гугла попал только один. И здесь не совсем понятно, что явилось причиной. Явно не Хром.
Из трех свежих доменов все три попали в индекс Яндекса после того, как по ним прошлись Яндекс-браузером. Два в течение часа, один с некоторым запозданием.
Как применять эту уже известную информацию?
Не знаю. Можно, например, стать еще большим параноиком и носить шапочку из фольги, выходя на прогулку. Можно попытаться научиться как-то рулить ботом того же Яндекса, используя его браузер. А можно снять штаны и броситься в безудержное веселье, аки хиппи под ЛСД.
Выбирайте сами.
Результаты годичного эксперимента, в котором я купил статейников и попытался расслабиться. Вот что из этого получилось.
Накупил статейников. И спит.
Финальный отчет. Подводим результаты работы в одной из вертикалей, где в качестве рабочего инструмента была выбрана Пандора.
Пик трафа, ПМС Гугла, мысли о фильтрующем алгоритме.
РКН и Гугл - новая реальность. Метки о взломе ушли, но траф не пришел. Итоги редиректа трафа на ПП. Рост сетки. Шел девятый месяц тестирования.
Отчет о восьмом месяце эксперимента с генератором дорвеев - Пандора. Смена схемы генерации привела к росту трафика. Новый прикол от Гугла - метка о взломе.
Комментарии к посту:
Бичслеер
Под рунет почти в онлайне списочек отседава раньше брал https://statonline.ru/ , также есть выгрузки с полным списком доменов с датой реги и т.п.
https://ru-tld.ru/files/RU_Domains_ru-tld.ru.gz
https://ru-tld.ru/files/RU_ZoneFile_ru-tld.ru.gz
Полагаю что для буржа где-то тоже такие сервисы есть и просто кто-то их чекает, на их основе генерит странички вроде таких https://anticorporativ.ru.cutestat.com/ https://sitechecker.pro/seo-report/http://anticorporativ.ru , пингует их в гугол, а тот уже ходит.
Raoul
Бля, чувак, ты меня просто — но ты феерический долбоеб. Ты постишь какие-то дичайшие баяны, которые знает любой мало мальски вменяемый дорвейщик, еще и под видом «божественного откровения».
Лучше пиши рассказики, ты больше гуманитарий)
PS: Не в обиду, расслабляюсь за пивком, накипело)
Max Fuckin → Raoul
Для кого я написал первые 2 строчки? За пивасиком не видно их было? 😉
Goose
Бро, ну что за дичь ты несешь?
Боты ходят по ссылкам. Ссылки появляются в сервисах из первого коммента. Сервисы берут их у регистраторов и таких вот сайтов https://dnpedia.com/tlds/daily.php
Тут не в том дело что ты велик изобретаешь. Этого велика просто не существует. Ты в зеленом прямоугольничке сам написал разгадку «тайны» и там же написал как свой эксперимент нормально ставить.
И то непонятно зачем. Все же знают что бигдата собирается с кликстрим данных. Иначе как нам рекламу будут выбирать? А откуда кликстрим данные берутся? Правильно! С браузеров, плагинов, проксей, ВПНов и… провайдеров. Так что хрен ты что-то скроешь. Разве что за Тором. И то не уверен
(да-да, анон, тебя тоже касается. Все знают кто ты и какие порносайты смотришь)
Max Fuckin → Goose
Первые две строчки для одних, зеленый прямоугольник для других, инфа про велосипед для третьих — но все равно все упорно будут писать, что «все это знают». Я всего лишь проследил динамику взаимодействия браузеров с ботами, помониторив логи. Это и показал. Не более того. Здесь нет никаких откровений и паления.
Andy → Max Fuckin
А вот я не знал, спасибо за пост.
P.S. Бесят вот такие вот «всё знающие». Знаешь — проходи мимо, но нет, нужно под пивасик вставить свои драгоценные 2 копейки.
seoonly.ru
Все партнерки говорят что яндекс браузер жестко сливает все))
solyankin
«Если пойти дальше, то можно приманивать быстробота, написав что-то вроде паука на основе Я-браузера, который будет сканировать весь сайт по нажатию одной кнопки и отправлять инфу о страницах в базу.»
Уже давно все написано, только от такого быстробота и быстроиндекса эффект равен 0!
Max Fuckin → solyankin
Ты удивишься, но я лично знаю людей, которые на этом поднимают до 100к\дейли трафа. Я тестил на одном своем полигоне быстроботный траф, но там мелочь была в районе 3к\сутки. У меня инструментов не хватило.
solyankin → Max Fuckin
«Ты удивишься, но я лично знаю людей, которые на этом поднимают до 100к\дейли трафа.»
И загоняют они именно с помощью Я-браузера, так?
Max Fuckin → solyankin
Хм, а вот тут я могу ошибаться, поэтому пиздить не буду тебе. У меня нет данных, как именно загоняется. Там траф живет буквально сутки и умирает. У меня те 3к\сутки были на подхвате быстробота, который УЖЕ был прикормлен.
solyankin → Max Fuckin
Ну по поводу «прикормленного» быстробота спорить не буду, там траф есть, ну и пропадает он достаточно быстро. По гембле периодически мониторю выдачу, там один дорвейщик постоянно засирает дорами на инфошках под быстробота, у него жесткая линковка между старыми и новыми дорами, там счет доменов уже наверное идет на тысячи. А вот быстрый индекс с Я-браузера ни хера не дает, проверено лично, и многими другими дорвейщиками.
Max Fuckin → solyankin
Кидани вкратце, как тестировал именно с я.браузером? Попробую повторить позже и глянуть на траф. Продолжу эксперимент, так сказать, погрузившись глубже.
Mr.Oizo → Max Fuckin
Макс, возьми в ученики!
Max Fuckin → Mr.Oizo
Пиши в телегу, что тебя интересует.
Seokeys69
Так я и знал, за нами следят!
Санек
Какие же вы сраные мудилы в комментариях, просто невыносимые 🙂
Макс, спасибо.
chinagb.ru
Спасибо за пост! Мне интересно было!