Эксперимент: сливают ли браузеры информацию поисковым ботам?

UP: Придется выделить этот текст ниже, а то в комментах самые внимательные пишут, что я тут «гоняю порожняк о том, что известно было с 2001 года». И да, соглашусь с тем, что заголовок тут больше для хайпа, а смысл поста немного о другом.

Да да да, я знаю, что браузеры — это часть экосистемы поисковых машин (Google и Yandex).

Да, я знаю, что в том, что эти исчадия ада палят все ваши передвижения тоже нет ничего секретного.

Это всё давно доказано и кем-то разжёвано. Но я, всё же, решил изобрести велосипед с квадратными колесами и парой шлюх, одну из которых можно посадить на раму, а вторую — на багажник.

Задача: посмотреть, как быстро боты реагируют на сигнал от браузеров.

Этой дружной компанией мы и исследовали поведение поисковых ботов в связке с браузерами. Я просто хотел посмотреть, как это всё происходит (или нет), тренируясь на кошках. Весь эксперимент создан из говна и палок с небольшим добавлением корицы.

Итак, что я сделал?

Я зарегистрировал 2 домена, которые абсолютно точно не имели никакой истории в ПС.

Один в зоне .com у Godaddy. Второй в зоне .ru — у нашего отечественного регистратора.

Добавил всё это дело на сервер, активировал логи доступа и поочередно прошелся по доменам браузерами.

Сначала открыл оба в Яндекс-браузере, затем в Хроме. Если эти поделки сдают меня с потрохами, то я должен был увидеть активность поисковых ботов на свежих доменах.

Здесь нужно сделать лирическое отступление. Есть очень не маленькая вероятность того, что регистраторы каким-то образом «палят во внешний мир» новоиспеченные домены, самолично показывая их ботам.

Поэтому, идеальный эксперимент должен выглядеть примерно так: создаем какую-то неожиданную страницу внутри домена, о которой никто не может просто так догадаться. Сам домен могут мониторить сервисы (и ниже есть доказательство) и пригонять туда ботов, но вот внутреннюю страницу они увидеть не смогут, если не показывать ее во внешний мир.

Оставлю эту задачу на будущее, своим детям.

Домен в зоне .com

Связка Chrome + Googlebot

Тут я, видимо, тупанул. Но это выяснилось чуть позже.

Я добавил домен в клауд и оставил его на сутки. Зайдя на него для того, чтобы промониторить логи (после того, как я прошелся браузерами) я увидел, что на нем уже побывал гуглобот.

Более того, этот домен одной своей страницей попал в индекс:

В логах была следующая картина:

То есть, произошло следующее: я зарегистрировал домен, добавил его в клауд, прописав NS-ы у Гоудедди и ко мне пришел Гуглобот.

Либо:

а) меня слил Гоудедди;

б) меня слил Клаудфлэр.

Понятно, что дальше смотреть не было смысла, ибо задача была в том, чтобы посмотреть взаимосвязь Хрома и прихода бота.

Поэтому, я тут же зарегистрировал другой .com домен, сразу направил его на свой сервер, минуя клауд и прошелся по нему браузерами, наблюдая за логами.

Практически мгновенно на сайт пришли посетители. Ими оказались какие-то боты с Domaintools. Какой-то сервис по анализу доменов или типа того.

Потом были мои заходы с Хрома.

Далее херова туча всяких ботов, сканеров уязвимостей и прочая шелуха. Но я так и не увидел Гуглобота, что очень странно. Про домен узнали все, кроме Гугла (:

И, так как бот не заходил к нам в гости, то в индексе этого домена соответственно нет.

Выводы на коленке в жанре вопросов:

— клауд рассказывает Гуглу о доменах?

— у связки Хром + поисковый бот есть значительный временной лаг?

— о регистрации домена легко узнают сервисы, которые заточены на работу с этими самыми доменами, даже если домена нет в индексе ПС?

Может получиться (и часто получается ситуация), когда вашего домена еще нет в индексе, но на него уже направили свои орудия спаммеры и заливают вас спам-комментами.

Плюс ко всему вас уже сканируют на уязвимости и может случиться так, что домен — полный ноль, но в него уже залили шелл, если вы имели неосторожность поставить какой-то движок \ плагин с дырами (:

Связка YaBrowser + YandexBot

Теперь посмотрим на поведение ботов от Яндекса в связке с его браузером.

Сразу возьмем тот второй .com домен, который был привязан к серверу сразу через регистратора.

Усейн Болт бегает стометровку за 9, 58 сек.

Яндекс-бот приходит на домен через 13 секунд после посещения его Яндекс-браузером.

Здесь поисковик немного проигрывает, поэтому ему есть еще к чему стремиться.

То есть, мы получаем практически моментальный отклик от бота, который первым делом начинает дергать наш отсутствующий robots.txt

Надо ли говорить, что домен очень быстро влетает в индекс?

Я не знаю, как изнутри выглядит «переобход» Яндекса, который есть в панеле вебмастера. Но, если там идет тупое направление бота на нужную страницу, то, возможно, достаточно будет пройтись по нужным страницам Яндекс-браузером?

Если пойти дальше, то можно приманивать быстробота, написав что-то вроде паука на основе Я-браузера, который будет сканировать весь сайт по нажатию одной кнопки и отправлять инфу о страницах в базу.

Здесь нужно производить более глубокие тесты на бОльших выборках, чем какой-то один сраный домен. На объеме картина может оказаться прямо противоположной.

Домен в зоне .ru

В зоне ру я сразу натравил домен на мой сервер. С Гуглом повторилась ситуация — бота я не увидел даже через сутки после того, как прошелся по домену Хромом.

А Яндекс и здесь порадовал:

Собственно, индекс тоже имеется:

Итого

Из трех свежих доменов в индекс Гугла попал только один. И здесь не совсем понятно, что явилось причиной. Явно не Хром.

Из трех свежих доменов все три попали в индекс Яндекса после того, как по ним прошлись Яндекс-браузером. Два в течение часа, один с некоторым запозданием.

Как применять эту уже известную информацию?

Не знаю. Можно, например, стать еще большим параноиком и носить шапочку из фольги, выходя на прогулку. Можно попытаться научиться как-то рулить ботом того же Яндекса, используя его браузер. А можно снять штаны и броситься в безудержное веселье, аки хиппи под ЛСД.

Выбирайте сами.

Комментарии к посту:

  1. Бичслеер

    Под рунет почти в онлайне списочек отседава раньше брал https://statonline.ru/ , также есть выгрузки с полным списком доменов с датой реги и т.п.
    https://ru-tld.ru/files/RU_Domains_ru-tld.ru.gz
    https://ru-tld.ru/files/RU_ZoneFile_ru-tld.ru.gz

    Полагаю что для буржа где-то тоже такие сервисы есть и просто кто-то их чекает, на их основе генерит странички вроде таких https://anticorporativ.ru.cutestat.com/ https://sitechecker.pro/seo-report/http://anticorporativ.ru , пингует их в гугол, а тот уже ходит.

    0
    Ответить
  2. Raoul

    Бля, чувак, ты меня просто — но ты феерический долбоеб. Ты постишь какие-то дичайшие баяны, которые знает любой мало мальски вменяемый дорвейщик, еще и под видом «божественного откровения».

    Лучше пиши рассказики, ты больше гуманитарий)

    PS: Не в обиду, расслабляюсь за пивком, накипело)

    1+
    Ответить
    1. Max FuckinRaoul

      Для кого я написал первые 2 строчки? За пивасиком не видно их было? 😉

      9+
      Ответить
  3. Goose

    Бро, ну что за дичь ты несешь?

    Боты ходят по ссылкам. Ссылки появляются в сервисах из первого коммента. Сервисы берут их у регистраторов и таких вот сайтов https://dnpedia.com/tlds/daily.php

    Тут не в том дело что ты велик изобретаешь. Этого велика просто не существует. Ты в зеленом прямоугольничке сам написал разгадку «тайны» и там же написал как свой эксперимент нормально ставить.

    И то непонятно зачем. Все же знают что бигдата собирается с кликстрим данных. Иначе как нам рекламу будут выбирать? А откуда кликстрим данные берутся? Правильно! С браузеров, плагинов, проксей, ВПНов и… провайдеров. Так что хрен ты что-то скроешь. Разве что за Тором. И то не уверен

    (да-да, анон, тебя тоже касается. Все знают кто ты и какие порносайты смотришь)

    0
    Ответить
    1. Max FuckinGoose

      Первые две строчки для одних, зеленый прямоугольник для других, инфа про велосипед для третьих — но все равно все упорно будут писать, что «все это знают». Я всего лишь проследил динамику взаимодействия браузеров с ботами, помониторив логи. Это и показал. Не более того. Здесь нет никаких откровений и паления.

      1+
      Ответить
      1. AndyMax Fuckin

        А вот я не знал, спасибо за пост.

        P.S. Бесят вот такие вот «всё знающие». Знаешь — проходи мимо, но нет, нужно под пивасик вставить свои драгоценные 2 копейки.

        0
        Ответить
  4. seoonly.ru

    Все партнерки говорят что яндекс браузер жестко сливает все))

    0
    Ответить
  5. solyankin

    «Если пойти дальше, то можно приманивать быстробота, написав что-то вроде паука на основе Я-браузера, который будет сканировать весь сайт по нажатию одной кнопки и отправлять инфу о страницах в базу.»

    Уже давно все написано, только от такого быстробота и быстроиндекса эффект равен 0!

    0
    Ответить
    1. Max Fuckinsolyankin

      Ты удивишься, но я лично знаю людей, которые на этом поднимают до 100к\дейли трафа. Я тестил на одном своем полигоне быстроботный траф, но там мелочь была в районе 3к\сутки. У меня инструментов не хватило.

      1+
      Ответить
      1. solyankinMax Fuckin

        «Ты удивишься, но я лично знаю людей, которые на этом поднимают до 100к\дейли трафа.»

        И загоняют они именно с помощью Я-браузера, так?

        0
        Ответить
        1. Max Fuckinsolyankin

          Хм, а вот тут я могу ошибаться, поэтому пиздить не буду тебе. У меня нет данных, как именно загоняется. Там траф живет буквально сутки и умирает. У меня те 3к\сутки были на подхвате быстробота, который УЖЕ был прикормлен.

          0
          Ответить
          1. solyankinMax Fuckin

            Ну по поводу «прикормленного» быстробота спорить не буду, там траф есть, ну и пропадает он достаточно быстро. По гембле периодически мониторю выдачу, там один дорвейщик постоянно засирает дорами на инфошках под быстробота, у него жесткая линковка между старыми и новыми дорами, там счет доменов уже наверное идет на тысячи. А вот быстрый индекс с Я-браузера ни хера не дает, проверено лично, и многими другими дорвейщиками.

            0
          2. Max Fuckinsolyankin

            Кидани вкратце, как тестировал именно с я.браузером? Попробую повторить позже и глянуть на траф. Продолжу эксперимент, так сказать, погрузившись глубже.

            0
          3. Mr.OizoMax Fuckin

            Макс, возьми в ученики!

            0
          4. Max FuckinMr.Oizo

            Пиши в телегу, что тебя интересует.

            0
  6. Seokeys69

    Так я и знал, за нами следят!

    0
    Ответить
  7. Санек

    Какие же вы сраные мудилы в комментариях, просто невыносимые 🙂

    Макс, спасибо.

    0
    Ответить
  8. chinagb.ru

    Спасибо за пост! Мне интересно было!

    0
    Ответить

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


Последнее в этой категории:
Эксперименты | 17 | 1 841 | 11/03/2019
Эксперимент «Ящик Пандоры». Месяц #10. ПМС у Гугла.

Пик трафа, ПМС Гугла, мысли о фильтрующем алгоритме.

Эксперименты | 20 | 1 512 | 11/02/2019
Эксперимент «Партнерка с нуля». День 22. Первые отзывы партнеров и набор траста

Каналы привлечения партнеров, первый траф на ПП и первые отзывы о работе.

Эксперименты | 23 | 1 905 | 08/02/2019
Эксперимент «Ящик Пандоры». Месяц #9. Трафик x2.

РКН и Гугл - новая реальность. Метки о взломе ушли, но траф не пришел. Итоги редиректа трафа на ПП. Рост сетки. Шел девятый месяц тестирования.

Эксперименты | 19 | 1 428 | 25/01/2019
Эксперимент «Партнерка с нуля». День 5. «Ты будешь палить наши сетки»

Моя точка зрения на возгласы про палево чужих идей и попытку сделать чот-то оличное от дорвеев.

Эксперименты | 42 | 2 538 | 21/01/2019
Эксперимент «Партнерка с нуля». День 1. Выход в паблик.

Презентация партнерской программы и выход ее в паблик. Ребенок родился (:

Эксперименты | 20 | 2 195 | 08/01/2019
Эксперимент «Ящик Пандоры». Месяц #8. Смена структуры и рост трафа.

Отчет о восьмом месяце эксперимента с генератором дорвеев - Пандора. Смена схемы генерации привела к росту трафика. Новый прикол от Гугла - метка о взломе.