Сайт на 10 миллионов страниц. История одного теста.
Иногда на Телдери попадаются интересные проекты, которые можно попытаться повторить. Или тупо спиздить. Кому как больше нравится.
Именно поэтому не стоит там в открытую продавать сайты с интересной идеей, до которой еще мало кто допёр.
Как-то одним зимним пасмурным днем я рефрешил страницы биржи в поисках интересных лотов. Мое внимание привлек типа «сервис», который предоставляет информацию об ИП и ООО.
Короче, чувак где-то надыбал базу на 10 гб (скорее всего украл по «льготной цене»), в которой была инфа о контрагентах.
Все это дело натянули на ВП и засунули в индекс. По итогу Яндекс сожрал аж 10 миллионов страниц.
В данный момент там следующая картина:
То есть, сайт живет неплохой такой жизнью, собирая трафик по НЧ.
Зимой там было 6-7к трафа, но сейчас я думаю и того больше. Возможно, около десятки.
Монетизация — адсенс, РСЯ.
В какой-то момент владелец сайта перешел полностью на РСЯ. Стало выходить до 1к\сутки.
Неплохой заход, да?
Все сделано просто, практически на коленке, немножечко «не законно», но весьма прибыльно, если считать итоговый выхлоп. К тому же, судя по всему, этот сайт сменил владельца и первый хозяин получил +300к в кошелек (ну или около того).
В какой-то момент я даже хотел купить эту базу у владельца сайта, но потом подумал. Так вот же сайт, передо мной, у него даже сайтмап есть сгенерированный. Почему бы не попробовать его спарсить и посмотреть, как отнесутся ПС к моим поделкам?
Но все оказалось не так просто, как в моих влажных фантазиях.
Что я сделал.
Сначала спарсил всю карту сайта. Получил 10 млн ссылок.
Потом зарегал 8 дропов и залил туда вордпресс.
Ок, ссылки есть, вордпресс есть, ставим парсер, который я использовал в этом эксперименте и поехали.
Плодить 10 огромных баз было бы ошибкой, поэтому я сделал один основной сайт, а остальные коннектились к его базе.
Здесь возникло несколько проблем, одной из которых было то, что с таким подходом на всех сайтах получались одинаковые заголовки постов. База то одна.
Эту проблему решили написанием регулярок для парсера, которые вырезали лишнее из тайтлов и оставляли только нужное. А уже потом через шаблоны вордпресса мы разбавили тайтлы разными словами, чтобы хоть как-то их уникализировать.
Пришлось немного заморочиться.
И вроде бы все было нормально, пока база не перевалила за 40к записей. Парсер начал тупить, тормозить, парсить дубли. Я не знаю, это косяк именно плагина или большая вордпресс база начинает себя вести не очень очевидно, но, помучавшись, я решил стопануть это дело и попробовать найти другой подход.
Второй заход к решению проблемы был через Content Downloader.
Я сделал проект для него, который позволял парсить в txt посты, сохраняя тайтлы и h1. Ну все по красоте. Расчет был на то, что в CD есть функция создания файла импорта для WordPress. Я хотел парсить, создавать xml файлы, которые можно импортнуть и частями фигачить посты в базу.
Но и здесь ждала засада. CD просто не рассчитан на работу с такими объемами данных. Он даже не может нормально сформировать файл на 10к записей для импорта в вордпресс. Разработчик подтвердил, что на такую задачу этот функционал не рассчитан.
Опять облом.
Также через CD я хотел зайти со стороны генерации простых html сайтов из спаршенных с сайта страниц, но отбросил эту идею, так как там получаются просто дикие объемы файлов (миллионы штук).
Идею с парсингом сайта донора и постингом сразу в базу данных WordPress я не осилил, потому что рукожоп.
Что по итогу.
Все 8 сайтов так и замерли на отметке 40к+ постов и я на них забил. Только недавно решил повесить счетчики на эти поделки, чтобы посмотреть, есть ли там жизнь.
Оказалось, что кто-то туда даже заходит.
На пике (во второй день установки счетчика) было 89 хостов. Странно, что индексация в Яндексе в разы выше, но вот основной трафик идет из Гугла. Скорее всего связано с тем, что дропы я подбираю именно под эту ПС.
Разработчик плагина парсера Гарри уверял меня, что его разработка прекрасно работает с большими БД и тысячами записей, но мой опыт показал, что когда база ВП весит 300 мб — у него начинаются проблемы. Опять же, не отрицаю, что кривизна моих рук имеет тут определяющее значение.
Если бы удалось получить хотя бы по 1 млн записей на этих сайтах, то, скорее всего, ситуация с трафом через какое-то время была бы повеселее.
Но мне оказалось легче забить, чем дожимать до конца этот тест (:
P.S. Я не попробовал проксировать сайт. Возможно, это самый легкий и самый профитный (но это не точно) путь. Кто знает. Кто знает.
Результаты годичного эксперимента, в котором я купил статейников и попытался расслабиться. Вот что из этого получилось.
Накупил статейников. И спит.
Финальный отчет. Подводим результаты работы в одной из вертикалей, где в качестве рабочего инструмента была выбрана Пандора.
Пик трафа, ПМС Гугла, мысли о фильтрующем алгоритме.
РКН и Гугл - новая реальность. Метки о взломе ушли, но траф не пришел. Итоги редиректа трафа на ПП. Рост сетки. Шел девятый месяц тестирования.
Отчет о восьмом месяце эксперимента с генератором дорвеев - Пандора. Смена схемы генерации привела к росту трафика. Новый прикол от Гугла - метка о взломе.