Сайт на 10 миллионов страниц. История одного теста.

Иногда на Телдери попадаются интересные проекты, которые можно попытаться повторить. Или тупо спиздить. Кому как больше нравится.

Именно поэтому не стоит там в открытую продавать сайты с интересной идеей, до которой еще мало кто допёр.

Как-то одним зимним пасмурным днем я рефрешил страницы биржи в поисках интересных лотов. Мое внимание привлек типа «сервис», который предоставляет информацию об ИП и ООО.

Короче, чувак где-то надыбал базу на 10 гб (скорее всего украл по «льготной цене»), в которой была инфа о контрагентах.

Все это дело натянули на ВП и засунули в индекс. По итогу Яндекс сожрал аж 10 миллионов страниц.

В данный момент там следующая картина:

То есть, сайт живет неплохой такой жизнью, собирая трафик по НЧ.

Зимой там было 6-7к трафа, но сейчас я думаю и того больше. Возможно, около десятки.

Монетизация — адсенс, РСЯ.

В какой-то момент владелец сайта перешел полностью на РСЯ. Стало выходить до 1к\сутки.

Неплохой заход, да?

Все сделано просто, практически на коленке, немножечко «не законно», но весьма прибыльно, если считать итоговый выхлоп. К тому же, судя по всему, этот сайт сменил владельца и первый хозяин получил +300к в кошелек (ну или около того).

В какой-то момент я даже хотел купить эту базу у владельца сайта, но потом подумал. Так вот же сайт, передо мной, у него даже сайтмап есть сгенерированный. Почему бы не попробовать его спарсить и посмотреть, как отнесутся ПС к моим поделкам?

Но все оказалось не так просто, как в моих влажных фантазиях.

Что я сделал.

Сначала спарсил всю карту сайта. Получил 10 млн ссылок.

Потом зарегал 8 дропов и залил туда вордпресс.

Ок, ссылки есть, вордпресс есть, ставим парсер, который я использовал в этом эксперименте и поехали.

Плодить 10 огромных баз было бы ошибкой, поэтому я сделал один основной сайт, а остальные коннектились к его базе.

Здесь возникло несколько проблем, одной из которых было то, что с таким подходом на всех сайтах получались одинаковые заголовки постов. База то одна.

Эту проблему решили написанием регулярок для парсера, которые вырезали лишнее из тайтлов и оставляли только нужное. А уже потом через шаблоны вордпресса мы разбавили тайтлы разными словами, чтобы хоть как-то их уникализировать.

Пришлось немного заморочиться.

И вроде бы все было нормально, пока база не перевалила за 40к записей. Парсер начал тупить, тормозить, парсить дубли. Я не знаю, это косяк именно плагина или большая вордпресс база начинает себя вести не очень очевидно, но, помучавшись, я решил стопануть это дело и попробовать найти другой подход.

Второй заход к решению проблемы был через Content Downloader.

Я сделал проект для него, который позволял парсить в txt посты, сохраняя тайтлы и h1. Ну все по красоте. Расчет был на то, что в CD есть функция создания файла импорта для WordPress. Я хотел парсить, создавать xml файлы, которые можно импортнуть и частями фигачить посты в базу.

Но и здесь ждала засада. CD просто не рассчитан на работу с такими объемами данных. Он даже не может нормально сформировать файл на 10к записей для импорта в вордпресс. Разработчик подтвердил, что на такую задачу этот функционал не рассчитан.

Опять облом.

Также через CD я хотел зайти со стороны генерации простых html сайтов из спаршенных с сайта страниц, но отбросил эту идею, так как там получаются просто дикие объемы файлов (миллионы штук).

Идею с парсингом сайта донора и постингом сразу в базу данных WordPress я не осилил, потому что рукожоп.

Что по итогу.

Все 8 сайтов так и замерли на отметке 40к+ постов и я на них забил. Только недавно решил повесить счетчики на эти поделки, чтобы посмотреть, есть ли там жизнь.

Оказалось, что кто-то туда даже заходит.

На пике (во второй день установки счетчика) было 89 хостов. Странно, что индексация в Яндексе в разы выше, но вот основной трафик идет из Гугла. Скорее всего связано с тем, что дропы я подбираю именно под эту ПС.

Разработчик плагина парсера Гарри уверял меня, что его разработка прекрасно работает с большими БД и тысячами записей, но мой опыт показал, что когда база ВП весит 300 мб — у него начинаются проблемы. Опять же, не отрицаю, что кривизна моих рук имеет тут определяющее значение.

Если бы удалось получить хотя бы по 1 млн записей на этих сайтах, то, скорее всего, ситуация с трафом через какое-то время была бы повеселее.

Но мне оказалось легче забить, чем дожимать до конца этот тест (:

P.S. Я не попробовал проксировать сайт. Возможно, это самый легкий и самый профитный (но это не точно) путь. Кто знает. Кто знает.

 

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


Последнее в этой категории:
Эксперименты | 14 | 941 | 11/12/2018
Эксперимент: сливают ли браузеры информацию поисковым ботам?

Сливают ли браузеры данные своим поисковым ботам и, если да, то как быстро это происходит? Итоги небольшого эксперимента.

Эксперименты | 28 | 1 283 | 09/11/2018
Эксперимент «Ящик Пандоры». Месяц #6-7.

А ведь Гуглу глубоко похер, что твои доры выглядят так сочно, да? Жатва прошла. Отчет об очередном месяце эксперимента.

Эксперименты | 2 | 1 531 | 05/09/2018
Эксперимент «Ящик Пандоры». Месяц #5.

Продолжаем играться с Пандорой и искать золотую середину, которая даст трафик, бабки и поможет построить коммунизм в отдельно взятой квартире.

Эксперименты | 2 312 | 07/08/2018
Тестируем дорвейный движок. Месяц #11-12. Итоги. Результаты юзеров.

Последний отчет из публичного эксперимента по созданию и тестированию движка под развлекательный трафик. Результаты юзеров, пользующихся этой разработкой.

Эксперименты | 2 368 | 21/07/2018
Эксперимент «Ящик Пандоры». Месяц #3-4. Понеслася.

Первый трафик на сайтах и выход на стабильную работу.

Эксперименты | 1 433 | 06/06/2018
Тестируем дорвейный движок. Месяц #10. Империя наносит ответный удар.

Империя зла в виде Гугла нанесла удар по трафику. Осталось отрастить бороду, уйти в монастырь и переключиться на гречку.