Сайт на 10 миллионов страниц. История одного теста.

Иногда на Телдери попадаются интересные проекты, которые можно попытаться повторить. Или тупо спиздить. Кому как больше нравится.

Именно поэтому не стоит там в открытую продавать сайты с интересной идеей, до которой еще мало кто допёр.

Как-то одним зимним пасмурным днем я рефрешил страницы биржи в поисках интересных лотов. Мое внимание привлек типа «сервис», который предоставляет информацию об ИП и ООО.

Короче, чувак где-то надыбал базу на 10 гб (скорее всего украл по «льготной цене»), в которой была инфа о контрагентах.

Все это дело натянули на ВП и засунули в индекс. По итогу Яндекс сожрал аж 10 миллионов страниц.

В данный момент там следующая картина:

То есть, сайт живет неплохой такой жизнью, собирая трафик по НЧ.

Зимой там было 6-7к трафа, но сейчас я думаю и того больше. Возможно, около десятки.

Монетизация — адсенс, РСЯ.

В какой-то момент владелец сайта перешел полностью на РСЯ. Стало выходить до 1к\сутки.

Неплохой заход, да?

Все сделано просто, практически на коленке, немножечко «не законно», но весьма прибыльно, если считать итоговый выхлоп. К тому же, судя по всему, этот сайт сменил владельца и первый хозяин получил +300к в кошелек (ну или около того).

В какой-то момент я даже хотел купить эту базу у владельца сайта, но потом подумал. Так вот же сайт, передо мной, у него даже сайтмап есть сгенерированный. Почему бы не попробовать его спарсить и посмотреть, как отнесутся ПС к моим поделкам?

Но все оказалось не так просто, как в моих влажных фантазиях.

Что я сделал.

Сначала спарсил всю карту сайта. Получил 10 млн ссылок.

Потом зарегал 8 дропов и залил туда вордпресс.

Ок, ссылки есть, вордпресс есть, ставим парсер, который я использовал в этом эксперименте и поехали.

Плодить 10 огромных баз было бы ошибкой, поэтому я сделал один основной сайт, а остальные коннектились к его базе.

Здесь возникло несколько проблем, одной из которых было то, что с таким подходом на всех сайтах получались одинаковые заголовки постов. База то одна.

Эту проблему решили написанием регулярок для парсера, которые вырезали лишнее из тайтлов и оставляли только нужное. А уже потом через шаблоны вордпресса мы разбавили тайтлы разными словами, чтобы хоть как-то их уникализировать.

Пришлось немного заморочиться.

И вроде бы все было нормально, пока база не перевалила за 40к записей. Парсер начал тупить, тормозить, парсить дубли. Я не знаю, это косяк именно плагина или большая вордпресс база начинает себя вести не очень очевидно, но, помучавшись, я решил стопануть это дело и попробовать найти другой подход.

Второй заход к решению проблемы был через Content Downloader.

Я сделал проект для него, который позволял парсить в txt посты, сохраняя тайтлы и h1. Ну все по красоте. Расчет был на то, что в CD есть функция создания файла импорта для WordPress. Я хотел парсить, создавать xml файлы, которые можно импортнуть и частями фигачить посты в базу.

Но и здесь ждала засада. CD просто не рассчитан на работу с такими объемами данных. Он даже не может нормально сформировать файл на 10к записей для импорта в вордпресс. Разработчик подтвердил, что на такую задачу этот функционал не рассчитан.

Опять облом.

Также через CD я хотел зайти со стороны генерации простых html сайтов из спаршенных с сайта страниц, но отбросил эту идею, так как там получаются просто дикие объемы файлов (миллионы штук).

Идею с парсингом сайта донора и постингом сразу в базу данных WordPress я не осилил, потому что рукожоп.

Что по итогу.

Все 8 сайтов так и замерли на отметке 40к+ постов и я на них забил. Только недавно решил повесить счетчики на эти поделки, чтобы посмотреть, есть ли там жизнь.

Оказалось, что кто-то туда даже заходит.

На пике (во второй день установки счетчика) было 89 хостов. Странно, что индексация в Яндексе в разы выше, но вот основной трафик идет из Гугла. Скорее всего связано с тем, что дропы я подбираю именно под эту ПС.

Разработчик плагина парсера Гарри уверял меня, что его разработка прекрасно работает с большими БД и тысячами записей, но мой опыт показал, что когда база ВП весит 300 мб — у него начинаются проблемы. Опять же, не отрицаю, что кривизна моих рук имеет тут определяющее значение.

Если бы удалось получить хотя бы по 1 млн записей на этих сайтах, то, скорее всего, ситуация с трафом через какое-то время была бы повеселее.

Но мне оказалось легче забить, чем дожимать до конца этот тест (:

P.S. Я не попробовал проксировать сайт. Возможно, это самый легкий и самый профитный (но это не точно) путь. Кто знает. Кто знает.

 

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


Похожие записи
Онлайн | 2 | 1 470 | 05/09/2018
Эксперимент «Ящик Пандоры». Месяц #5.

Продолжаем играться с Пандорой и искать золотую середину, которая даст трафик, бабки и поможет построить коммунизм в отдельно взятой квартире.

Онлайн | 117 | 05/07/2017
Эксперимент с Facebook. Месяц #6

Ок, че там у хохлов? Фейсбук расчехлил своих карающих ботов на полную катушку. Дошло до того, что если постишь ссылку...

Онлайн | 1 049 | 25/10/2018
«У нас 300 серверов и 100к IP адресов». Интервью с владельцем сервиса по аренде прокси

Как устроены сервисы, которые продают нам прокси. Интервью с создателем одного из них.

Онлайн | 8 | 4 279 | 07/12/2017
350+к на дорвеях в месяц. Интервью с VirtProfit’ом

Интервью с дорвейщиком, который зарабатывает 300-350к в месяц на своих сайтах. Дропы, eBay, конкуренция и фишки.

Онлайн | 2 | 2 047 | 12/11/2017
Тёмная сторона силы: как я стал генерить доры бесплатно и без регистрации

Max Fuckin: моя история того, как я бросил жену, детей, завод и начал заниматься дорвеями. Главная мысль - тесты, тесты и еще раз тесты.

Онлайн | 3 | 865 | 09/11/2017
Кнопки «поделиться» от share.pluso.ru воруют ваш трафик

О том, почему не стоит ставить на свой сайт кнопки социальных сетей от pluso.ru и, мало того что сливать данные о своей аудитории, но и перегонять трафик на сайты "левых" партнеров.