Сайт на 10 миллионов страниц. История одного теста.

Иногда на Телдери попадаются интересные проекты, которые можно попытаться повторить. Или тупо спиздить. Кому как больше нравится.

Именно поэтому не стоит там в открытую продавать сайты с интересной идеей, до которой еще мало кто допёр.

Как-то одним зимним пасмурным днем я рефрешил страницы биржи в поисках интересных лотов. Мое внимание привлек типа «сервис», который предоставляет информацию об ИП и ООО.

Короче, чувак где-то надыбал базу на 10 гб (скорее всего украл по «льготной цене»), в которой была инфа о контрагентах.

Все это дело натянули на ВП и засунули в индекс. По итогу Яндекс сожрал аж 10 миллионов страниц.

В данный момент там следующая картина:

То есть, сайт живет неплохой такой жизнью, собирая трафик по НЧ.

Зимой там было 6-7к трафа, но сейчас я думаю и того больше. Возможно, около десятки.

Монетизация — адсенс, РСЯ.

В какой-то момент владелец сайта перешел полностью на РСЯ. Стало выходить до 1к\сутки.

Неплохой заход, да?

Все сделано просто, практически на коленке, немножечко «не законно», но весьма прибыльно, если считать итоговый выхлоп. К тому же, судя по всему, этот сайт сменил владельца и первый хозяин получил +300к в кошелек (ну или около того).

В какой-то момент я даже хотел купить эту базу у владельца сайта, но потом подумал. Так вот же сайт, передо мной, у него даже сайтмап есть сгенерированный. Почему бы не попробовать его спарсить и посмотреть, как отнесутся ПС к моим поделкам?

Но все оказалось не так просто, как в моих влажных фантазиях.

Что я сделал.

Сначала спарсил всю карту сайта. Получил 10 млн ссылок.

Потом зарегал 8 дропов и залил туда вордпресс.

Ок, ссылки есть, вордпресс есть, ставим парсер, который я использовал в этом эксперименте и поехали.

Плодить 10 огромных баз было бы ошибкой, поэтому я сделал один основной сайт, а остальные коннектились к его базе.

Здесь возникло несколько проблем, одной из которых было то, что с таким подходом на всех сайтах получались одинаковые заголовки постов. База то одна.

Эту проблему решили написанием регулярок для парсера, которые вырезали лишнее из тайтлов и оставляли только нужное. А уже потом через шаблоны вордпресса мы разбавили тайтлы разными словами, чтобы хоть как-то их уникализировать.

Пришлось немного заморочиться.

И вроде бы все было нормально, пока база не перевалила за 40к записей. Парсер начал тупить, тормозить, парсить дубли. Я не знаю, это косяк именно плагина или большая вордпресс база начинает себя вести не очень очевидно, но, помучавшись, я решил стопануть это дело и попробовать найти другой подход.

Второй заход к решению проблемы был через Content Downloader.

Я сделал проект для него, который позволял парсить в txt посты, сохраняя тайтлы и h1. Ну все по красоте. Расчет был на то, что в CD есть функция создания файла импорта для WordPress. Я хотел парсить, создавать xml файлы, которые можно импортнуть и частями фигачить посты в базу.

Но и здесь ждала засада. CD просто не рассчитан на работу с такими объемами данных. Он даже не может нормально сформировать файл на 10к записей для импорта в вордпресс. Разработчик подтвердил, что на такую задачу этот функционал не рассчитан.

Опять облом.

Также через CD я хотел зайти со стороны генерации простых html сайтов из спаршенных с сайта страниц, но отбросил эту идею, так как там получаются просто дикие объемы файлов (миллионы штук).

Идею с парсингом сайта донора и постингом сразу в базу данных WordPress я не осилил, потому что рукожоп.

Что по итогу.

Все 8 сайтов так и замерли на отметке 40к+ постов и я на них забил. Только недавно решил повесить счетчики на эти поделки, чтобы посмотреть, есть ли там жизнь.

Оказалось, что кто-то туда даже заходит.

На пике (во второй день установки счетчика) было 89 хостов. Странно, что индексация в Яндексе в разы выше, но вот основной трафик идет из Гугла. Скорее всего связано с тем, что дропы я подбираю именно под эту ПС.

Разработчик плагина парсера Гарри уверял меня, что его разработка прекрасно работает с большими БД и тысячами записей, но мой опыт показал, что когда база ВП весит 300 мб — у него начинаются проблемы. Опять же, не отрицаю, что кривизна моих рук имеет тут определяющее значение.

Если бы удалось получить хотя бы по 1 млн записей на этих сайтах, то, скорее всего, ситуация с трафом через какое-то время была бы повеселее.

Но мне оказалось легче забить, чем дожимать до конца этот тест (:

P.S. Я не попробовал проксировать сайт. Возможно, это самый легкий и самый профитный (но это не точно) путь. Кто знает. Кто знает.

 

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


Похожие записи
Онлайн | 18 | 1 958 | 12/12/2017
Честный отзыв на курс Serpasc’a по узконишевым b2b сайтам

Максимально субъективный отзыв о курсе Олега Серпаска по сайтам в узких нишах в b2b секторе. Отзыв из разряда "не пробовал, но осуждаю!"

Онлайн | 64 | 24/02/2017
Небольшое наблюдение по поводу аудитории Facebook

Аудитория фейсбука, оказывается, мало чем отличается от аудитории одноклассников. Сюрприз, да?

Онлайн | 111 | 01/03/2017
Эксперимент с Facebook. Месяц #2

Итак, что принес второй месяц. 1. Паблик ВК По нему, скорее всего, в этом году последняя запись, так как работы...

Онлайн | 3 | 3 128 | 18/02/2018
Как сгенерировать сайт на миллионы страниц и не положить сервер

О том, как блокировать не нужных ботов, которые просто нагружают сайты, но не несут никакой пользы для ваших ресурсов. Список и методы блокировки.

Онлайн | 2 176 | 18/04/2018
Эксперимент «Ящик Пандоры». Месяц #1

Старт нового эксперимента. Попытки получить зарубежный траф с помощью генератора дорвеев PandoraBox.

Онлайн | 4 399 | 25/04/2018
«200-300$ дейли это так, х@йня». Интервью со Скудоумом (Stimmi)

Ютуб, блогинг, книги, Дуров и влажные губы. Интервью со Stimmi.