Обычно площадки блокируют IP-адреса, которые ведут себя подозрительно, то есть отправляют неестественно много запросов. Поэтому людям иногда приходится доказывать капчей, что они не роботы. Чтобы парсер не заблокировали, он использует прокси-серверы. Прокси — это посредники, которые подменяют IP-адрес парсера своим и не дают сайту увидеть, что на него много раз заходят с одного адреса.
Владислав Бочаров
Многие крупные сайты защищаются от парсинга, потому что его принципы работы схожи с DDOS-атакой. Если парсят большой сайт с тысячами страниц, то смотрят их через множество роботов-парсеров, и этим тревожат систему безопасности — площадке кажется, что её атакуют. Были случаи, что служба безопасности вычисляла людей по покупке прокси и писала вопросы в духе: «Зачем вы атакуете наш сайт?» Но если объяснить, что это был парсинг, вопросов больше не задают — парсинг нельзя запретить.
Парсить — законно. Если публичные данные из открытых источников можно достать вручную, то их можно собирать и автоматизировано. Но есть ограничения, например, запрещено:
● перегружать чужие веб-страницы до частичной или полной неработоспособности;
● распространять личные данные пользователей, полученные с помощью парсинга;
● использовать парсинг для спама или плагиата.
Парсинг собирает данные, которые помогают маркетологу быстрее собирать и обрабатывать информацию: то, что человек будет искать вручную несколько часов, программа сделает за пару минут.
Достать информацию с сайта, где нужна регистрация, не получится — сканировать можно только открытые источники. Но и таких данных в интернете достаточно:
● ассортимент и цены в каталоге,
● контент,
● поисковые фразы,
● открытые данные пользователей из соцсетей,
● отзывы.
Ещё можно наполнять ресурсы, используя площадки конкурентов, но важно избегать плагиата.
Парсинг страницы сайта удобно использовать для мониторинга цен, изменений в ассортименте и объёмов продаж. Многие онлайн-магазины указывают остаток товара на складе. Если собирать эти данные, через месяц можно будет примерно посчитать средний объём продаж за день. Он не будет идеально точным, но для прогноза этого обычно хватает.
Чтобы данные помогли в работе, нужно уметь не только собирать их, но и делать по ним маркетинговые выводы. Этому студенты учатся на курсе «Интернет-маркетолог». А ещё — настраивать сквозную аналитику, запускать контекстную рекламу, оптимизировать сайты для SEO и многому другому.
Парсинг соцсетей поможет собрать список пользователей по заданным признакам. Их можно загрузить прямо в рекламный кабинет вконтакте и запускать креативы на конкретных людей.
Вот что может сделать, например, свадебный салон из Архангельска:
● собрать девушек 20—25 лет из Архангельска со статусом «помолвлена»;
● запустить на них посты о планировании свадьбы;
● делиться полезным контентом с января по апрель;
● в мае запустить на разогретую аудиторию баннеры со скидками на свадебные платья.
По способу доступа парсеры могут быть облачными или десктопными. Облачные варианты нужны для парсинга сайта онлайн — вся информация хранится на виртуальной площадке. Десктопные версии хранятся в памяти компьютера.
Облачный парсер | Десктопный парсер | |
---|---|---|
Как начать работу | Запустить и настроить | Установить |
Какие мощности использует | Использует мощности стороннего сервера | Использует мощности вашего компьютера |
Где хранит данные | Хранит на компьютере пользователя только результаты | Хранит все данные на компьютере пользователя |
Оплата | В основном платные с бесплатным пробным периодом | Есть бесплатные варианты |
Какая ОС нужна | Запустится на компьютере с любой операционной системой | Придётся искать парсер конкретно под Windows/macOS/Linux |
Возможность автоматизации | Можно автоматизировать работу, если у парсера есть веб-интерфейс или API | Если поиск сложный, возможно, придётся следить за всем процессом парсинга |
Как работать с блокировками | О блокировках и прокси заботится разработчик облачного решения. | Возможно, придётся искать прокси вручную и выходить из блокировок. |
Вывод | Придётся настраивать, обойдётся дороже десктопного. Подходит, если нужно работать со сложными запросами и парсить регулярно. | Всегда под рукой после установки и стоит дешевле облачного. Подходит для небольших простых задач, со сложными поисками могут возникнуть проблемы. |
Парсинг сайтов в Excel и Google Sheets — неплохой способ закрыть мелкие задачи вроде просмотра ассортимента одного конкурента, но с ним тоже придётся повозиться. Предстоит познакомиться с языком запросов к элементам XML-документа — XPath.
Чтобы получить информацию из таблиц и списков, используют функцию importhtml, а для всех остальных форматов данных — importxml.
Если коротко, функция importxml работает так: когда в ячейке пишут =IMPORTXML(“адрес сайта”; “Xpath-запрос блока, где лежит информация, которую мы хотим спарсить”), функция выдаёт нужный текст.
Проверим:
Например, нужно узнать название страницы курса Практикума по интернет-маркетингу. Заходим на страницу, открываем консоль кнопкой F12, находим в коде нужный блок — тот, где лежит информация, которую ищем.
Копируем XPath-запрос: нажимаем правой кнопкой мыши на блок → «Copy» → «Copy XPath».
По типу задач классифицировать парсеры можно по-разному. Разбили программы для парсинга сайтов на шесть категорий — поговорим о них в следующем разделе.
Marketparser
Язык: русский.
Бесплатный период: месяц, проверка 1000 товаров.
Стоимость: от 4500 рублей в месяц. Смотреть тарифы.
Вид доступа: облачный.
Что умеет: формирует отчёты по магазинам и позициям, можно настроить свой отчёт в конструкторе. Соберёт информацию об ассортименте конкурентов, изменении цен и каналов продаж. Можно автоматизировать работу через API.
ALL RIVAL
Язык: русский.
Бесплатный период: без регистрации и ограничений по времени, 2 сайта, 7000 проверок цен в месяц (до 1750 товаров), проверка раз в сутки.
Стоимость: от 5099 рублей в месяц. Смотреть тарифы.
Вид доступа: облачный + расширение для браузера.
Что умеет: сопоставляет ассортименты, отслеживает изменения цен за прошлые полгода, собирает данные магазина — цены, описания и другую информацию.
Priceva
Язык: русский.
Бесплатный период: после регистрации без ограничений по времени до 20 товаров и 6200 проверок, проверка раз в сутки.
Стоимость: от 7000 рублей в месяц. Смотреть тарифы.
Вид доступа: облачный.
Что умеет: анализирует цены, наличие товаров и рекомендуемые розничные цены. Можно настроить автоматический мониторинг.
Keys.so
Язык: русский.
Бесплатный период: промо-тариф, анализ Яндекс, Google, Дзен, 50 000 записей в отчётах и 10 проектах.
Стоимость: от 4900 рублей в месяц. Смотреть тарифы.
Вид доступа: облачный.
Что умеет: анализирует сайты в органике и платной выдаче, контекстную рекламу, объявления и ключевые фразы. Подходит для конкурентной разведки.
Screaming Frog Seo Spider
Язык: английский.
Бесплатный период: сканирование 500 URL-адресов без ограничений по времени.
Стоимость: 259 долларов в год.
Вид доступа: десктопный.
Что умеет: ищет битые ссылки, редиректы, дубли, анализирует метаданные, анализирует архитектуру веб-страницы. Подходит для самопарсинга.
Catalogloader
Язык: русский.
Стоимость: наполняют площадки под ключ, стоимость рассчитывает менеджер.
Что умеет: наполняет категории товаров с сайта поставщика или другой страницы, загружает цены из прайсов, ищет описания, фото и характеристики для товаров.
X-Parser Light
Язык: русский.
Стоимость: от 2870 рублей в месяц.
Вид доступа: десктопный.
Что умеет: парсит контент по списку ключевых слов или ссылок, помогает наполнять сайты, может автоматизировать создание ТЗ для SEO-статей.
Datacol
Язык: русский.
Стоимость: от 9000 рублей, наполняют сайты под ключ.
Что умеет: добавляет товары и цены с площадки поставщика и обновляет их.
TargetHunter
Язык: русский.
Стоимость: от 18 рублей в день, если оплатить сразу за год. Смотреть тарифы.
Вид доступа: облачный.
Что умеет: объединяет 150 инструментов поиска аудитории вконтакте: собирает пользователей по ключевым словам и фразам, геолокации, месту работы и учёбы, возрасту, музыкальным предпочтениям, лайкам и активности в комментариях.
Pepper.ninja
Язык: русский.
Бесплатный период: 3 дня полного доступа.
Стоимость: от 490 рублей в месяц.
Вид доступа: облачный.
Что умеет: собирает аудиторию по открытым данным страницы, по активности в группе, ищет похожую аудиторию по ключевому слову или действию, парсит Live-трансляции, собирает аудиторию по музыкальным вкусам.
Церебро Таргет
Язык: русский.
Стоимость: от 1225 рублей в месяц.
Вид доступа: облачный.
Что умеет: предлагает более 100 способов собирать аудитории: по сообществам, характеристикам, комментариям, активности. Собирает аудиторию из групп и фотоальбомов конкурентов, ищет интересные для аудитории посты.
A-parser
Язык: русский.
Бесплатный период: демо-версия после регистрации.
Стоимость: от 179 долларов в год. Смотреть тарифы.
Вид доступа: десктопный.
Что умеет: парсит страницы для SEO-оптимизации, рекламные блоки, аудитории из соцсетей и открытых групп в телеграме, мониторит цены, наполняет сайты и карточки товаров.
Диггернаут
Язык: русский.
Бесплатный период: 1 проект и 3 диггера — робота, которые ищут информацию.
Стоимость: от от 700 рублей в месяц. Смотреть тарифы.
Вид доступа: десктопный.
Что умеет: мониторит конкурентов, парсит новостные заголовки, статистические исследования, открытые данные госструктур и других организаций, мнения в соцсетях и другие данные.
Вот примеры полностью бесплатных решений:
● Xenu's Link Sleuth — программа для SEO-оптимизации;
● Каталог бесплатных парсеров Диггернаут — десятки парсеров для узких задач вроде парсинга маркетплейса CDEK;
● Три расширения браузера Chrome — для тех, кто умеет работать с XPath.
Таких вариантов на рынке немного, они сильно ограничены по функциям, а в интерфейсе придётся долго разбираться. Но есть лайфхак: небольшие задачи можно решить беслпатно в пробном периоде крупных парсеров.
Шесть вопросов помогут выбрать парсер для решения задачи:
1. Типовая задача или сложный, нестандартный запрос?
Если задача типовая, можно выбирать стандартное решение на рынке. Если задача сложная и нешаблонная, парсер лучше делать под ключ, то есть программировать с нуля. Этим занимаются многие крупные парсеры, в том числе из нашего списка. Например, персонализированное решение смогут сделать A-parser, Диггернаут и ALL RIVAL.
Сложность запроса состоит из технической трудности и комплексности задачи:
● Технически сложные задачи — это любые ресурсоёмкие запросы, где важна пропускная способность сервера или ПО для парсинга. Например, если нужно парсить многостраничный и нагруженный сайт вроде «Леруа Мерлен».
● Комплексная задача — это цепь из нескольких звеньев: собрать данные, структурировать и проанализировать их. Если в итоге нужна не таблица в Excel, а хорошо визуализированная информация с выводами — это тоже сложный процесс.
Шаблонность или нестандартность решения можно определить по объекту парсинга. Если нужно сканировать что-то массовое и типовое — соцсети, сайты на Тильде, маркетплейсы, сайты-конструкторы, то это стандартный запрос. Если речь о крупных ресурсах, то их программируют не по шаблону, и парсер нужно перенастраивать. Чем крупнее проект, тем сложнее парсинг.
2. Парсить самостоятельно или отдать на аутсорс?
Если хочется сразу получить результат, не разбираясь в тонкостях, можно нанять фрилансера на FL.ru, profi.ru или другом ресурсе. Если есть время на освоение одного из парсеров на рынке, можно парсить самостоятельно.
3. Что делать с помощью парсера?
Когда задача ясна, можно отметать парсеры, у которых нет нужных функций. Например, если нужно собрать аудиторию из соцсетей, парсеры для SEO-оптимизации вряд ли подойдут.
4. Какой бюджет на парсинг?
Без бюджета долго и много парсить не получится. Можно, например, оптимизировать площадку на 100 URL или промониторить одного конкурента — с этим справятся демо-версии. Более масштабные проекты нужно включать в список расходов.
5. Как часто нужно парсить?
Если нужно найти информацию всего пару раз, можно воспользоваться бесплатными версиями. Если парсинг данных с сайта нужен постоянно, стоит подумать о покупке решения.
6. Можно ли работать с интерфейсом на английском?
Если да, то можно рассматривать зарубежные парсеры.
Ещё есть три важных критерия для выбора парсера:
● Интерфейс. Если он понятный и удобный, то компания собирает обратную связь и работает над тем, чтобы у пользователя не было проблем. Можно ожидать того же и от парсинга.
● Ресурсоёмкость. Это мощность парсера, которая показывает, какой запрос он может потянуть. Она зависит от тарифа: чем дороже вариант, тем больше мощность. Можно выбрать тариф по бюджету через техподдержку и узнать, подходит ли ресурсоёмкость для задач. Программисты честно скажут, хватит у них ресурсов или нет.
● Отказоустойчивость. Эта характеристика показывает, как быстро сервис адаптируется в связи с обновлениями соцсетей и конструкторов. Бывает, что обновление вышло месяц назад, а парсер ещё не научился собирать информацию по-новому и выдаёт ошибку — такого лучше избегать. Узнать, какая отказоустойчивость у парсера, можно по отзывам.
Владислав Бочаров
Тем, кто выбирает парсер впервые, я советую ориентироваться на «старичков», которые в деле хотя бы три года, уже проверили технологии и наладили процесс. Пробовать новые варианты можно, когда опыта станет больше и будет понятно, каких функций не хватает в старом парсере.
Возраст компании можно посмотреть по отзывам либо через дату регистрации юридического лица — поможет сервис rusprofile.ru. Стоит обратить внимание на графу ОКВЭД — там должен стоять профильный вид деятельности, связанный с IT.
Читать также: