Что такое парсинг

Что такое парсинг сайтов: польза и вред

Открыто говорить о том, что «парсят» конкурентов, люди обычно стесняются. При том, что далеко не каждый имеет четкое представление о том, что такое парсинг, в обществе он считается занятием несколько стыдным, и публично порицается. И однако, парсингом занимаются все.

А если и не все поголовно, то все крупные акулы рынка точно.

В веб-программировании процесс обработки и представления данных зовется красивым словом – парсинг. Что это такое простыми словами? По сути – автоматизированный сбор разрозненной информации с сайтов, ее сортировка и выдача в форме структуры (например, таблицы). Сбор данных с сайтов ведет специальная программа – парсер.

Что такое парсер и как он работает

Парсер представляет собой программу, скрипт, реализованный на одном из языков программирования (скажем, Python). Скрипт этот «тянет» данные с сайтов по нужным нам условиям.

Алгоритм работы парсера такой:

  • Получаем исходный код страницы (правый щелчок по интересующему элементу нам в помощь), и оправляем в парсер на обработку.
  • Проходясь по html-коду, как по обычному тексту, парсер отыскивает в нем определенные соответствия.
  • Программа сравнивает, сопоставляет и отбирает массивы данных, которые нам интересны.

Как итог, парсер сохраняет результат в удобном пользователю формате. Это может быть файл SQL, XML, банальный TXT, но чаще – XLS (таблица Excel).
Проще говоря, парсер бродит по указанным ему ссылкам, собирая оттуда интересную нам информацию в файл.

Зачем парсят сайты

Мишенью парсинга может стать практически любой открытый ресурс в сети. В основном это доски объявлений, справочники, интернет-магазины, блоги, форумы и отзовики.

Парсинг сайтов интересен прежде всего маркетологам. Первоочередная цель парсинга – мониторинг цен у конкурентов, анализ их ассортимента, отслеживание акций на товары. «Кто, что, почём и в каких объемах продает?» – вот главные вопросы, на которые призван дать ответ парсинг.

Кроме этого, парсинг может быть использован для получения контента. Что дает возможность создавать и обновлять сайты, схожие по структуре, оформлению, содержанию. Например, наполнить каталог онлайн-аптеки на базе уже существующих в сети ресурсов.

Многие отождествляют парсинг такого рода с воровством контента, однако предлагающие услуги парсинга компании открещиваются от таких обвинений, уверяя, что закон они не преступают. Логика их проста. Ведь что такое парсинг данных? – Не более чем сбор того, что любой может видеть на сайте и вручную к себе скопировать. Просто программа парсер сделает это несравнимо быстрее. А как распорядится полученной инфой заказчик – это будет уже на его совести...

Пожалуй, самое безобидное применение парсинга – так называемый «самопарсинг». Довольно оригинальный способ проверить собственный ресурс на предмет ошибок в коде, битых ссылок, соответствия выложенного на сайте ассортимента реальному положению дел на складе, и т.п.

И наконец, к горечи простых людей, парсинг сайтов объявлений (тех же Сian или Avito) – практика распространенная. Сбор данных пользователей здесь идет не совсем с невинными целями. Просканировав доску объявлений, парсер выдаст готовенькую таблицу с контактами пользователей, а далее – все прелести в духе «правовых оттенков серого»: перепродажа баз туроператорам, риэлторам, а то и промышляющим телефонным спамом конторам и прочим надоедливым слепням на теле обывателя.

Вред парсинга для сайта-«донора»

Регулярно «шарящая» по твоему сайту программа создает конкретную нагрузку на серверы, мешая владельцу ресурса вести бизнес. А значит, что такое парсинг сайта для его владельца? – Паразитная нагрузка, не приносящая прибыли. Да и репутация ресурса, с которого «спарсили» данные пользователей, может оказаться подмоченной.

Владельцы крупных интернет-порталов отчаянно пытаются защитить свои ресурсы от парсинга. Однако любые попытки бороться с парсингом все больше напоминают борьбу с ветряными мельницами... Препятствий для парсинга по существу нет, это лишь вопрос времени и ценности информации.
Правда можно порекомендовать один недорогой сервис по защите сайта от ботов и спама. Насколько это будет эффективно, трудно сказать.

Выгодно ли заниматься парсингом

Существуют готовые программы для парсинга (например, Screaming Frog SEO Spider или Netpeak Spider), но и они требуют вдумчивого подхода, настройку, да и не всякая задача им по плечу. Большому бизнесу удобнее заказать парсинг у тех, кто на нем «собаку съел», и конторы, парсящие сайты за деньги, множатся, как грибы после дождя. Представитель одной делится статистикой компании:

  • Цена за парсинг сайта – от 5000 до 9000 руб. в месяц
  • Средний объем заказов – 8-15 сайтов на одного заказчика
  • В день парсится порядка 300 сайтов

Вопрос, выгодно ли заниматься парсингом, похоже отпадает совсем.

Законен ли парсинг в принципе?

В законодательстве нашей страны нет статьи, прямо запрещающей парсинг. Есть запреты на взлом сайтов, DDOS-атаки, воровство защищенного авторским правом контента, но парсинг под эти статьи не попадает. А как известно, что не запрещено, то разрешено;)

Некоторые склонны видеть в парсинге DDOS-атаку. Однако профи парсинга настаивают, что всё не так. Аргументируют тем, что при парсинге они, наоборот, стараются создавать нагрузку на целевой сайт по минимуму, дабы бизнесу не навредить. Напрашивается сравнение со здоровым паразитизмом, когда паразит не станет слишком вредить «хозяину», чтобы не остаться без кормильца.

Интересно, что всем известные поисковики тоже «грешат» парсингом: ведь индексируют они сайты, регулярно наведываясь на веб-страницы и там собирая информацию. Парадокс в том, что по ясным причинам все желают, чтобы Гугл с Яндексом их сайты индексировали, однако никто не желает, чтобы их сайты парсили.

Вывод

Если вы – динамично развивающийся бизнес, продаете популярные товары, либо оперируете в высокомобильной среде (например, предлагаете услуги для отдельных категорий авторов объявлений или организуете найм персонала), то встретитесь с парсингом непременно. В качестве мишени, или в качестве заказчика.