Защита от парсинга

Любому вебмастеру бывает знакома ситуация, когда позиции его сайта в поисковой выдаче вдруг резко проседают. Затратив много усилий на пересмотр всех технических нюансов, он начинает понимать, что корень проблемы вовсе не в технической составляющей. Все проще – контент был разворован.

Легко понять эмоции разработчика, трудившегося над наполнением сайта несколько лет, а некто взял и «спарсил» все это за пару минут, при этом получив еще и лучшие позиции в поисковой выдаче. Как же к этому относиться, и есть ли защита от парсинга сайта в принципе?

Кто и зачем ворует контент

Самое ценное, что есть на сайте – это контент, ведь именно по нему поисковики ведут ранжирование. Уникальный контент приносит сайту трафик, заходы из поисковых систем, и соответственно, продажи. А спарсенный (читай, потерявший уникальность) контент – прямой путь к потерям и убыткам.

Если держать дверь в доме всегда открытой, то рано или поздно туда пожалуют непрошеные гости, прихватив все, что плохо лежит. Веб-сайт – тот же дом, только виртуальный. А защита сайта от парсинга – задача не менее важная и ответственная, чем защита своего жилища от воров.
Так кто они, эти незваные гости, так и норовящие прибрать к рукам нашу интеллектуальную собственность?

Дорвеи: Снимая все сливки

Защита от парсинга сайта

Дорвей (англ. doorway — дверной проём) – это разновидность поискового спама, задача которого – получить, а затем перенаправить трафик в заданное русло. Грубо говоря, некто запускает скрипт, который проводит автоматический парсинг тысяч страниц сайтов и копирует их на собственный сайт.

Из-за дыр в алгоритмах своих ботов, поисковики неплохо ранжируют копипаст, давая лазейку такому сайту в ТОП поисковой выдачи. Со временем, конечно, страницы с заимствованным контентом выбрасываются из индекса. Тем не менее, известны случаи, когда «сайты-воришки» жили в топах годами, отбирая трафик у добропорядочных вебмастеров.

Скрипты дорвеев не нацелены на какой-то конкретно сайт, они «шарят» по сети вслепую, каждый день обирая миллионы страниц. Надеяться на то, что чей-то сайт сия чаша минует, по меньшей мере наивно.

Конкуренты: В бою все средства хороши

Есть масса способов «убрать» конкурентов из поисковой выдачи. Например, снизить ценность контента сайта-конкурента. Контент целевого сайта копируется, и создаются сайты с полным дублированием информации, причем таких сайтов-клонов может быть от нескольких десятков до нескольких сотен.

Кроме того, спарсенный у конкурентов контент публикуется на давно забытых форумах, в профилях пользователей соцсетей, на сайтах-вопросниках, и т.п. Попытки удаления всего контента с третьих ресурсов потребуют гигантских временных затрат, и далеко не факт, что дадут результаты.

Вебмастера воришки: Зачем изобретать велосипед?

Заполучить качественный контент на сайт – это время и деньги. Ленивому вебмастеру проще набрать сайты из ТОПовой выдачи поисковых систем, и заказать легкий рерайт их контента. Уникальность такого «полу-копипаста» обычно не выше 50%, но если подобных рерайтов заказано было хотя бы с десяток, то уникальность контента сайта-исходника будет стремиться к нулю.

Пример такого сайта-вора, который живет за счет других

Как защитить контент от копирования

Причем таких сайтов-паразитов в интернете очень даже немало. Правда конец у таких сайтов одинаков — полное выпадение из выдачи и отсутствие посетителей, а значит и доходов.

Как защитить сайт от парсинга и чем отвадить «парсероводов»

Вряд ли кто-то станет вручную проверять уникальность страниц своего сайта ежедневно. Особенно если страниц на сайте не один десяток, а тысячи. Ручная проверка, пусть даже раз в месяц, может обернуться бездарной тратой времени и финансов. А универсального скрипта, способного пресечь любые попытки копирования контента, еще не изобрели.

Так что же делать, если вы решили дать отпор «парсероводам»? Стратегия борьбы с парсингом включает несколько подходов: технический, организационный и психологический.

Технический подход — защита от парсинга

Казалось бы, самой очевидной и действенной мерой защиты от парсинга, было бы вычислить, с какого конкретно адреса вас парсят, и закрыть к ресурсу доступ с данного IP. Но блокировка IP – это крайняя мера, которая оправдана лишь в откровенно злостных кейсах, ведь динамически выделенные IP еще никто не отменял.

Ввод лимита на частоту обращений к серверу и заданное число вхождений, конечно, будет мерой не лишней. Подводные камни здесь в том, что без учета целой совокупности факторов, высок риск заблокировать поискового или еще какого «хорошего» бота. Да и частоту обращений к серверу парсеры-вредители уже обучены снижать, в целях маскировки. Выявить, полезный или «вредный» бот наведывается на ваш ресурс, поможет только специфическое самописное ПО.

Другое решение по борьбе с парсингом – задействовать сервисы защиты от DDOS-атак. Они ведут анализ степени загрузки сайта. Если частота подключений в секунду зашкаливает, то работа парсера приравнивается ими к DDOS-атаке, и на монитор выводится предупреждение. Порой такой подход может показать себя эффективным, но лишь против самых незамысловатых парсеров.

Следующий прием защиты сайта от парсинга – это активное внедрение сценариев JavaScript на его страницах. JS-код может конкретно затормозить работу парсера, т. к. многие парсеры не обучены его интерпретировать. Жирный минус такого подхода в том, что и полезным роботам это осложнит работу. Злоупотребление JavaScript на страницах сайта может легко привести к его просадке в поисковой выдаче, или выпадению из нее.

Еще один вариант, как защита от парсинга предлагает задействовать капчу. Его вполне можно было бы назвать рабочим, если бы не пара негативных моментов: 1) капча всех раздражает, мешает пользователям, как результат – снижение их лояльности к ресурсу; 2) есть умеющие распознавать капчу сервисы, которые постоянно совершенствуются.

Есть все же один несложный прием, который пусть частично, но поможет отвадить воришек контента. Если полноценно защититься от парсинга мы не можем, то можем хотя бы осложнить использование собственных материалов. Нередко главная ценность контента ресурса – это фото товаров. Почему бы не маркировать свой фотоконтент водяными знаками, которые будет непросто удалить? Сложность процесса восстановления картинок-исходников изрядно охладит соблазн использовать их на чужих ресурсах.

Организационный подход

Выгружая в сеть новый контент, важно оперативно обеспечить индексирование свежих страниц ресурса, прежде чем до них доберутся парсеры. Для этого нужно задействовать все доступные способы оповещения поисковых роботов о новых страницах.

Мониторинг всемирной паутины на предмет заимствования материалов с вашего сайта поможет прояснить, не скопировал ли кто-то ваш контент. В случае, если факт заимствования вами установлен, можно попробовать поговорить об этом с хозяевами другого ресурса. Неуспех переговоров – ваш повод обратиться с законными претензиями. Однако стоит помнить, что вопросы права касаемо интернета пока не идеально проработаны, и долгие судебные тяжбы могут лишь осложнить ситуацию, а не решить ее.

Насколько далеко имеет смысл заходить в организации борьбы с воровством контента, зависит от того, что именно поставлено на кон. Оправданной предпосылкой для активного противодействия парсингу являются, например, попытки собрать персональные данные пользователей вашего ресурса. Утечка личных данных дискредитирует ресурс. А снижение доверия пользователей к ресурсу непременно отразится на его посещаемости, и как следствие, на прибыли.

Психологический подход

Иногда с «парсероводами» резоннее заключить перемирие, чем объявлять им войну. Как сказал мудрец, если со злом нельзя бороться, можно попытаться его приручить. Можно предложить сотрудничество, различные партнерские программы. Можно предложить интерфейс экспорта данных (в тех же форматах, что парсеры выдают), и иметь прибыль на этом.

Выводы: подводя черту

Давайте будем реалистами. Пока нет стопроцентно эффективных способов блокировать и привлекать к ответственности за парсинг.

Любая преграда для парсинга преодолима, все упирается лишь в степень нужности ваших материалов. Сложность копирования вашего контента другой стороной напрямую зависит от ценника, в который вам выльется защита от парсинга. Также имеет смысл оценить целесообразность и необходимый уровень защиты, учитывая ценность контента, который у вас имеется.