Грабберы

Сайтам, контент которых быстро теряет актуальность , без «искусственного интеллекта» сегодня не обойтись.
Держать многочисленный штат сотрудников, вручную редактирующих данные в режиме 24/7, накладно и нецелесообразно. Вместо людских ресурсов, на таких сайтах работают грабберы.

Что такое граббер?

граббинг

Программа (скрипт), ведущая сбор данных с сетевых ресурсов и автоматически их публикующая – вот что такое граббер (от англ. grab – хватать, захватывать). Проще говоря, граббер «цепляет» контент со сторонних сайтов и «на автопилоте» переносят его на собственный проект.

Граббер можно создать с использованием регулярных выражений — программных кодов, где задается маска искомых данных. (Это могут быть электронные адреса, конкретного вида текст, номера сотовых, расширения картинок, да что угодно.) Регулярные выражения позволяют отыскивать, изменять, удалять данные, определенные в шаблоне. Грабберы пишутся на многих известных языках программирования: C++, PHP, Java, .Net и др.

Для чего используют граббинг

Граббинг сайтов

Сфера применения грабберов чрезвычайно широка. В частности, граббинг контента позволяет:

  • наполнять интернет-магазины, автоматом перенося наименования и описания позиций с сайтов магазинов-конкурентов;
  • создавать информационные ресурсы, содержащие обзоры, отзывы, рецензии, рецепты, рефераты;
  • создавать новостные порталы;
  • создавать сайты-сателлиты, в целях «серого» продвижения своих проектов;
  • получать определенный мультимедийный контент — картинки, фото, видео;
  • получать контент из RSS-лент;
  • собирать с целевого ресурса адреса внешних ссылок;
  • вести авто-сбор адресов электронной почты;
  • получать адреса подключаемых файлов CSS- и JS-;
  • автоматически обновлять на своем ресурсе быстротечные сведения: о котировках на бирже, погодном прогнозе, дорожных пробках и т.п.

Еще примеры приложения грабберов на практике – это сбор постов в соцсетях, с автоматическим постингом у себя на страничке; формирование БД контактов пользователей сети; отслеживание цен у конкурентов.

Грабберы и парсеры: найди отличия

Помимо грабберов, для «выуживания» контента со сторонних сайтов используют еще и парсеры. Нередко эти два понятия отождествляют, что не совсем правильно. Парсер лишь собирает требуемые данные с различных ресурсов, но не публикует их в сети в авторежиме. Тогда как граббер это умеет.

Некоторые грабберы способны делать синонимайзинг «добытых» текстов, но на достаточно примитивном уровне. По сравнению с грабберами, у парсеров гораздо более продвинутые настройки фильтрации и уникализации текстового контента.

Грабберы — две стороны медали

Как практически у любого полезного функционала, у грабберов присутствуют как явные достоинства, так и весомые недостатки. По аналогии с чертами человеческого характера, можно обозначить положительные и отрицательные качества таких программ граберов.

Плюсы грабберов

Мобильность – Быстро просматривают и анализируют множество страниц заданного сайта.
Педантизм – Разделяют контент по типам: ссылки, графика, видео, почта, и прочее.
Гибкость – Настройки поиска дают возможность сбора самой различной информации.
Демократичность – Позволяют как сохранить полученный контент в базу данных локально, так и автоматически выгрузить на свой ресурс или в соцсеть.

Минусы грабберов

Узко направленность – Не все такие программы универсальны, т.к. в основном создаются под конкретные проекты. При необходимости собрать данные из разных источников, может потребоваться задействовать не один граббер.
Сложность – Грабберы довольно замысловаты в настройках. Пользователю без опыта в них непросто разобраться.
Безграмотность – Текст, собранный граббером, нередко пестрит ошибками или вовсе нечитабелен.
Вороватость – Полученный через граббер текстовый контент является копиастом. Выгрузка его на свой ресурс без предварительной уникализации может быть чревата санкциями поисковых систем.

Невзирая на все означенные минусы, грабберы сайтов исключительно востребованы у веб-разработчиков, поскольку существенно экономят время и силы вебмастеру при поддержке существующих и создании новых проектов.