Octoparse — бесплатный парсер сайтов для сбора данных без кодирования. Приложение Octoparse (в переводе Осьминог) ориентировано на широкий круг пользователей, как начинающих, так и более опытных. Выпускается в трех вариантах: бесплатная версия, стандартная и профессиональная. Нас интересует бесплатная версия — octoparse free. Еë и будем рассматривать ниже.
Главное отличие парсера Octoparse от других программ парсеров, это многозадачность, гибкость и простота в использовании. От пользователя не требуется знаний в программировании и в написании кода. В парсере уже есть встроенные инструменты XPath и RegEx, которые предлагают удобный способ автоматически генерировать регулярные выражения, задавая различные критерии под разные задачи.
Чтобы начать пользоваться бесплатным парсером, необходимо зарегистрироваться на сайте Octoparse и выбрать тарифный план «Free» или «Premium» для профи. В бесплатной версии вы можете спарсить до 10000 записей и запустить 2 проекта, страниц парсить можно неограниченно.
Возможности Octoparse:
- Сбор адресов почты
- Парсинг изображений
- Извлечение видео
- Извлечение IP-адресов
- Парсинг номеров телефонов
- Парсинг цен
- Парсинг данных любых сайтов
- Сбор данных социальных сетей (Facebook, Twitter , Instagram , YouTube , Flickr и многих других)
- Сбор данных по электронной коммерции и розничным продажам (Amazon, eBay, Target, Wal-Mart и другие)
- Сбор цен, рейтингов и отзывов на отели, путешествия и авиалинии
- Агрегация вакансий и контента (Indeed, Linkedin, Glassdoor и т. д)
- Анализ и интеграция данных
- Доступ через API
- Экспорт данных в форматы TXT, CSV, HTML или XLSX.
Парсер Octoparse предоставляет для работы удобную в тоже время простую визуальную панель управления. Работает со всеми сайтами: с полной прокруткой, пагинацией, авторизацией, выпадающими меню и прочее. Парсер может управлять как статическими, так и динамическими сайтами с помощью AJAX, JavaScript, файлов cookie и т. д. Также предлагает расширенные облачные сервисы, позволяющие извлекать большие объемы данных.
Программа Octoparse имитирует поведение человека при просмотре веб-страниц, такое как открытие страницы, вход в учетную запись, ввод текста, указание и щелчки по элементам и т. д. Бесплатный парсер сайтов поддерживает блокировку рекламы, параллельное выполнение нескольких заданий, просмотр сайтов во встроенном браузере, использование регулярных выражений, настройку cookies и кэша.
Для некоторых пользователей, бесплатный парсер сайтов покажется достаточно сложным в использовании, так, как в программе нет поддержки русского языка. Тогда можно воспользоваться предлагаемой услугой в Octoparse — парсить данные вместо вас. Octoparse предлагает комплексное решение, которое позаботится обо всех ваших потребностях в данных, от настройки сканера до обработки и интеграции данных.
Перед началом работы с парсером желательно ознакомиться с документацией по работе, которая предоставлена в достаточном объеме на сайте программы (кликните в левом нижнем углу программы на значок Tutorials and Help).
Хорошо работает для статических страниц.
Но уже тот же динамический Ютуб ему не под силу