Содержание
Привет всем читателям нашего блога. Сегодня мы вновь поговорим о скрапинге веб-сайтов. Интерес к этой теме постоянно растет, и наша команда решила не оставаться в стороне от столь актуальной проблемы. В предложенной вашему вниманию статье речь пойдет о довольно известном open-source решении — программе Goose Extractor, написанной на языке программирования Python. Поехали.
Общая информация
Изначально Goose был написан на Java. Однако уже в августе 2011 его полностью конвертировали в Scala проект. Основные работы в open-source завершились еще в 2012 году. Благодаря стараниям Хавьера Грангера (Xavier Grangier), Goose получил вторую жизнь на Python. Сообщество программистов довольно быстро включилось в разработку проекта и на сегодняшний день оригинальное решение имеет более трехсот активных форков. Команда JetRuby также оценила по достоинству преимущества этой библиотеки и, время от времени, занимается ее усовершенствованием.
Goose можно назвать многовекторным проектом. Его используют, как в качестве библиотеки, так и в форме отдельного приложения. Главная задача, которую решает Goose — это получение веб-страницы с дальнейшим извлечением данных самого широкого профиля. Имеется в виду текст, изображения, видео, мета-теги и т.д. Веб-скрапинг в самом чистом виде.
Согласно официальной документации, Goose пытается извлечь следующие типы данных:
- Мета-теги
- Мета-описание
- Основной текст статьи и ее заголовок
- Основное изображение статьи
- Любые YouTube/Vimeo видеоролики, включенные в тело статьи.
Установка и использование
Код скрапера для веб-сайтов доступен на GitHub по ссылке https://github.com/grangier/python-goose. Для его установки (при обязательном условии наличия Python) предпринимаются следующие действия:
Goose готов к работе сразу же после установки. Кроме того, мы можем его “пощупать” из консоли Python:
В целом, код из коробки весьма функционален. Можно сказать, что он удовлетворяет большинство требований, предъявляемых к веб-скраперам. Наша команда сумела привнести в работу приложения несколько интересных новшеств. Например:
Полезный апдейт на случай, если вам нужно получить полный список опубликованных изображений
Апдейт, возвращающий нормализованный, чистый HTML код, готовый для репостинга.
Преимущества и недостатки
Мы используем Goose в самых, что называется боевых условиях, обрабатывая примерно полмиллиона ссылок в день. И это — заметьте — на проекте, который еще не вышел из бета-стадии. Из преимуществ скрапера можно выделить высокое качество контента и простоту применения. Коробочное решение не требует внесения изменений в большинстве случаев скрапинга стандартных сайтов. Согласитесь, это весьма удобно.
Открытый код всегда доступен для модернизации, а значит — расширяем под нужды конкретного заказчика. Единственная оговорка: для этого требуется знание Python и опыт разработки на других языках программирования (если вам нужно внести минорные изменения в код, к примеру — добавить регулярное выражение, справиться с поставленной задачей ресурсами Python не удастся при всем желании).
Теперь к недостаткам.
Использование библиотеки в промышленных масштабах выявило массу сложностей. Причем, наибольшее количество проблем коснулось самого, казалось бы, простого действия — HTTP запроса для извлечения и дальнейшей обработки контента.
Перед вами полный список сложностей, с которыми мы столкнулись на этом этапе работы:
- Goose никак не отслеживает ошибки при запросах. Если что-то пошло не так, он просто возвращает пустой результат.
- Скрапер имеет проблемы с распознаванием кодировки — если сервер не вернул кодировку в HTTP заголовке, Goose ее распознает неверно.
- Возможность использовать «прокси» отсутствует.
- Возможность ограничивать количество исходящих запросов также отсутствует. Это может привести к DDos атаке целевого сайта.
- Goose умеет “читать” только статический HTML. Соответственно, коробочное решение не позволяет осуществлять скрапинг динамического контента. Как минимум, для этого потребуется многое дописывать или добавлять внешние модули. Как максимум — ничего не получится.
Следующим недостатком является отсутствие механизма назначения явных правил для некоторых доменов.
Как мы это решили?
Во-первых, мы убрали из Goose HTTP запросы и написали под это дело отдельный модуль, решающий все вышеуказанные проблемы.
Во-вторых, разработали систему правил для вытягивания контента из часто используемых сайтов. Новый сайт добавляется в систему без участия разработчика и всего в несколько кликов.
В результате Goose уже на входе получает готовый HTML контент и набор правил (если таковые имеются). Поверьте, это очень удобно. Кроме того, таким образом значительно повышается качество контента.
Вывод
Взвесив все за и против, мы можем смело назвать Goose Extractor хорошим проектом. Он заслуживает не только вашего внимания, но и самого активного использования в целях веб-скрапинга. Подводя итог, хочется сказать большое спасибо Хавьеру Грангеру за то, что он подарил сообществу Python (да и другим разработчикам) столь достойную вещь.