Разработка парсера для извлечения структурированных данных о дизельных и бензиновых генераторах с сайта energocontinent.ru. Основная цель проекта — автоматизация мониторинга ассортимента, цен и технических характеристик оборудования для последующего анализа или импорта в базу данных. Скрипт осуществляет обход всех категорий каталога, обрабатывает пагинацию и собирает детальную информацию о каждой товарной единице.
Для реализации проекта был выбран язык Python и стек библиотек для эффективного веб-скреппинга:
— Библиотека Requests: использовалась для отправки HTTP-запросов и получения HTML-кода страниц. Настроены кастомные заголовки (User-Agent) для имитации поведения реального пользователя.
— Библиотека Beautiful Soup 4: применялась для парсинга DOM-дерева, навигации по тегам и извлечения целевых данных (цена, артикул, мощность, тип двигателя, фазность).
— Модуль JSON: выбран в качестве формата хранения данных для обеспечения легкой интеграции с другими системами и сохранения вложенной структуры характеристик оборудования.
— Обработка ошибок: реализована проверка статус-кодов ответов и механизмы обработки отсутствующих данных в карточках товаров.
В итоге был создан масштабируемый инструмент, который:
— Собирает полные данные о более чем 1000 наименований товаров за один цикл работы.
— Формирует структурированный JSON-файл с сохранением иерархии категорий.
— Сокращает время на обновление информации о ценах в 15 раз по сравнению с ручным сбором.
— Позволяет получать актуальные технические спецификации для сравнения моделей генераторов.