Разработка масштабируемого парсера для извлечения структурированной информации о компаниях-экспонентах с официального портала Expocentr. Целью проекта было создание актуальной базы контактов для маркетинговых исследований и анализа рынка. Работа осложнялась динамической подгрузкой контента и глубокой вложенностью данных в карточках компаний.
Стек технологий
Python, Selenium, BeautifulSoup4, HTML, JSON, Openpyxl (xlsx).
Для реализации задачи был выбран гибридный подход к парсингу:
Использование Selenium для обхода динамических элементов, обработки пагинации и взаимодействия с JavaScript-составляющими каталога.
Применение BeautifulSoup4 (bs4) для быстрого и эффективного анализа HTML-кода страниц и извлечения текстовых данных из полученных дампов.
Реализация логики обработки исключений (Try-Except) для предотвращения остановки скрипта при отсутствии определенных полей (например, e-mail или сайта) у конкретной компании.
Структурирование данных в формате словаря (Dictionary) и их промежуточное хранение в формате JSON для минимизации потерь при сбоях.
Написан отказоустойчивый скрипт, собирающий 9 ключевых атрибутов организации: от названия и стенда до прямых контактов и подробного описания деятельности.
Реализован экспорт данных в формат XLSX, готовый для загрузки в CRM-системы или использования в Excel.
Сформирована база данных, включающая сотни организаций, распределенных по категориям, городам и странам.
Оптимизирована скорость сбора данных за счет грамотного сочетания имитации действий пользователя и прямого парсинга DOM-дерева.
cloud.mail.ru/public/t5c7/mBxRQcR9o cloud.mail.ru/public/mdD1/THKRQ6dhy