Разработка системы для автоматизированного сбора контактных данных и ассортимента компаний, представленных на крупнейшей онлайн-выставке производства в России. Проект направлен на формирование актуальной базы поставщиков и производителей (более 22 000 организаций) для маркетинговых исследований, поиска партнеров и анализа промышленного рынка по регионам и отраслям.
Техническая реализация выполнена на Python с использованием специализированных библиотек для веб-скреппинга:
— Requests: обеспечивал получение данных с сервера. Реализована обработка сессий и заголовков для стабильной работы с большим количеством запросов.
— Beautiful Soup 4: использовался для многоуровневого парсинга. Скрипт сначала собирает ссылки на все категории (от пищевой промышленности до машиностроения), затем переходит в списки компаний и парсит финальные карточки производителей.
— Логика сбора: извлекались название компании, описание, регион, количество товаров, а также доступные контактные данные и ссылки на социальные сети.
— JSON: выбран в качестве формата выгрузки для сохранения древовидной структуры (привязка «Отрасль — Категория — Компания»).
Создан инструмент, позволяющий:
— Сформировать структурированный реестр из 22 000+ российских заводов и фабрик в автоматическом режиме.
— Сегментировать данные по 30+ основным отраслям и сотням подкатегорий.
— Получить доступ к базе из 86 000+ товаров с описаниями и характеристиками.
— Исключить ручной поиск контрагентов, сократив время на сбор информации о рынке с нескольких недель до нескольких часов.
cloud.mail.ru/public/itjz/QtLt1ps8Y cloud.mail.ru/public/3adm/4x6n1TJg6