Клиенту требовался инструмент для автоматического сбора информации о товарах с маркетплейса Ozon.
Основная цель — получать структурированные данные по выбранному запросу (например, «масляные фильтры») для последующего анализа и использования в бизнес-задачах (мониторинг цен, конкурентов, ассортимента).
Основные требования:
Сбор ссылок на карточки товаров по ключевому запросу;
Получение информации: название, цена, рейтинг, количество отзывов, ссылка на товар;
Сохранение результатов в Excel с возможностью фильтрации по названию;
Автоматическое создание папок и файлов для удобного хранения результатов;
Возможность обхода защиты сайта (динамическая подгрузка, меняющиеся классы).
Решение (что сделал)
Использовал Python + Playwright для работы с динамическим контентом;
Реализовал алгоритм прокрутки страницы и подгрузки новых товаров;
Добавил обработку JSON-LD данных прямо со страницы, чтобы собирать точные значения цены, рейтинга и отзывов;
Сделал отдельный фильтр: проверка наличия ключевого запроса в названии товара;
Организовал сохранение в 2 файла:
Добавил обработку ошибок (если нет цены, рейтинга или отзывов — парсер не падает, а пропускает поле).
На выходе клиент получает структурированные таблицы Excel с ключевыми данными по товарам;
Сайт можно использовать для:
анализа цен конкурентов,
отслеживания динамики спроса,
мониторинга ассортимента и акций;
Весь процесс полностью автоматизирован: достаточно указать новый запрос — и парсер соберёт данные;
Гибкая архитектура позволяет дорабатывать парсер (например, добавить фото товара, бренд, наличие на складе и др.).