Антон
Был на сайте: 30.01.2021 14:26

Антон Pakkard

Паспорт не верифицирован

Парсер Яндекс.Маркет 

  • 49
  • Опубликовано: 2017-10-06
В рамках реализации проекта BRC Market требовалось наполнить базу товаров. Учитывая специфику площадки требование к товарам было одно: чем больше, тем лучше. Т.к. сама площадка подразумевала наличие карточки товара (база площадки) с которой соотносились товары продавцов (предложения).

Парсер был реализован в виде Java-приложения. Срок разработки затянулся в связи с наличием большого количества защитных механизмов Маркета. Так, например, при попытке спарсить любую категорию Яндекс.Маркет позволяет подгрузить не более 500 товаров, дальше в пагинации начинают отображаться клоны. Хотя в категории может быть несколько десятков тысяч карточек.

Спарсить требовалось всё: короткое описание товара, все изображения, характеристики, при этом необходимо было привязать товар к категории на нашем сайте.
Сам процесс парсинга был разбит на 2 этапа.

1) Подготовка. В рамках этого этапа с маркета была выгружена таблица с данными о категориях (названия, идентификаторы). После чего был быстро собран интерфейс для наполнения базы инструкций для парсера. В базу инструкций входили записи о каждой категории маркета в которой есть карточки (в некоторых категориях карточек просто-напросто не было), установка связи между категорий на нашей площадке и Маркете, идентификаторы двух типов (id каталога, или, при отсутствии оного, hid категории), ценовая планка на момент заполнения и примерный "шаг", который позволял отфильтровать результаты таким образом, чтобы выдача категории не давала больше 500 результатов (таким образом была решена проблема выдачи клонов). Методом тестирования было найдено оптимальное количество прокси для требуемой скорости парсинга (которая один черт утыкалась в загрузку картинок).

2) Сам парсинг. Маркет время от времени выдавал весьма странные ошибки, которые приходилось обрабатывать, иногда вручную перезапуская парсер. Сам процесс занял около двух недель, ввиду лимита на количество запросов и проблему с перебором ценового фильтра.

По итогу было собрано порядка 370 тысяч товаров в более чем 2000 категорий.
Комментариев нет
оставить комментарий могут только авторизованные пользователи
Другие работы автора:
BRC Компании

BRC Компании Лучший проект использующий открытые данные России в 2017 :) Мой руководитель получила диплом из рук Антона Силуанова. Описать коротко вряд ли получится, но попробую. Сайт реализован на Laravel 5, использует в качестве баз данных PerconaSQL и Redis,…

BRC Маркет

BRC Маркет Площадка, наподобие Яндекс.Маркет. На данный момент такие клиенты как ОЗОН, Мегафон, Плеер. Площадка интегрирована в сервис BRC Компании, связь продавцов с юр.лицами и прочее облегчение жизни по заполнению реквизитов прилагаются. Полностью автомати…

Парсер Яндекс.Новости

Парсер Яндекс.Новости Парсер разработан как два java-приложения. Первое парсит напрямую Яндекс.Новости. В него забиты данные о категориях новостей и регионах, в которых требуется их парсить, а также статус категории в данном регионе (требуется ли парсить или нет). В данно…

Парсер сайта "ОГРН.онлайн"

Парсер сайта "ОГРН.онлайн" Конкуренты не дремлют :) Иногда дешевле купить прокси, заплатить разработчику и спарсить интересующие тебя данные, чем платить ещё раз 250 тысяч рублей ФНС за доступ к базе юр.лиц. По ОГРН "дергались" компании, данные записывались, извле…

Парсер сайта арбитражных судов России

Парсер сайта арбитражных судов России Этот функционал так и не попал в BRC Компании. Возможно, его внедрят со временем. Собрано более 30 миллионов арбитражных решений по спорам юридических лиц России. В качестве источника использовался официальный портал арбитражных судов http://kad.a…

Сборщик информации Uber

Сборщик информации Uber Сборщик информации Uber предназначен для сбора информации о водителях Uber. Собирает: имя водителя, телефон, марку автомобиля и номер, также фото. Экспортирует данные в виде таблицы. Работает на сервере без особых требований (php7.1/mysql5.7/curl). П…

International Bulletin

International Bulletin Сайт - 95% аналог Фактор Новости. Общий движок на Laravel 5, контент из парсеров. Главное отличие - сайт предназначался для зарубежной аудитории, поэтому он целиком переведён на английский. Есть версии и на других языках. Админка у всех одна. Как …

Фактор Новости

Фактор Новости Новостной сайт. В принципе, описывать тут практически нечего. Сайт написан на Laravel 5, целиком от начала до конца. Некоторые функции не были закончены в связи с началом нового проекта, дальше у владельца не осталось ресурсов для поддержания работос…