Антон
Был на сайте: 30.01.2021 14:26

Антон Pakkard

Паспорт не верифицирован

Парсер Яндекс.Новости 

  • 164
  • Опубликовано: 2017-10-06
Парсер разработан как два java-приложения. Первое парсит напрямую Яндекс.Новости. В него забиты данные о категориях новостей и регионах, в которых требуется их парсить, а также статус категории в данном регионе (требуется ли парсить или нет). В данной реализации парсер не прекращает работу, лишь уходят в спячку на заданный в административной панели срок (от 3 до 5 минут на каждую итерацию).

Данный парсер собирает ссылку на источник новости, её название, данные о категории и дате размещения новости. Эта инф. складывается в служебную таблицу.

Проблему парсинга тысяч новостных ресурсов я решил следующим путём - был разработан универсальный парсер, который принимает в качестве значения ссылку на новость, регулярным выражением выдергивает название ресурса, ищет в базе шаблонов (об этом далее) шаблон этого сайта и выкачивает информацию по шаблону, складывая её напрямую в базу новостного сайта.

По поводу шаблонов - они задавались для каждого новостного сайта-партнёра Яндекса. Шаблон текстовый - указывает в каких тегах искать текст новости. Шаблон медийный - где искать изображение. В парсере было реализовано много крутых функций, о которых не позволяет написать объем описания. В приложении скриншот интерфейса для создания шаблонов.
Комментариев нет
оставить комментарий могут только авторизованные пользователи
Другие работы автора:
BRC Компании

BRC Компании Лучший проект использующий открытые данные России в 2017 :) Мой руководитель получила диплом из рук Антона Силуанова. Описать коротко вряд ли получится, но попробую. Сайт реализован на Laravel 5, использует в качестве баз данных PerconaSQL и Redis,…

BRC Маркет

BRC Маркет Площадка, наподобие Яндекс.Маркет. На данный момент такие клиенты как ОЗОН, Мегафон, Плеер. Площадка интегрирована в сервис BRC Компании, связь продавцов с юр.лицами и прочее облегчение жизни по заполнению реквизитов прилагаются. Полностью автомати…

Парсер сайта арбитражных судов России

Парсер сайта арбитражных судов России Этот функционал так и не попал в BRC Компании. Возможно, его внедрят со временем. Собрано более 30 миллионов арбитражных решений по спорам юридических лиц России. В качестве источника использовался официальный портал арбитражных судов http://kad.a…

Парсер сайта "ОГРН.онлайн"

Парсер сайта "ОГРН.онлайн" Конкуренты не дремлют :) Иногда дешевле купить прокси, заплатить разработчику и спарсить интересующие тебя данные, чем платить ещё раз 250 тысяч рублей ФНС за доступ к базе юр.лиц. По ОГРН "дергались" компании, данные записывались, извле…

Парсер Яндекс.Маркет

Парсер Яндекс.Маркет В рамках реализации проекта BRC Market требовалось наполнить базу товаров. Учитывая специфику площадки требование к товарам было одно: чем больше, тем лучше. Т.к. сама площадка подразумевала наличие карточки товара (база площадки) с которой соотносил…

Сборщик информации Uber

Сборщик информации Uber Сборщик информации Uber предназначен для сбора информации о водителях Uber. Собирает: имя водителя, телефон, марку автомобиля и номер, также фото. Экспортирует данные в виде таблицы. Работает на сервере без особых требований (php7.1/mysql5.7/curl). П…

Фактор Новости

Фактор Новости Новостной сайт. В принципе, описывать тут практически нечего. Сайт написан на Laravel 5, целиком от начала до конца. Некоторые функции не были закончены в связи с началом нового проекта, дальше у владельца не осталось ресурсов для поддержания работос…

International Bulletin

International Bulletin Сайт - 95% аналог Фактор Новости. Общий движок на Laravel 5, контент из парсеров. Главное отличие - сайт предназначался для зарубежной аудитории, поэтому он целиком переведён на английский. Есть версии и на других языках. Админка у всех одна. Как …