Антон
Был на сайте: 30.01.2021 14:26

Антон Pakkard

Паспорт не верифицирован

Парсер Яндекс.Новости 

  • 163
  • Опубликовано: 2017-10-06
Парсер разработан как два java-приложения. Первое парсит напрямую Яндекс.Новости. В него забиты данные о категориях новостей и регионах, в которых требуется их парсить, а также статус категории в данном регионе (требуется ли парсить или нет). В данной реализации парсер не прекращает работу, лишь уходят в спячку на заданный в административной панели срок (от 3 до 5 минут на каждую итерацию).

Данный парсер собирает ссылку на источник новости, её название, данные о категории и дате размещения новости. Эта инф. складывается в служебную таблицу.

Проблему парсинга тысяч новостных ресурсов я решил следующим путём - был разработан универсальный парсер, который принимает в качестве значения ссылку на новость, регулярным выражением выдергивает название ресурса, ищет в базе шаблонов (об этом далее) шаблон этого сайта и выкачивает информацию по шаблону, складывая её напрямую в базу новостного сайта.

По поводу шаблонов - они задавались для каждого новостного сайта-партнёра Яндекса. Шаблон текстовый - указывает в каких тегах искать текст новости. Шаблон медийный - где искать изображение. В парсере было реализовано много крутых функций, о которых не позволяет написать объем описания. В приложении скриншот интерфейса для создания шаблонов.
Комментариев нет
оставить комментарий могут только авторизованные пользователи
Другие работы автора:
BRC Компании

BRC Компании Лучший проект использующий открытые данные России в 2017 :) Мой руководитель получила диплом из рук Антона Силуанова. Описать коротко вряд ли получится, но попробую. Сайт реализован на Laravel 5, использует в качестве баз данных PerconaSQL и Redis,…

BRC Маркет

BRC Маркет Площадка, наподобие Яндекс.Маркет. На данный момент такие клиенты как ОЗОН, Мегафон, Плеер. Площадка интегрирована в сервис BRC Компании, связь продавцов с юр.лицами и прочее облегчение жизни по заполнению реквизитов прилагаются. Полностью автомати…

Парсер сайта "ОГРН.онлайн"

Парсер сайта "ОГРН.онлайн" Конкуренты не дремлют :) Иногда дешевле купить прокси, заплатить разработчику и спарсить интересующие тебя данные, чем платить ещё раз 250 тысяч рублей ФНС за доступ к базе юр.лиц. По ОГРН "дергались" компании, данные записывались, извле…

Парсер сайта арбитражных судов России

Парсер сайта арбитражных судов России Этот функционал так и не попал в BRC Компании. Возможно, его внедрят со временем. Собрано более 30 миллионов арбитражных решений по спорам юридических лиц России. В качестве источника использовался официальный портал арбитражных судов http://kad.a…

Парсер Яндекс.Маркет

Парсер Яндекс.Маркет В рамках реализации проекта BRC Market требовалось наполнить базу товаров. Учитывая специфику площадки требование к товарам было одно: чем больше, тем лучше. Т.к. сама площадка подразумевала наличие карточки товара (база площадки) с которой соотносил…

Фактор Новости

Фактор Новости Новостной сайт. В принципе, описывать тут практически нечего. Сайт написан на Laravel 5, целиком от начала до конца. Некоторые функции не были закончены в связи с началом нового проекта, дальше у владельца не осталось ресурсов для поддержания работос…

Прототип приложения BRC Компании

Прототип приложения BRC Компании Приложение для BRC Компании. На момент заключительного этапа разработки, команду перебросили на создание нового сервиса BRC Маркет, как у старшего разработчика у меня добавилось огромное количество головной боли, и времени закончить разработку прост…

Сборщик информации Uber

Сборщик информации Uber Сборщик информации Uber предназначен для сбора информации о водителях Uber. Собирает: имя водителя, телефон, марку автомобиля и номер, также фото. Экспортирует данные в виде таблицы. Работает на сервере без особых требований (php7.1/mysql5.7/curl). П…