1) Собрать полную ленту пресс‑релизов US EPA за многие годы.
2) Собрать текущие и архивные пресс‑релизы DHS
3) Собрать архив корпоративных новостей Freddie Mac
Реализован скрапер, который обходит текущую ленту и несколько архивных разделов, собирает ссылки и HTML‑страницы, сохраняет их в файловое и табличное хранилище, а также имеет отдельный режим выборки релизов по экологической тематике. Используемые разделы:
1) текущие релизы (`https://www.epa.gov/newsreleases/`), поиск по годам (`https://www.epa.gov/newsreleases/search/year/2021/year/2020/year/2019?search_api_views_fulltext=`), архив (`https://archive.epa.gov/epa/newsroom/`),
2) текущие релизы (`https://www.dhs.gov/news-releases/press-releases?items_per_page=200&page=0`), архив пресс‑релизов (`https://www.dhs.gov/archive/news-releases/press-releases`).
3) инвесторские новости Freddie Mac (`https://freddiemac.gcs-web.com/`).
Создан локальный архив пресс‑релизов US EPA за длительный период, с возможностью фильтровать материалы по годам и тематикам и использовать их для внутренней аналитики, не завися от структуры сайта.
Получен централизованный архив пресс‑релизов DHS (текущих и архивных), который удобно индексировать, искать по темам/периодам и использовать в собственных аналитических витринах.
Сформирован собственный архив новостей Freddie Mac в структурированном виде, что позволяет анализировать инфоповоды по времени и тематике и использовать данные в дашбордах для финансовой аналитики.