Существующие новостные агрегаторы создают эффект информационной перегрузки и "думскроллинга". Нужна была альтернатива: система, которая собирает новости из 20 источников (10 Telegram-каналов + 10 RSS-лент), автоматически группирует дубли, выбирает факты, переписывает в нейтральном тоне и публикует 3 раза в день в фиксированные окна — утро, обед, вечер. Цель — дать читателю полноценную картину дня за 5 минут без бесконечной ленты.
Спроектировал пайплайн из 4 стадий:
1. Сбор — адаптеры к 20 источникам, нормализация в единый формат.
2. Кластеризация дублей — HDBSCAN на эмбеддингах заголовков, формирование тематических групп.
3. AI-рерайт — DeepSeek переписывает каждую группу в нейтральном фактологическом тоне с обязательным bias-check второй моделью.
4. Публикация — 3 фиксированных окна в день (06:00 / 14:03 / 21:00) с автопостингом.
Стек: Python, HDBSCAN, sentence-transformers, DeepSeek API, PostgreSQL, APScheduler, Telegram Bot API.
— Работающий продакшн-сервис, публикации идут по расписанию с 11 апреля 2026.
— 20 источников → 3 выпуска в день, 100% автоматический цикл без редактора.
— Дубли схлопываются с точностью >90%, bias-check отсекает предвзятые формулировки.
— Служит реальным кейсом для продажи RAG / контентной автоматизации клиентам.