AI‑документооборот: OCR → структурирование полей → RAG‑чатбот с цитатами по PDF/сканам. MVP за 7 дней

Описание

Проект решает задачу «быстрого ответа по документам» для бизнеса: вместо ручного чтения отчётов/договоров система распознаёт текст и таблицы, нормализует данные и готовит точный ответ с обязательными цитатами источников (страница/раздел/якорь). Поддерживаются PDF/сканы/фото/DOCX. Цели: сократить время поиска 3–7×, снизить ошибки при переносе полей, дать прозрачные метрики (точность, задержка, стоимость запроса) и обеспечить приватность (on‑prem, без передачи наружу).

Ключевые возможности:
- OCR и layout‑анализ (текст/таблицы/печати) даже на «шумных» сканах (перекос, тени, низкий DPI);
- извлечение полей (даты, номера, ФИО) с нормализацией форматов и валидацией;
- RAG‑ответы по базе документов с цитатами и таймкодами/страницами;
- фильтры по разделам/датам/тегам, режимы «кратко/подробно/пошагово»;
- REST API и батч‑скрипты, экспорт отчётов (PDF/Markdown/CSV), ролевая модель доступа.

Решение

Архитектура пайплайна:
1) Приём: POST /api/v1/process (JSON base64 или multipart), ключ в Authorization, rate‑limit;
2) Предобработка: авторотация, выпрямление, CLAHE/денойз, обрезка фона;
3) OCR и таблицы: PaddleOCR/TrOCR + извлечение табличных структур (CSV/JSON);
4) Извлечение полей: правила ROI+regex+ключевые слова, справочники; проверки форматов;
5) Индексация для RAG: чанкование с метаданными (раздел, страница, заголовки), эмбеддинги, векторный поиск, переранжирование;
6) Генерация ответа: LLM с guardrails «только по источникам», обязательные цитаты, fallback «нет ответа в базе»;
7) Сервисный слой: FastAPI, очереди задач (Celery+Redis/RabbitMQ), логирование, мониторинг p95 latency, ретраи;
8) Безопасность: on‑prem, шифрование ключей, RBAC, журналы доступа, опциональная анонимизация.

Технологии: Python, FastAPI, PyTorch, OpenCV, PaddleOCR/TrOCR, FAISS/Qdrant, Celery, Redis/RabbitMQ, Docker, Prometheus/Grafana. Деплой локально или в облаке; поддержка GPU (CUDA) для ускорения OCR/эмбеддингов.

Результат

- Time‑to‑value: первые метрики за 1–3 дня, MVP за 7 дней;
- Качество: EM/F1 по ключевым полям 0.90–0.96 на согласованном тест‑наборе; доля ответов с цитатами ≥95%;
- Скорость: p95 задержка ответа 0.5–1.5 c при типовой длине документа; батч‑режим для массивов файлов;
- Снижение ручных операций и ошибок на 40–60% за счёт нормализации и ФЛК;
- Прозрачность: отчёты с метриками (relevancy, coverage, latency/запрос), чек‑листы эксплуатации;
- Поставляемые артефакты: репозиторий, модели/веса, индексы, конфиги, OpenAPI‑спека, docker‑compose, инструкция и видео‑гайд, 2 итерации правок.