Проект автоматизирует подготовку карточек товаров: проверяет качество фотографий, извлекает и нормализует атрибуты, генерирует описания и переводы в тоне бренда, выявляет дубликаты и похожие товары. Поддерживается массовая обработка (десятки тысяч фото), интеграция с CMS/CRM и отчётность по метрикам. Ценность: ускорение публикации 3–8×, снижение ошибок атрибутов 30–50%, рост CTR карточек 5–12% за счёт лучшего контента и релевантности поиска.
Архитектура и этапы:
1) Импорт/валидация: файлы/ссылки/ZIP → проверка форматов, дедупликация.
2) Препроцессинг: авто‑кроп, выравнивание, нормализация, оценка резкости/разрешения, фон‑чек.
3) Фото‑QC: детекция объекта (YOLOv8), позиция/масштаб, фон/водяные знаки/NSFW; отчёт и рекомендации.
4) Категоризация: ViT/Swin → дерево категорий + бизнес‑правила.
5) Атрибуты: визуальные (цвет/паттерн/материал) + текстовые (из названий/описаний) c LLM; нормализация к справочникам.
6) Описания/SEO: генерация кратких/полных описаний, буллетов выгод, мета‑тегов; контроль тона бренда (prompt‑шаблоны/RAG по гайдам).
7) Переводы: RU/EN/ES … с глоссариями и проверкой чисел/единиц.
8) Визуальный поиск и дубли: CLIP‑эмбеддинги + FAISS, перцептуальный хеш.
9) Вывод: REST API (FastAPI), батч‑скрипты, экспорт CSV/JSON, веб‑хуки в CMS/CRM.
10) MLOps/качество: MLflow/DVC, отчёты (accuracy/F1 по атрибутам, relevancy поиска, latency/стоимость), A/B‑тесты; GPU‑ускорение, батчинг, кеш.
Технологии: Python, PyTorch, Transformers, YOLOv8, OpenCV, BLIP, CLIP, FAISS, FastAPI, Redis, Pandas, MLflow/DVC, Docker, CUDA.
- Скорость публикации: ускорение 3–8×, массовая обработка 50k+ фото.
- Категоризация/атрибуты: F1 0.85–0.95 на согласованном тест‑наборе; −30–50% ошибок атрибутов.
- Контент: +5–12% CTR карточек за счёт фото‑QC, точных атрибутов и SEO‑описаний.
- Поиск: улучшение relevancy/времени на странице через визуальный поиск и кросс‑селл.
- Поставляемые артефакты: обученные модели/веса, эмбеддинги, пайплайны и API, отчёты с метриками и карточками примеров, инструкции/чек‑листы, онбординг.