Детекция карт в реальном времени для игры в blackjack

Используемые навыки:

Описание
Решение
Результат
Соавторы
Презентация проекта
Примеры реализации

Описание

Проект был направлен на разработку высокоточной системы компьютерного зрения для распознавания и классификации объектов в режиме реального времени. Основная цель заключалась в создании модели, способной идентифицировать 13 различных классов объектов с максимальной точностью и минимальной задержкой для интеграции в существующую платформу автоматизации клиента.
Задача требовала решения нескольких ключевых проблем: обработка изображений различного качества и разрешения, достижение высокой точности распознавания при минимизации ложных срабатываний, оптимизация модели для работы в условиях ограниченных вычислительных ресурсов. Важным аспектом являлась адаптация передовой архитектуры YOLOv12 под конкретные требования заказчика и специфику объектов распознавания.
Особое внимание уделялось подготовке данных и аугментации для повышения робастности модели, а также оптимизации гиперпараметров для достижения максимальной производительности. Проект также включал разработку механизмов для простой интеграции обученной модели в существующую инфраструктуру заказчика и создание процедур для периодического дообучения на новых данных.

Решение

Для решения поставленной задачи был использован комплексный подход, включающий несколько ключевых этапов:

Подготовка и предобработка данных:

Проведена стандартизация изображений до единого размера 640x640 пикселей для оптимальной работы с YOLOv12
Разработана система кодирования классов для преобразования текстовых меток в числовые идентификаторы
Выполнен анализ распределения классов в наборе данных для выявления дисбаланса и принятия соответствующих мер

Выбор и настройка базовой архитектуры:

В качестве основы выбрана современная архитектура YOLOv12, обеспечивающая оптимальный баланс между скоростью и точностью
Проведено сравнительное тестирование версий моделей различной сложности (YOLOv12s и YOLOv12m)
Адаптирована архитектура под специфику решаемой задачи с учетом особенностей распознаваемых объектов

Оптимизация гиперпараметров:

Реализован процесс автоматического подбора гиперпараметров с использованием двух стратегий:

Широкий поиск по большому пространству параметров (200 итераций с меньшим числом эпох)
Глубокий поиск по уточненному пространству (40 итераций с большим числом эпох)

Оптимизированы параметры оптимизатора (скорость обучения, моментум, регуляризация)
Настроены веса компонентов функций потерь для улучшения баланса между локализацией и классификацией

Обучение модели и аугментация данных:

Применены разнообразные методы аугментации для повышения устойчивости модели:

Трансформации цветового пространства (HSV)
Геометрические преобразования (поворот, масштабирование, смещение)
Продвинутые техники (мозаичная аугментация, горизонтальное отражение)

Проведено обучение модели на протяжении 500 эпох с сохранением промежуточных весов для последующего анализа
Реализован механизм ранней остановки для предотвращения переобучения

Валидация и тестирование:

Применена строгая стратегия оценки качества с использованием метрик mAP50 и mAP50-95
Проведен детальный анализ производительности для каждого класса объектов
Оптимизированы параметры постобработки (NMS) для минимизации дублирующих детекций

Результат

Результаты проекта оказались впечатляющими и значительно превзошли первоначальные ожидания заказчика. Основные достижения:

Высокая точность распознавания:

Достигнута предельно высокая точность (precision) 98.5% и полнота (recall) 98.1%
Показатель mAP50 составил 98.7%, что свидетельствует о превосходном качестве локализации и классификации объектов
Значение mAP50-95 достигло 63.5%, что является отличным результатом для задач точной локализации

Сбалансированная производительность:

Модель демонстрирует стабильно высокие результаты на всех 13 классах объектов с показателями mAP в диапазоне от 59.5% до 65.7%
Достигнут оптимальный баланс между точностью и скоростью обработки, позволяющий использовать систему в реальном времени
Средняя скорость обработки одного изображения составляет менее 15 мс, что превосходит требования заказчика

Практическое применение:

Система успешно интегрирована в производственную платформу заказчика и используется для автоматизации ключевых бизнес-процессов
Разработанное решение позволило значительно сократить количество ошибок и повысить эффективность работы операторов
Модель работает стабильно в различных условиях освещения и при наличии частичных перекрытий объектов

В соответствии с соглашением о неразглашении (NDA), заключенным с заказчиком, подробные детали реализации, полный код решения и специфика использования в бизнес-процессах не могут быть опубликованы. Также не могут быть предоставлены ссылки на репозиторий с кодом и примеры распознаваемых объектов.
Система продолжает развиваться и регулярно обновляется на основе накопленных новых данных, что обеспечивает её адаптацию к изменяющимся условиям и поддержание высокого уровня производительности. Заказчик высоко оценил качество решения и планирует расширение его применения на дополнительные производственные линии.

Детекция карт в реальном времени для игры в blackjack

Андрей Корчемкин aak204