Задачей было собирать мнение пользователей о компаниях по популярным площадкам (VK, telegram, YandexMaps, GoogleMaps, etc.) и выявлять на что жалуются пользователи
Сперва был проведён анализ существующих решений.
Было просмотрено более десятка сервисов и выявлено следующее: БОльшая часть Open-source проектов давно заброшена, а та, что хоть как-то обновляется — предлагает лишь простой сбор без анализа.
Платные же решения тоже в основном направлены на сбор, без выявления проблем.
После была разработана система парсинга. Выявлены необходимые данные и выделено две категории источников: с рейтингами, отзывы в которых можно было фильтровать по оценкам, и без рейтингов, где необходимо было использовать LLM модель.
Для последних была определена модель для фильтрации отзывов по тональности. Было проведено несколько тестов, в резу. В итоге был выбран компромиссный вариант между скоростью работы, качеством по F1 и длиной контекста (в выбранную модель помещается 1024 токена, что покрывало 97% сообщений).
В конце был подбор структуры вывода LLM и самой LLM, чтобы они суммаризировали тексты и проводили классификацию по меткам.
В самом проекте я делал большую часть парсеров, продумал и реализовал структуру проекта (абстракции, зависимости, документацию и т. д.), а также чутка подсобил с кластеризацией.
В результате получился модуль на Python, способный получить комментарии, выбрать из них лишь негативные и из них сформировать красивый отчёт, представив его в pdf формате
Глущенко Сергей — Делал и тестил части с ИИ-шкой (генерация отчёта, подбор LLM с Hugging Face и их тестирование на Kaggle а также кластеризация) (https://github.com/Tyferse)