Система анализа пользовательских отзывов из социальных сетей и рейтинговых площадок для выявления ключевых проблем бизнеса

ИТ и Разработка

Система анализа пользовательских отзывов из социальных сетей и рейтинговых площадок для выявления ключевых проблем бизнеса

Используемые навыки:

Data Modeling

Data Structures

Python

Документация

Система анализа пользовательских отзывов из социальных сетей и рейтинговых площадок для выявления ключевых проблем бизнеса

Описание
Решение
Результат
Соавторы
Презентация проекта
Примеры реализации

Описание

Задачей было собирать мнение пользователей о компаниях по популярным площадкам (VK, telegram, YandexMaps, GoogleMaps, etc.) и выявлять на что жалуются пользователи

Решение

Сперва был проведён анализ существующих решений.
Было просмотрено более десятка сервисов и выявлено следующее: БОльшая часть Open-source проектов давно заброшена, а та, что хоть как-то обновляется — предлагает лишь простой сбор без анализа.
Платные же решения тоже в основном направлены на сбор, без выявления проблем.

После была разработана система парсинга. Выявлены необходимые данные и выделено две категории источников: с рейтингами, отзывы в которых можно было фильтровать по оценкам, и без рейтингов, где необходимо было использовать LLM модель.
Для последних была определена модель для фильтрации отзывов по тональности. Было проведено несколько тестов, в резу. В итоге был выбран компромиссный вариант между скоростью работы, качеством по F1 и длиной контекста (в выбранную модель помещается 1024 токена, что покрывало 97% сообщений).

В конце был подбор структуры вывода LLM и самой LLM, чтобы они суммаризировали тексты и проводили классификацию по меткам.

В самом проекте я делал большую часть парсеров, продумал и реализовал структуру проекта (абстракции, зависимости, документацию и т. д.), а также чутка подсобил с кластеризацией.

Результат

В результате получился модуль на Python, способный получить комментарии, выбрать из них лишь негативные и из них сформировать красивый отчёт, представив его в pdf формате

Работа выполнена в соавторстве

Глущенко Сергей — Делал и тестил части с ИИ-шкой (генерация отчёта, подбор LLM с Hugging Face и их тестирование на Kaggle а также кластеризация) (https://github.com/Tyferse)

Ссылки на примеры реализации

github.com/Jrol123/Social-scan

Система анализа пользовательских отзывов из социальных сетей и рейтинговых площадок для выявления ключевых проблем бизнеса

Артемий Поповкин jrol