Используемые инструменты:
SQL (ClickHouse), Python (PandaHouse, Pandas, NumPy, Matplotib, Seaborn, SciPy, Statsmodels).
Примечание: в работе оставлены исходные данные, предоставленные karpov.courses.
Ситуация:
В социальной сети (приложении) внедрены алгоритмы рекомендации постов в ленте новостей. Команда дата-сайентистов предложила новый алгоритм рекомендаций, который показывает в рекомендациях похожие на посты с like пользователя.
Основная гипотеза заключается в том, что новый алгоритм во 2-й группе приведет к увеличению CTR.
Необходимо проанализировать результаты эксперимента. В группе 2 был использован один из новых алгоритмов рекомендации постов, группа 1 использовалась в качестве контроля.
Задача:
Выбрать метод анализа и сравнить CTR в двух группах (t-тест, Пуассоновский бутстреп, тест Манна-Уитни, t-тест на сглаженном ctr (α=5) а также t-тест и тест Манна-Уитни поверх бакетного преобразования).
Сравнить данные этими тестами, просмотреть на распределения данных.
Напишите рекомендацию, будем ли мы раскатывать новый алгоритм на всех новых пользователей или все-таки не стоит.
Действия:
Выгружены данные из базы данных за экспериментальный и пред экспериментальный периоды, проведена проверка на наличие ошибок;
Проведен визуальный анализ данных, применены статистические критерии.
Дана рекомендация на основе проведенного анализа отказаться от внедрения нового алгоритма.
Результат:
Рекомендации:
От раскатывания нового алгоритма (рекомендации "похожих на лайкнутые постов") на всех пользователей следует отказаться.
Но учитывая, что для части пользователей наоборот стала более вовлеченной (увеличился 90% квантиль CTR), стоит более подробно изучить влияние нового алгоритма на часть пользователей.
Возможно у нас есть категория пользователей, для которой новый алгоритм дает лучшие результаты.