Нужно написать часть проекта(35-45 страниц), желательно писать на python.
в файлах кинул датасет
Описание и анализ датасета
Структура данных: числовые и категориальные признаки, целевая переменная (loan_status).
Выявление дисбаланса классов (дефолты vs. успешные выплаты).
Разведочный анализ (EDA)
Визуализация распределений (гистограммы, box-plot).
Корреляционный анализ, поиск выбросов и пропусков.
Предобработка данных
Обработка пропусков (удаление/импутация).
Кодирование категориальных переменных.
Нормализация числовых признаков.
Балансировка данных (SMOTE, Random Undersampling).
Выбор алгоритмов и метрик
Обоснование выбора ROC-AUC и F1-Score для дисбалансированных данных.
Тестируемые модели:
Базовые: логистическая регрессия, SVM.
Ансамбли: Random Forest, XGBoost.
Обучение и валидация моделей
Разделение данных на train/test/validation.
Кросс-валидация и настройка гиперпараметров (GridSearch).
Анализ результатов
Сравнение метрик на тестовой выборке.
ROC-кривые и матрицы оши...
Видеть полную информацию и оставлять заявки могут только авторизованные пользователи.
Добрый день!
О себе: окончила факультет информационных технологий, работаю java backend разработчиком, преподаю олимпиадное программирование используя язык python. В вузе проходила курс по анализу данных.
Готова выполнить задания за 7 дней в google colab или jupiter notebook
Добрый день. Занимаюсь машинным и глубоким обучением. Специализируюсь в том числе на Data Science. Занимался разработкой моделей нелинейного и линейного типа, в том числе и ансамблей для прогнозирования данных в различных целях с предварительной обработкой в виде различного шкалирования, нормализации, отбора и выделения признаков. Также занимался увеличением точности алгоритмов прогнозирования с помощью ансамблевых методов. Давайте обсудим.
Оставлять заявки могут только авторизованные пользователи.
Анализ данных
Реклама
Анализ данных
Нужно написать часть проекта(35-45 страниц), желательно писать на python.
в файлах кинул датасет
Описание и анализ датасета
Структура данных: числовые и категориальные признаки, целевая переменная (loan_status).
Выявление дисбаланса классов (дефолты vs. успешные выплаты).
Разведочный анализ (EDA)
Визуализация распределений (гистограммы, box-plot).
Корреляционный анализ, поиск выбросов и пропусков.
Предобработка данных
Обработка пропусков (удаление/импутация).
Кодирование категориальных переменных.
Нормализация числовых признаков.
Балансировка данных (SMOTE, Random Undersampling).
Выбор алгоритмов и метрик
Обоснование выбора ROC-AUC и F1-Score для дисбалансированных данных.
Тестируемые модели:
Базовые: логистическая регрессия, SVM.
Ансамбли: Random Forest, XGBoost.
Обучение и валидация моделей
Разделение данных на train/test/validation.
Кросс-валидация и настройка гиперпараметров (GridSearch).
Анализ результатов
Сравнение метрик на тестовой выборке.
ROC-кривые и матрицы оши...