Прогнозирование успеваемости студентов
В данной задаче вам предстоит разработать модель машинного обучения для прогнозирования успеваемости студентов, взаимодействующих с электронной образовательной средой.
Описание данных
Для работы предоставляются следующие наборы данных:
Тренировочные данные
train_info.csv: содержит общую информацию о студентах, участвовавших в эксперименте по оценке успеваемости при взаимодействии в электронной среде.
train_reg.csv: включает информацию о своевременности регистрации студентов и длительности образовательного модуля.
train_vle.csv: предоставляет сводную статистику по активностям студентов в рамках электронной образовательной платформы.
y_train_reg.csv: содержит значения целевой переменной weighted_score для тренировочных данных.
Тестовые данные
test_info.csv, test_reg.csv, test_vle.csv: соответствующие тестовые наборы данных.
Данные доступны по ссылкам:
https://edu.mipt.ru/_data/67f7d46d693b1_train_info.csv
https://edu.mipt.ru/_data/67f7d46dbab14_train_reg.csv
https://edu.mipt.ru/_data/67f7d46ded787_train_vle.csv
https://edu.mipt.ru/_data/67f7d46e28197_y_train_reg.csv
https://edu.mipt.ru/_data/67f7d46e72040_test_info.csv
https://edu.mipt.ru/_data/67f7d46e9cc48_test_reg.csv
https://edu.mipt.ru/_data/67f7d46eb3e51_test_vle.csv
Пример файла-результата:
https://edu.mipt.ru/_data/67f7d46e54d58_submission_reg.csv
Задача
Вам необходимо:
Проанализировать предоставленные данные и выбрать наиболее информативные признаки для решения задачи регрессии.
Выполнить предварительную обработку данных, включая обработку пропущенных значений.
Обучить модель машинного обучения для предсказания целевой переменной weighted_score, которая представляет оценку студента по стобалльной шкале.
Сделать предсказания для тестовых данных и сохранить результаты.
Требования к решению
Необходимо реализовать функцию predict_student_performance. Функция должна:
Загружать данные из всех указанных файлов
Выполнять необходимую обработку данных
Обучать модель регрессии
Делать предсказания для тестовых данных
Сохранять предсказания в файл output_path в формате CSV с двумя столбцами: id студента и weighted_score
Критерии оценки
Качество модели будет оцениваться по коэффициенту детерминации (R²). Для успешного решения задачи необходимо достичь значения R² не менее 0.75 на тестовой выборке.
| Гарантия на работу | 1 год |
| Средний балл | 4.54 |
| Стоимость | Назначаете сами |
| Эксперт | Выбираете сами |
| Уникальность работы | от 70% |