Прогнозирование успеваемости студентов
В данной задаче вам предстоит разработать модель машинного обучения для прогнозирования успеваемости студентов, взаимодействующих с электронной образовательной средой.
Описание данных
Для работы предоставляются следующие наборы данных:
Тренировочные данные
- train_info.csv: содержит общую информацию о студентах, участвовавших в эксперименте по оценке успеваемости при взаимодействии в электронной среде.
- train_reg.csv: включает информацию о своевременности регистрации студентов и длительности образовательного модуля.
- train_vle.csv: предоставляет сводную статистику по активностям студентов в рамках электронной образовательной платформы.
- y_train_reg.csv: содержит значения целевой переменной weighted_score для тренировочных данных.
Тестовые данные
- test_info.csv, test_reg.csv, test_vle.csv: соответствующие тестовые наборы данных.
Данные доступны по ссылкам:
Пример файла-результата:
Задача
Вам необходимо:
- Проанализировать предоставленные данные и выбрать наиболее информативные признаки для решения задачи регрессии.
- Выполнить предварительную обработку данных, включая обработку пропущенных значений.
- Обучить модель машинного обучения для предсказания целевой переменной weighted_score, которая представляет оценку студента по стобалльной шкале.
- Сделать предсказания для тестовых данных и сохранить результаты.
Требования к решению
Необходимо реализовать функцию predict_student_performance. Функция должна:
- Загружать данные из всех указанных файлов
- Выполнять необходимую обработку данных
- Обучать модель регрессии
- Делать предсказания для тестовых данных
- Сохранять предсказания в файл output_path в формате CSV с двумя столбцами: id студента и weighted_score
Критерии оценки
Качество модели будет оцениваться по коэффициенту детерминации (R²). Для успешного решения задачи необходимо достичь значения R² не менее 0.75 на тестовой выборке.