В рамках индивидуального проекта необходимо выбрать один или несколько наборов данных из открытых источников — например, Kaggle, Росстат, data.gov.ru, Eurostat или World Bank Open Data. Далее следует провести полный исследовательский анализ данных (EDA), сформулировать исследовательский вопрос и показать, как с помощью инструментов Python можно получить на него осмысленный ответ.
В качестве примера можно изучить факторы, влияющие на формирование цены квартиры, если выбран датасет с рынком недвижимости. В этом случае требуется последовательно выполнить очистку и предварительную обработку данных, визуализировать ключевые зависимости с использованием различных типов графиков (распределения, диаграммы рассеяния, боксплоты, тепловые карты), а затем построить регрессионную модель — например, множественную линейную регрессию — чтобы количественно оценить вклад каждого фактора.
Проект должен включать:
1. Описание исследовательского вопроса
Чёткая формулировка того, что именно вы хотите узнать.
Примеры:
– Какие характеристики сильнее всего определяют цену квартиры?
– Как доходность образовательных программ зависит от характеристик рынка труда?
– Как изменяется качество воздуха в зависимости от времени года и структуры промышленности?
2. Описание набора данных
Источник, структура, количество наблюдений, объяснение значений переменных.
3. Очистку и подготовку данных
– обработка пропусков;
– приведение типов;
– нормализация и масштабирование;
– создание новых переменных;
– работа с категориальными признаками.
4. EDA — исследовательский анализ данных
– описательная статистика (describe());
– value_counts() для категориальных переменных;
– визуализации (гистограммы, scatterplots, boxplots, heatmap);
– выявление выбросов и закономерностей.
5. Моделирование
– простая или множественная линейная регрессия (или иной подход по выбору студента);
– оценка модели: коэффициенты, R2, MSE;
– проверка допущений модели через остатки и графики.
6. Интерпретация результатов
– объяснение полученных коэффициентов;
– проверка статистической значимости;
– выводы в контексте исследовательского вопроса.
7. Заключение
– формулировка основного результата;
– ограничения исследования;
– возможные направления дальнейшего анализа.
Работа должна быть представлена в формате Jupyter Notebook с чистым, читаемым кодом, достаточной визуализацией и подробными пояснениями каждого шага. Итоговая версия проекта должна быть полностью воспроизводимой и сопровождаться README.md с описанием структуры и инструкциями по запуску.
| Гарантия на работу | 1 год |
| Средний балл | 4.54 |
| Стоимость | Назначаете сами |
| Эксперт | Выбираете сами |
| Уникальность работы | от 70% |