СОДЕРЖАНИЕ
1 Введение 3
2 Анализ 7
2.1. Обзор аналогичных решений 7
2.2 Предварительный анализ данных 7
2.3 Выбор алгоритмов и их обоснование кратко и подробно 8
2.4 Ссылки на код анализа 9
3 Методика решения 10
3.1 Предобработка данных и очистка 10
3.2 Разделение данных 11
3.3 Построение моделей 11
3.4 Параметры и обоснование выбора 11
4 Данные и предобработка 12
4.1 Источники и структура 12
4.2 Очистка 12
4.3 Инженерия признаков 12
4.4 Отбор признаков 12
5 Разведочный анализ 14
5.1 Средняя загрузка по дням недели 14
5.2 Длительность стоянки 15
5.3 Корреляции 16
5.4 Важность признаков 17
6 Методология 18
6.1 Регрессия 18
6.2 Временные ряды 18
6.3 Классификация перегрузки 18
6.4 Asymmetric Loss 18
6.5 Тюнинг и переобучение 18
7 Результаты 19
7.1 Качество моделей 19
7.2 Сравнение подходов 19
7.3 Устойчивость к шумам и выбросам 19
7.4 Практическое применение 20
8 Результаты регрессии 21
8.1 Диагностика остатков 22
9 Результаты временных рядов 23
9.1 Метрики 23
9.2 Интерпретация тестового прогноза 23
9.3 Годовой прогноз (Prophet, LSTM) 25
9.4 Пример месячного прогноза (April-2024) 25
10 Результаты классификации (перегрузка / нет) 26
10.1 Оптимизация порога по F1 26
10.2 Сравнение моделей (дефолтный порог 0.5) 27
10.3 ROC-кривые 28
10.4 Asymmetric Loss 29
11 Монте–Карло: риск при увеличении числа пользователей 30
11.1 Глобальная кривая риска 30
11.2 Почасовая теплокарта риска 31
12 Определение порогов, переобучение, робастность 32
13 Ограничения и направления развития 33
13.1 Ограничения 33
13.2 Развитие 33
Заключение 34
Приложения (14 штук)