Используя платформу Data Science and Machine Learning (любую на выбор Knime, RapidMiner, Trifacta, Loginom) выполнить консолидацию данных кейса, провести очистку, трансформацию данных (ETL), выполнить preprocessing данных. Обучить и оценить по метрикам качества модели машинного обучения (использовать различные алгоритмы); сравнить полученные результаты. Обогатить данные кейса результатами машинного обучения (ABC-XYZ, RFM-анализ, задачи классификации, регрессии, кластеризации – одна или все на выбор исходя из данных кейса). Экспортировать подготовленный датасет в BigQuery (или в формате .csv в Google Drive).
В Colab (подключившись к BigQuery или используя подготовленный датасет .csv в Google Drive) провести EDA с использованием любую библиотеку Python (pandas-profiling, dataprep, Sweetviz или другую), обучить и сравнивать модели машинного обучения с использованием библиотеки scikit-learn (или LightGBM, XGBoost, CatBoost, h2o-3, AutoGluon, PyCaret используя алгоритмы регрессии, градиентного бустинга, случайного леса). Провести прогнозирование ответа лучшей модели на новых данных (сгенерировать самостоятельно используя исходные данные). Сравнить результаты полученные в платформах Data Science and Machine Learning.
Подключившись к BigQuery (или использовать подготовленный датасет) создать в Power BI Desktop выражения KPI с использованием выражений анализа данных (DAX), разработать несколько отчетов в Power BI, опубликовать его в корпоративном облачном сервисе Power BI. Выявить инсайты, оформить их в “закладках”, создать информационные панели мониторинга в Power BI. Провести машинное обучение. Сравнить результатами полученными в платформах DSML и Colab. Внедрить интерактивные отчеты в Colab.