Порядок выполнения работы:
• Понимание проблемы бизнеса
• Импорт данных и требуемых библиотек
• Очистка данных, восстановление, если необходимо пропущенных данных
• Проверка распределения данных с использованием статистических методов (например pandas profiling)
• Проведение EDA и визуализация отобранных параметров (влияющих на целевую переменную)
• Разделение набора данных на обучающую и тестовую выборку
• Выдвижение гипотезы о возможных применимых алгоритмах машинного обучения
• Обучение выбранных моделей (библиотека sklearn)
• Понимание выбранных параметров моделей, объяснить в комментариях
• Выполнение классификации или прогноза с использованием выбранной модели и тестовой выборки
• Оценить точность модели с использованием таких метрик как MAE, MSE, построить confusion matrix
• Выбрать наилучшую модель на основе вычисленных метрик
• Импорт необходимых библиотек: pandas, seaborn, plotly, matplotlib.pyplot , skealern
• Определить какие параметры имеют пропущенные значения
• Определить зависимость параметра с пропущенными значениями от прочих параметров и восстановить пропущенные значения
Задача:
• Задача классификации объектов. Фактически нужно отнести целевую переменную Iris к одному из трех классов. Набор данных в папке Iris исходных данных.
• Параметры:
• Sepal length / sepal width: длина и ширина чашелистика
• Petal length / petal width: длина и ширина лепестка
• Iris целевая категориальная переменная (iris sentosa, iris versicolor, iris virginica)
• Возможные модели: Логистическая регрессия, Дерево решений, К-ближайших соседей, Байевский классификатор, SVM
В Google Collab необходимо прописать еще и комментарии с выводами, бд скину в лс
| Гарантия на работу | 1 год |
| Средний балл | 4.54 |
| Стоимость | Назначаете сами |
| Эксперт | Выбираете сами |
| Уникальность работы | от 70% |