Практическое задание (кейс №1)
Данные представляют собой csv-файл , содержащий значения 96 признаков для 6819 объектов. Файл находится по ссылке (или можно скачать отсюда, если не хотите регистрироваться на kaggle).
Первая переменная "Bankrupt?" является зависимой переменной Y, которая принимает значения 0, если объект не является банкротом, или 1, если является банкротом. Остальные переменные X1, X2,..., X95 являются независимыми и используются для проведения классификации.
В рамках кейса необходимо:
1) ознакомиться с данными, при необходимости выполнить нормализацию любым способом, проверить наличие пропусков и устранить при необходимости;
2) разбить набор данных на обучающую и тестовую выборки любым способом (случайная выборка или разделить вручную);
3) классификация логистической регрессией:
для зависимой переменной Y и набора факторов {X16, X18, X19, X37, X42, X46, X50, X57, X74, X81} с помощью функции glm (family = "binomial") нужно построить логистическую регрессию, прогнозирующую вероятность банкротства компании;
если в модели оказались незначимые факторы, их нужно устранить по одному;
с помощью функции predict(type="response") спрогнозировать вероятность банкротства для двух произвольно выбранных из набора компаний (банкрота и небанкрота) - для решения нужно выбрать эти объекты в отдельный набор и выполнить прогнозирование для них, либо проанализировать результаты прогнозирования по тестовой выборке и выбрать любые 2 объекта;
при желании можно повторить расчет для других аргументов - отбор факторов можно провести методом включения, исключения или воспользоваться результатами в других ноутбуках на kaggle.com.
4) классификация методом k ближайших соседей:
с помощью функции knn из пакета class провести бинарную классификацию объектов (учитывая, что "Bankrupt?" - зависимая переменная);
с помощью функции CrossTable из пакета gmodels построить матрицу неточностей и найти в ней количество ложно определенных банкротов.
При необходимости можно воспользоваться примером решения по ссылке.
| Гарантия на работу | 1 год |
| Средний балл | 4.54 |
| Стоимость | Назначаете сами |
| Эксперт | Выбираете сами |
| Уникальность работы | от 70% |