Контрольная, Методы анализа и прогнозирования данных

Отменен
Заказ
4985017
Раздел
Экономические дисциплины
Антиплагиат
Не указан
Срок сдачи
23 Окт 2022 в 19:55
Цена
Договорная цена
Блокировка
10 дней
Размещен
18 Окт 2022 в 15:08
Просмотров
82
Описание работы

Практическое задание (кейс №1)

Данные представляют собой csv-файл , содержащий значения 96 признаков для 6819 объектов. Файл находится по ссылке (или можно скачать отсюда, если не хотите регистрироваться на kaggle).


Первая переменная "Bankrupt?" является зависимой переменной Y, которая принимает значения 0, если объект не является банкротом, или 1, если является банкротом. Остальные переменные X1, X2,..., X95 являются независимыми и используются для проведения классификации.


В рамках кейса необходимо:


1) ознакомиться с данными, при необходимости выполнить нормализацию любым способом, проверить наличие пропусков и устранить при необходимости;


2) разбить набор данных на обучающую и тестовую выборки любым способом (случайная выборка или разделить вручную);


3) классификация логистической регрессией:


для зависимой переменной Y и набора факторов {X16, X18, X19, X37, X42, X46, X50, X57, X74, X81} с помощью функции glm (family = "binomial") нужно построить логистическую регрессию, прогнозирующую вероятность банкротства компании;

если в модели оказались незначимые факторы, их нужно устранить по одному;

с помощью функции predict(type="response") спрогнозировать вероятность банкротства для двух произвольно выбранных из набора компаний (банкрота и небанкрота) - для решения нужно выбрать эти объекты в отдельный набор и выполнить прогнозирование для них, либо проанализировать результаты прогнозирования по тестовой выборке и выбрать любые 2 объекта;

при желании можно повторить расчет для других аргументов - отбор факторов можно провести методом включения, исключения или воспользоваться результатами в других ноутбуках на kaggle.com.

4) классификация методом k ближайших соседей:


с помощью функции knn из пакета class провести бинарную классификацию объектов (учитывая, что "Bankrupt?" - зависимая переменная);

с помощью функции CrossTable из пакета gmodels построить матрицу неточностей и найти в ней количество ложно определенных банкротов.

При необходимости можно воспользоваться примером решения по ссылке.

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.54
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир