Проблемные задачи (начальный уровень)

Раздел
Программирование
Предмет
Просмотров
209
Покупок
1
Антиплагиат
Не указан
Размещена
25 Мар в 16:15
ВУЗ
Не указан
Курс
Не указан
Стоимость
300 ₽
Демо-файлы   
1
jpg
DEMO
136.5 Кбайт
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
zip
Проблемные задачи Insurance
541.3 Кбайт 300 ₽
Описание

Задание

  1. Загрузите набор данных. Выведите голову таблицы (метод head), информацию о наборе данных (метод info). Подготовьте описание набора данных в указанном виде (см. рисунок ниже). Для перевода англоязычных названий можно использовать онлайн-переводчики. При наличии нескольких вариантов перевода выбирать подходящий исходя из здравого смысла.
  2. Подготовьте набор данных для последующего анализа. Для этого выполните следующие действия: Поскольку большинство наборов данных хранятся в упорядоченном виде, перед началом анализа перемешайте наборы. Выясните, имеются ли пропуски данных в каких-либо столбцах. При наличии удалите эти столбцы или заполните пропущенные значения. Проанализируйте распределение числовых переменных, а также порядковых категориальных признаков. Используйте графики и статистические функции. Выясните, есть ли выбросы и аномальные значения. При необходимости удалите их. Постройте матрицу корреляции. Напишите выводы по каждому этапу подготовки данных.
  3. Выберите столбцы Х и у для решения задачи линейной регрессии (поиска зависимости у от Х). Обоснуйте свой выбор. Разбейте выборку на обучающую и тестовую, размер тестовой выборки должен составлять 20-30% от всех данных. Обучите модель линейной регрессии на обучающей выборке и выполните предсказание y в зависимости от Х на тестовой выборке.
  4. Проверьте точность работы модели. Для этого выберите подходящие метрики сравнения реальных и предсказанных значений и вычислите значения этих метрик. Постройте график, на котором отображаются реальные значения и линия регрессии (см. рисунок ниже). Сделайте вывод.
  5. Оформите решение, добавив текстовые пояснения перед каждой ячейкой и выводы в конце каждого этапа работы.

В работе используется датасет insurance со следующими признаками:

Количество записей: 1338

Количество параметров (столбцов): 7

Описание параметров (столбцов):

1. age: int64: возраст

2. sex: object: пол

3. bmi: float64: индекс массы тела

4. children: int64: количество детей

5. smoker: object: курение (да/нет)

6. region: object: регион

7. charges: float64: медицинские расходы оплачиваемые страховкой

В архиве находится ipynb файл с кодом и результатами работы (подходит как для Google Colab, так и для Jupyter Notebook), а также результаты в виде PDF файла этого блокнота и используемый набор данных

Если Вам нужные любые подобные работы, то можете просто написать мне)

Вам подходит эта работа?
Похожие работы
Другие работы автора
Темы журнала
Показать ещё
Прямой эфир