технологическая практика Витте

Выполнен
Заказ
5487047
Раздел
Программирование
Предмет
Python
Антиплагиат
Не указан
Срок сдачи
11 Июн 2023 в 19:00
Цена
Договорная цена
Блокировка
10 дней
Размещен
11 Июн 2023 в 10:56
Просмотров
147
Описание работы

–          Задача на практику – продемонстрировать способность к самостоятельному освоению и применению сторонних библиотек на примере программы, использующей связку pandas, matplotlib и numpy. По усмотрению практиканта, можно так же инсталлировать и другие библиотеки.

–          Получить или сгенерировать набор данных (dataset) в виде файла или файлов в формате *.csv. Задачей практики будет поиск закономерностей в выбранных данных. Данные можно брать любые, как сгенерированные уже существующей имеющейся в распоряжении практиканта программой, так и в готовом виде из доступных практиканту ресурсов (в том числе из Интернета с ресурсов типа kaggle.com).

–          Требования к набору данных:

o   данные объединены общей темой.

o   в исходной таблице должно быть не менее 800 рядов

o   данные необходимо согласовать с руководителем практики

Сформировать на основе полученного набора данных общий объект типа pandas.DataFrame. Вывести на  печать разные группы рядов и колонок итогового объекта.

–          Выполнить очистку данных от «цифрового мусора» (то есть неопределённых или не имеющих смысла записей). Строки с мусорными данными можно удалять или каким-то образом заполнять правильными данными (взяв, например, среднее значение или медиану в колонке). Удаление не должно нарушать минимальное требование по объёму.

–          Максимально привести данные в числовую форму (например, если в таблице есть колонка «пол» человека, то значения в ней должны стать 0 и 1).

–          Выполнить расчет и вывод в консоль (и текстовый файл) стандартных статистических характеристик по цифровым данным (среднее, медиана и прочие релевантные статистические характеристики).

–           Добавить данные, полученные в результате статистических вычислений, в отдельные колонки DataFrame.

–          Придумать 5 разных способов разделения данных по рассчитанным признакам (возможные варианты: по частоте, по распределению, по экономической целесообразности итд.). Определить, какие колонки и ряды данных относятся к какому распределению.

–          Выделить 5 новых DataFrame из старого, согласно выбранным способам разделения данных.

Написать сегменты отчёта, в которых коммуницировать результаты проделанной работы.–      Визуализировать данные разных статистических срезов с помощью библиотеки matplotlib. Использование этой библиотеки обязательно, но в дополнение к ней можно использовать и другие.

–      Объединить сгенерированные статистические данные в один набор с исходными данными, добавив соответствующие колонки в исходный DataFrame.

–      Выдвинуть 3 гипотезы, о том, каким образом можно предсказать значение одного из исходных столбцов исходного DataFrame на основе остальных, в том числе статистически рассчитанных.

–      Проверить эти гипотезы, написав функции такого рассчёта.

–      Протестировать их на своём DataFrame, определив количество относительный вес точных и неточных ответов.

–      Подумать, какие параметры могут быть у выбранной функции рассчёта и как можно эту функцию оптимизировать, подобрав наиболее подходящие параметры. Написать какой-то (может быть даже неудачный) алгоритм такой оптимизации.

Написать сегменты отчёта, в которых коммуницировать результаты проделанной работы.

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.54
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Время выполнения заказа:
8 часов 23 минуты
Выполнен
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир