Анализ данных. Ахтямов Павел. Spark RDD. — Купить готовую лабораторную работу по дисциплине №572633

Главная

Магазин

Лабораторная работа

Информатика

Анализ данных. Ахтямов Павел. Spark RDD.

Tipp-ex

Был(а) на сайте 15 дней назад

Раздел

Программирование

Предмет

Информатика

Тип

Лабораторная работа

Просмотров

123

Покупок

Антиплагиат

Не указан

Размещена

9 Окт 2025 в 22:06

ВУЗ

https://akhcheck.ru

Курс

1 курс

Стоимость

1 500 ₽

Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.

spark-rdd

478.9 Кбайт

https://akhcheck.ru

Архив содержит все выполненные части задачи, а также шпаргалку с тем как надо было делать.

Spark RDD.

Описание задания

Цель нашего задания - научиться использовать сложные статистики при помощи Spark RDD.

Это первая часть задания, посвященная изучению Spark.

Процедура сдачи задания:

Создайте ветку task-spark-rdd в репозитории, задание выполняйте в папке spark-rdd.
Каждое из подзаданий делайте в подпапках task1, task2.
После выполнения задания пришлите SSH-ссылку на репозиторий для проверки задания в автоматическом режиме.
Создайте merge request из ветки task-spark-rdd в ветку main своего репозитория. Merge request не сливайте - он необходим для проведения Code Review задания.

Часть 1 (2 балла)

Для данных о бизнесах выведите топ-10 бизнесов, которые работают большее количество времени в течение недели. При равном количестве минут отсортируйте данные по возрастанию business_id.

Пример вывода:

n_0UpQx1hsNbnPUSlodU8w\t2760

Pns2l4eNsfO8kk83dixA6A\t0

Пример запуска скрипта:

./run.sh <output_folder>

- это выход, который необходимо записать в HDFS. В <output_folder> мы записываем весь RDD, но при этом на выходе выводим только ТОП-10.

P.S. Вы могли заметить, что задача похожа на MapReduce. Это так! Нам необходимо понять, что код на Spark пишется намного быстрее!

Часть 2 (3 балла)

В базе данных Yelp выделите топ-10 пользователей по следующему критерию:

топ-5 ревью собрали максимальное количество отзывов вида useful.

Мотивация: необходимо найти influencer-ов, но нам неважно найти тех, чьи отзывы в сумме популярны. Нам важно найти самые "зажигающие" отзывы!

Важно! Мы работаем в этой задаче с подмножеством людей и отзывов.

Подмножество пользователей располагается в HDFS в папке: /data/yelp/user_sample
Подмножество отзывов располагается в HDFS в папке /data/yelp/review_sample.

Для каждого из пользователей необходимо вывести количество друзей-друзей в социальной сети.

Формат вывода в выходную папку (id пользователя, сумма по топ-5 useful, количество друзей-друзей):

8g_iMtfSiwikVnbP2etR0A\t2034\t50

Сортировку осуществляем по убыванию критерия: количество друзей-друзей x сумма по top-5 useful.

Данные сохраняем в текстовом формате.

Пример запуска скрипта:

./run.sh <output_folder>

<output_folder> - это выход, который необходимо записать в HDFS. В <output_folder> мы записываем весь RDD, но при этом на выходе выводим только ТОП-10.

Вам подходит эта работа?

26 Апр в 02:16

Методы и средства проектирования информационных систем и технологий (Синергия) – Ответы на итоговый и компетентностный тесты

Информатика

Тест

198 ₽

bezhvostov

0 покупок

26 Апр в 02:15

Автоматизированное тестирование веб-сервисов (Синергия) – Ответы на итоговый тест

Информатика

Тест

198 ₽

bezhvostov

1 +1

0 покупок

21 Апр в 18:00

Информатика СОО 2023 (ДО, СпДО, ПНК, КП, ПДО, ДОУА, СР 2 часть) Практическое занятие 3, НСПК

Информатика

Контрольная работа

500 ₽

nspkwork

14 +1

0 покупок

17 Апр в 22:01

Синергия. Научно-исследовательская работа. Специальность: Прикладная информатика. Профиль: Программное обеспечение, Интернет и облачные технологии

Информатика

Отчет по практике

700 ₽

lemice

22 +1

0 покупок

17 Апр в 19:51

Информатика 11 класс

Информатика

Задача

500 ₽

user247937

19 +2

0 покупок

9 Окт 2025 в 22:38

Анализ Данных. Ахтямов Павел. Boston-House-Prices MEDV.

Информатика

Лабораторная работа

6 000 ₽

Tipp-ex

97 +1

0 покупок

9 Окт 2025 в 22:32

Анализ данных. Ахтямов Павел. Big Data. NoSQL.

Информатика

Лабораторная работа

1 500 ₽

Tipp-ex

118 +2

1 покупка

9 Окт 2025 в 22:10

Анализ данных. Ахтямов Павел. Spark-DF.

Информатика

Лабораторная работа

1 500 ₽

Tipp-ex

0 покупок

9 Окт 2025 в 21:53

Анализ данных. Ахтямов Павел. MapReduce

Информатика

Лабораторная работа

1 500 ₽

Tipp-ex

92 +1

0 покупок

5 Июн 2023 в 18:42

Ответы на билеты (Методы и средства проектирования информационных систем и технологий, МиСПСиТ), Жаранова А.О. и Пинегина И.В.

Информационные системы

Ответы на билеты

500 ₽

Tipp-ex

433

1 покупка

Предыдущая работа

отчет по практике

Следующая работа

Анализ данных. Ахтямов Павел. Spark-DF.

Закажите новую работу, выполненную по вашим требованиям у эксперта

Темы журнала

Статьи справочника

Прямой эфир