Анализ данных. Ахтямов Павел. Spark RDD.

Раздел
Программирование
Просмотров
6
Покупок
0
Антиплагиат
Не указан
Размещена
9 Окт в 22:06
ВУЗ
https://akhcheck.ru
Курс
1 курс
Стоимость
1 500 ₽
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
zip
spark-rdd
478.9 Кбайт 1 500 ₽
Описание

https://akhcheck.ru

Архив содержит все выполненные части задачи, а также шпаргалку с тем как надо было делать.

Spark RDD.

Описание задания

Цель нашего задания - научиться использовать сложные статистики при помощи Spark RDD.

Это первая часть задания, посвященная изучению Spark.

Процедура сдачи задания:

  • Создайте ветку task-spark-rdd в репозитории, задание выполняйте в папке spark-rdd.
  • Каждое из подзаданий делайте в подпапках task1, task2.
  • После выполнения задания пришлите SSH-ссылку на репозиторий для проверки задания в автоматическом режиме.
  • Создайте merge request из ветки task-spark-rdd в ветку main своего репозитория. Merge request не сливайте - он необходим для проведения Code Review задания.

Часть 1 (2 балла)

Для данных о бизнесах выведите топ-10 бизнесов, которые работают большее количество времени в течение недели. При равном количестве минут отсортируйте данные по возрастанию business_id.

Пример вывода:

n_0UpQx1hsNbnPUSlodU8w\t2760

Pns2l4eNsfO8kk83dixA6A\t0

Пример запуска скрипта:

./run.sh <output_folder>

  • - это выход, который необходимо записать в HDFS. В <output_folder> мы записываем весь RDD, но при этом на выходе выводим только ТОП-10.

P.S. Вы могли заметить, что задача похожа на MapReduce. Это так! Нам необходимо понять, что код на Spark пишется намного быстрее!

Часть 2 (3 балла)

В базе данных Yelp выделите топ-10 пользователей по следующему критерию:

  • топ-5 ревью собрали максимальное количество отзывов вида useful.

Мотивация: необходимо найти influencer-ов, но нам неважно найти тех, чьи отзывы в сумме популярны. Нам важно найти самые "зажигающие" отзывы!

Важно! Мы работаем в этой задаче с подмножеством людей и отзывов.

  • Подмножество пользователей располагается в HDFS в папке: /data/yelp/user_sample
  • Подмножество отзывов располагается в HDFS в папке /data/yelp/review_sample.

Для каждого из пользователей необходимо вывести количество друзей-друзей в социальной сети.

Формат вывода в выходную папку (id пользователя, сумма по топ-5 useful, количество друзей-друзей):

8g_iMtfSiwikVnbP2etR0A\t2034\t50

Сортировку осуществляем по убыванию критерия: количество друзей-друзей x сумма по top-5 useful.

Данные сохраняем в текстовом формате.

Пример запуска скрипта:

./run.sh <output_folder>

  • <output_folder> - это выход, который необходимо записать в HDFS. В <output_folder> мы записываем весь RDD, но при этом на выходе выводим только ТОП-10.
Вам подходит эта работа?
Похожие работы
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:38
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:32
7 +7
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:10
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 21:53
7 +7
0 покупок
Другие работы автора
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:38
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:32
7 +7
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:10
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 21:53
7 +7
0 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 08:03
650
12 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 08:01
519 +1
11 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 07:06
598
13 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 07:03
577
11 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:58
522
8 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:53
475
4 покупки
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:51
449
10 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:50
554 +1
10 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:48
453
7 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:46
360
7 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:44
640
13 покупок
Информационные технологии
Лабораторная работа Лабораторная
31 Янв 2023 в 06:17
689 +1
9 покупок
Информационные системы
Лабораторная работа Лабораторная
31 Янв 2023 в 06:04
376
1 покупка
Информационные системы
Лабораторная работа Лабораторная
31 Янв 2023 в 06:03
473
1 покупка
Темы журнала
Показать ещё
Прямой эфир