Архив содержит все выполненные части задачи, а также шпаргалку с тем как надо было делать.
Spark RDD.
Описание задания
Цель нашего задания - научиться использовать сложные статистики при помощи Spark RDD.
Это первая часть задания, посвященная изучению Spark.
Процедура сдачи задания:
Часть 1 (2 балла)
Для данных о бизнесах выведите топ-10 бизнесов, которые работают большее количество времени в течение недели. При равном количестве минут отсортируйте данные по возрастанию business_id.
Пример вывода:
n_0UpQx1hsNbnPUSlodU8w\t2760
Pns2l4eNsfO8kk83dixA6A\t0
Пример запуска скрипта:
./run.sh <output_folder>
P.S. Вы могли заметить, что задача похожа на MapReduce. Это так! Нам необходимо понять, что код на Spark пишется намного быстрее!
Часть 2 (3 балла)
В базе данных Yelp выделите топ-10 пользователей по следующему критерию:
Мотивация: необходимо найти influencer-ов, но нам неважно найти тех, чьи отзывы в сумме популярны. Нам важно найти самые "зажигающие" отзывы!
Важно! Мы работаем в этой задаче с подмножеством людей и отзывов.
Для каждого из пользователей необходимо вывести количество друзей-друзей в социальной сети.
Формат вывода в выходную папку (id пользователя, сумма по топ-5 useful, количество друзей-друзей):
8g_iMtfSiwikVnbP2etR0A\t2034\t50
Сортировку осуществляем по убыванию критерия: количество друзей-друзей x сумма по top-5 useful.
Данные сохраняем в текстовом формате.
Пример запуска скрипта:
./run.sh <output_folder>