Анализ данных. Ахтямов Павел. Spark-DF.

Раздел
Программирование
Просмотров
5
Покупок
0
Антиплагиат
Не указан
Размещена
9 Окт в 22:10
ВУЗ
https://akhcheck.ru
Курс
1 курс
Стоимость
1 500 ₽
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
zip
spark-df
487.7 Кбайт 1 500 ₽
Описание

https://akhcheck.ru

Архив содержит все выполненные части задачи, а также шпаргалку с тем как надо было делать.

Spark DF

Описание задания

Цель задания - научиться переходить от запросов в Hive к запросам в Spark SQL без использования SQL

Процедура сдачи задания:

  1. Создайте ветку task-spark-df в репозитории, задание выполняйте в папке spark-df.
  2. Каждое из подзаданий делайте в подпапках task1, task2.
  3. После выполнения задания пришлите SSH-ссылку на репозиторий для проверки задания в автоматическом режиме.
  4. Создайте merge request из ветки task-spark-df в ветку main своего репозитория. Merge request не сливайте - он необходим для проведения Code Review задания.

Часть 1 (2 балла)

Напишите запрос, который вычисляет самые популярные рестораны по количеству негативных отзывов. Для каждого города необходимо топ-10 ресторанов по количеству негативных отзывов. Отзыв считается негативным, если оценка меньше 3.

Пример аргументов:

./run.sh <output_folder>

Выходные поля:

  • business_id - id ресторана
  • city - название города
  • negative_cnt - количество негативных отзывов

Формат вывода (для этого бизнеса выводится результат):

8g_iMtfSiwikVnbP2etR0A\tNew York\t100500

P.S. Вы могли заметить, что задача похожа на задачу в Hive. Это так! Нам необходимо понять, что Spark SQL позволяет реализовать запросы в виде SQL.

Часть 2 (3 балла)

В данной части задания мы выясним тенденцию посещений пользователями разных категорий ресторана.

Для этого нам понадобится 2 таблицы: checkins и business. Необходимо создать каталог общих статистик посещения бизнесов по категориям. Это можно сделать следующим образом:

  1. Из business необходимо распарсить категории этого бизнеса.
  2. Из таблицы checkins необходимо вытащить все данные о посещении этого бизнеса.

Наша цель - посчитать количество посещений для каждой категории за каждый месяц. При этом, если посещений бизнесов данной категории за месяц не было, то мы не добавляем эту запись в таблицу.

Пример формата вывода данных (данные могут быть нереалистичны):

2015-07\tFast Food\t2890

Сортировку осуществляем по возрастанию пары год-месяц mnth. После этого сортировка осуществляется по категории.

Данные сохраняем в текстовом формате в папке <output folder>:

./run.sh <output_folder>

Выходные поля:

  • mnth - месяц
  • category - категория бизнеса;
  • checkins - количество посещений.
Вам подходит эта работа?
Похожие работы
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:38
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:32
6 +6
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:06
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 21:53
6 +6
0 покупок
Другие работы автора
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:38
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:32
6 +6
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 22:06
5 +5
0 покупок
Информатика
Лабораторная работа Лабораторная
9 Окт в 21:53
6 +6
0 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 08:03
650
12 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 08:01
519 +1
11 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 07:06
598
13 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 07:03
577
11 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:58
522
8 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:53
475
4 покупки
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:51
449
10 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:50
554 +1
10 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:48
453
7 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:46
360
7 покупок
Обучение нейронных систем
Лабораторная работа Лабораторная
31 Янв 2023 в 06:44
640
13 покупок
Информационные технологии
Лабораторная работа Лабораторная
31 Янв 2023 в 06:17
689 +1
9 покупок
Информационные системы
Лабораторная работа Лабораторная
31 Янв 2023 в 06:04
376
1 покупка
Информационные системы
Лабораторная работа Лабораторная
31 Янв 2023 в 06:03
473
1 покупка
Темы журнала
Показать ещё
Прямой эфир