Анализ данных. Ахтямов Павел. Spark-DF.

Главная

Магазин

Лабораторная работа

Информатика

Анализ данных. Ахтямов Павел. Spark-DF.

Tipp-ex

Был(а) на сайте 1 день назад

Раздел

Программирование

Предмет

Информатика

Тип

Лабораторная работа

Просмотров

Покупок

Антиплагиат

Не указан

Размещена

9 Окт в 22:10

ВУЗ

https://akhcheck.ru

Курс

1 курс

Стоимость

1 500 ₽

Файлы работы

Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.

spark-df

487.7 Кбайт 1 500 ₽

Описание

https://akhcheck.ru

Архив содержит все выполненные части задачи, а также шпаргалку с тем как надо было делать.

Spark DF

Описание задания

Цель задания - научиться переходить от запросов в Hive к запросам в Spark SQL без использования SQL

Процедура сдачи задания:

Создайте ветку task-spark-df в репозитории, задание выполняйте в папке spark-df.
Каждое из подзаданий делайте в подпапках task1, task2.
После выполнения задания пришлите SSH-ссылку на репозиторий для проверки задания в автоматическом режиме.
Создайте merge request из ветки task-spark-df в ветку main своего репозитория. Merge request не сливайте - он необходим для проведения Code Review задания.

Часть 1 (2 балла)

Напишите запрос, который вычисляет самые популярные рестораны по количеству негативных отзывов. Для каждого города необходимо топ-10 ресторанов по количеству негативных отзывов. Отзыв считается негативным, если оценка меньше 3.

Пример аргументов:

./run.sh <output_folder>

Выходные поля:

business_id - id ресторана
city - название города
negative_cnt - количество негативных отзывов

Формат вывода (для этого бизнеса выводится результат):

8g_iMtfSiwikVnbP2etR0A\tNew York\t100500

P.S. Вы могли заметить, что задача похожа на задачу в Hive. Это так! Нам необходимо понять, что Spark SQL позволяет реализовать запросы в виде SQL.

Часть 2 (3 балла)

В данной части задания мы выясним тенденцию посещений пользователями разных категорий ресторана.

Для этого нам понадобится 2 таблицы: checkins и business. Необходимо создать каталог общих статистик посещения бизнесов по категориям. Это можно сделать следующим образом:

Из business необходимо распарсить категории этого бизнеса.
Из таблицы checkins необходимо вытащить все данные о посещении этого бизнеса.

Наша цель - посчитать количество посещений для каждой категории за каждый месяц. При этом, если посещений бизнесов данной категории за месяц не было, то мы не добавляем эту запись в таблицу.

Пример формата вывода данных (данные могут быть нереалистичны):

2015-07\tFast Food\t2890

Сортировку осуществляем по возрастанию пары год-месяц mnth. После этого сортировка осуществляется по категории.

Данные сохраняем в текстовом формате в папке <output folder>:

./run.sh <output_folder>

Выходные поля:

mnth - месяц
category - категория бизнеса;
checkins - количество посещений.

Вам подходит эта работа?

Похожие работы

Информатика

Лабораторная работа

Лабораторные работы (5 ЛР OpenOffice.org) ИНФОРМАТИКА САМГТУ ВИД 155 ДЗ

300 ₽

ReadyWorks

24 Ноя в 13:11

4 +4

0 покупок

Информатика

Лабораторная работа

Лабораторные работы (5 ЛР OpenOffice.org) ИНФОРМАТИКА САМГТУ ВИД 155 ЛР 4

300 ₽

ReadyWorks

24 Ноя в 13:10

5 +5

0 покупок

Информатика

Лабораторная работа

Лабораторные работы (5 ЛР OpenOffice.org) ИНФОРМАТИКА САМГТУ ВИД 155 ЛР 3

300 ₽

ReadyWorks

24 Ноя в 13:09

5 +5

0 покупок

Информатика

Лабораторная работа

Лабораторные работы (5 ЛР OpenOffice.org) ИНФОРМАТИКА САМГТУ ВИД 155 ЛР 2

300 ₽

ReadyWorks

24 Ноя в 13:08

5 +5

0 покупок

Информатика

Лабораторная работа

Лабораторные работы (5 ЛР OpenOffice.org) ИНФОРМАТИКА САМГТУ ВИД 155 ЛР 1

300 ₽

ReadyWorks

24 Ноя в 13:06

4 +4

0 покупок

Другие работы автора

Информатика

Лабораторная работа

Анализ Данных. Ахтямов Павел. Boston-House-Prices MEDV.

6 000 ₽

Tipp-ex

9 Окт в 22:38

0 покупок

Информатика

Лабораторная работа

Анализ данных. Ахтямов Павел. Big Data. NoSQL.

1 500 ₽

Tipp-ex

9 Окт в 22:32

31 +1

0 покупок

Информатика

Лабораторная работа

Анализ данных. Ахтямов Павел. Spark RDD.

1 500 ₽

Tipp-ex

9 Окт в 22:06

39 +1

0 покупок

Информатика

Лабораторная работа

Анализ данных. Ахтямов Павел. MapReduce

1 500 ₽

Tipp-ex

9 Окт в 21:53

34 +1

0 покупок

Информационные системы

Ответы на билеты

Ответы на билеты (Методы и средства проектирования информационных систем и технологий, МиСПСиТ), Жаранова А.О. и Пинегина И.В.

500 ₽

Tipp-ex

5 Июн 2023 в 18:42

382 +1

1 покупка

Предыдущая работа

Анализ данных. Ахтямов Павел. Spark RDD.

Следующая работа

Проектная логистика

Закажите новую работу, выполненную по вашим требованиям у эксперта

Темы журнала

Статьи справочника

Прямой эфир