Архив содержит все выполненные части задачи, а также шпаргалку с тем как надо было делать.
Big Data. NoSQL
Описание задания
Общее описание
Для решения задач следует использовать Apache HBase или Cassandra.
Цель
Реализовать систему, которую позволит эффективным способам получать аналитику по kill-ам для каждого типа weapon.
Параметры скрипта
from - время старта диапазона
to - время финиша диапазона
Данные необходимо преобразовать с помощью Hadoop или Spark, положить в удобном для решения задачи виде в базу HBase или Cassandra и уметь получать из базы результат. Таким образом, решение состоит из двух программ:
[6 баллов] обработчика (writer), который преобразует исходные данные и сохраняет результат. Так как пишем мы реже, чем читаем, то основная логика должна быть реализована во writer'e.
[4 баллов] клиент (reader) для отображения результата. При этом клиент может содержать дополнительную логику по преобразованию данных (если необходимо).
Обе программы – консольные приложения, reader выводит результат на консоль. При этом необходимо поддержать дополнительный параметр --s3-path (2 балла), который позволит загрузить данные задачи в S3-bucket.
Важно! Настолько, что это является необходимым условием сдачи задания. Выбирайте наиболее удобную структуру таблицы в базе для вашей задачи. Используйте то свойство, что семейств колонок обычно немного, а колонок в семействе может быть очень много. Причем у разных строк могут быть разные колонки.
Входные данные
Логи матчей игры PUBG, подробное описание здесь: https://www.kaggle.com/datasets/skihikingkevin/pubg-match-deaths/data
Путь в HDFS: /data/pubg.