практическое задание Методы анализа и прогнозирования данных

Отменен
Заказ
4985023
Раздел
Экономические дисциплины
Антиплагиат
Не указан
Срок сдачи
27 Окт 2022 в 19:55
Цена
Договорная цена
Блокировка
10 дней
Размещен
18 Окт 2022 в 15:10
Просмотров
71
Описание работы

Данная работа посвящена отработке навыков использования методов эмбеддинга узлов графа, на примере социального графа, полученного из социальной сети. Социальный граф, который используется для отработки, представляет участников ЛОКАЛЬНОГО (регионального) спортивного сообщества с открытым входом, это значит, что в данное сообщество могли вступать любые пользователи социальной сети.

Социальный граф предварительно был очищен от случайных пользователей. Разметка пользователей сделана по ролям: Организатор, тренер, Спортмен-pro (проф. спортсмен), Спортсмен-любитель, Активный участник, спортсмен из другого региона.

Работа выполняется в gogle.colab

Задание.

  1. Визуализировать граф в спец пакете gephi/cytoscape. Оценить основные параметры узлов графа - метрики центральности, диаметр, плотность графа, page rank, модулярность. Раскрасить узлы графа по модулярности. Сколько групп в рамках сообщества можно выделить судя по модулярности?
  2. Выполнить эмбеддинг предложенного графа. Укажите число элементов в каждом векторе. Используйте документацию к word2vec или свойство shape к полученной матрице эмбеддингов для ответа на вопрос.
  3. Выполнить визуализацию данных в ноутбуке. Какое количество групп можно выделить опираясь на визуальный анализ.
  4. Найти 3 узла, наиболее схожие с организатором 1. Оценить по модели из gephi. Дать ответ в качестве номеров узлов. Через эти узлы можно определить соорганизаторов, координаторов для волонтеров на время соревнований.
  5. Вычислите меру сходства между главным тренером и тренером из другого региона. Ответ дайте в виде числа. Самостоятельно определите номера узлов графа для решения задачи. 
  6. Выполнить кластерный анализ. Кластерный анализ позволит выделить группы по схожести и, в частности, определить ближний круг влияния пользователей, на которых может оказывать влияние заданный пользователь. Методом DBscan (), Affinity propagation, k-medoids. Использовать косинусное расстояние. Выполнить визуализацию. Число кластеров для k-medoid подобрать по значению силуэта. В качестве ответа ввести выбранное число кластеров.
  7. Выбрать по значению силуэта лучший метод из трех предложенных.
  8. Сравнить методы по показателю AMI, ARI. В качестве ответа показать какие методы наиболее схожи по AMI, по ARI.

Ответы на задание фиксируются в самом ноутбуке, который отправляется на проверку (ссылка). Для получения зачета необходимо успешно выполнить 50% пунктов по заданию.

Также проделанная работа проверяется при помощи тестов. Необходимо ответить верно не менее чем на 3 вопроса по тесту. Элемент задания выполнен верно, если соответствует ожидаемым результатам обработки датасета. Количество попыток в рамках теста не ограничено, учитывается лучший результат.  

Материалы для выполнения:

Дополнительные материалы (для выполнения кейса не требуется):

Как выполнить DeepWalk при помощи библиотеки karateclub: ссылка на ноутбук.

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.54
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир