Данная работа посвящена отработке навыков использования методов эмбеддинга узлов графа, на примере социального графа, полученного из социальной сети. Социальный граф, который используется для отработки, представляет участников ЛОКАЛЬНОГО (регионального) спортивного сообщества с открытым входом, это значит, что в данное сообщество могли вступать любые пользователи социальной сети.
Социальный граф предварительно был очищен от случайных пользователей. Разметка пользователей сделана по ролям: Организатор, тренер, Спортмен-pro (проф. спортсмен), Спортсмен-любитель, Активный участник, спортсмен из другого региона.
Работа выполняется в gogle.colab
Задание.
- Визуализировать граф в спец пакете gephi/cytoscape. Оценить основные параметры узлов графа - метрики центральности, диаметр, плотность графа, page rank, модулярность. Раскрасить узлы графа по модулярности. Сколько групп в рамках сообщества можно выделить судя по модулярности?
- Выполнить эмбеддинг предложенного графа. Укажите число элементов в каждом векторе. Используйте документацию к word2vec или свойство shape к полученной матрице эмбеддингов для ответа на вопрос.
- Выполнить визуализацию данных в ноутбуке. Какое количество групп можно выделить опираясь на визуальный анализ.
- Найти 3 узла, наиболее схожие с организатором 1. Оценить по модели из gephi. Дать ответ в качестве номеров узлов. Через эти узлы можно определить соорганизаторов, координаторов для волонтеров на время соревнований.
- Вычислите меру сходства между главным тренером и тренером из другого региона. Ответ дайте в виде числа. Самостоятельно определите номера узлов графа для решения задачи.
- Выполнить кластерный анализ. Кластерный анализ позволит выделить группы по схожести и, в частности, определить ближний круг влияния пользователей, на которых может оказывать влияние заданный пользователь. Методом DBscan (), Affinity propagation, k-medoids. Использовать косинусное расстояние. Выполнить визуализацию. Число кластеров для k-medoid подобрать по значению силуэта. В качестве ответа ввести выбранное число кластеров.
- Выбрать по значению силуэта лучший метод из трех предложенных.
- Сравнить методы по показателю AMI, ARI. В качестве ответа показать какие методы наиболее схожи по AMI, по ARI.
Ответы на задание фиксируются в самом ноутбуке, который отправляется на проверку (ссылка). Для получения зачета необходимо успешно выполнить 50% пунктов по заданию.
Также проделанная работа проверяется при помощи тестов. Необходимо ответить верно не менее чем на 3 вопроса по тесту. Элемент задания выполнен верно, если соответствует ожидаемым результатам обработки датасета. Количество попыток в рамках теста не ограничено, учитывается лучший результат.
Материалы для выполнения:
Дополнительные материалы (для выполнения кейса не требуется):
Как выполнить DeepWalk при помощи библиотеки karateclub: ссылка на ноутбук.