Анализ социальных сетей в i2 Analyst Notebook

Продукция компании i2 является весьма популярной в различных аналитических службах. И как следствие — дорогой. Особенно распиарена их платформа Analyst Notebook, предназначенная для анализа связей (Link Analysis). А также в неё есть некоторый функционал для анализа социальных сетей (Social Network Analysis). Предлагаемый по ссылке вебинар смотреть я не стал и, так как инструмент был под руками, решил его опробовать.

Для начала построил картинку по данным диссера:

На вид она весьма читаема за счёт удачного расположения узлов. Однако, если приглядеться, то можно увидеть, что веса исходящих и входящих связей на ней отображены отдельно. Возможно, в каких-то ситуациях это и является преимуществом, если бы не одно “но”. Суммировать эти веса Analyst Notebook не умеет. Вроде бы и тривиальная вещь, а тем не менее.

Из сетевых метрик есть только классические показатели центральности: degree, closeness, betweenness и eigenvector. Всё. На этом функционал сетевого анализа заканчивается. Разве что масштабирование размеров узлов есть в зависимости от центральности. Но это уже больше к визуализации относится.

Вообще, меня не покидает ощущение, что программы подобного класса по сути продают воздух. Вся их ценность, на мой взгляд, заключается только в семантическом слое, который позволяет создавать запросы к БД перетаскиванием иконок. Кстати, функционал БД у них тоже дублируется приложением iBase, смысл которого мне тем более не понятен, т.к. Analyst Notebook умеет подключаться к MS SQL Server напрямую.

Впрочем, такую бедность инструментария Analyst Notebook можно списать на основные цели программы. Всё таки Link Analysis предназначен в основном для поиска связей между сущностями, в то время как анализ социальных сетей предназначен для изучения уже имеющихся связей. Поэтому вполне разумно использовать эти методологии и соответствующие им инструменты последовательно, в связке: LA -> SNA. Если у меня получится подобный кейс — расскажу.

Динамическая визуализация сети комментирования Живого Журнала в ORA

Развлечения ради сделал динамическую визуализацию сети комментирования в Живом Журнале с помощью ORA. Каждый узел – блоггер, оставивший комментарий, каждая связь указывает на блоггера, которому этот комментарий адресован. В качестве объекта был использован пост об отчислении студенток-активисток с соцфака МГУ и последовавшая за ним дискуссия.

Dynamic Visualization of Comment Networks in LiveJournal from Jarens Gald on Vimeo.

В общем-то, ORA – не самый подходящий инструмент для данной задачи, т.к. здесь не хватает возможности динамического изменения размера узла/веса связи в зависимости от центральности/количества комментариев. Точнее, это теоретически можно сделать, но вручную, сохраняя каждую картинку как кадр для *.gif анимации. Нужно будет предложить добавить подобный функционал автоматически.

В идеале, хотелось бы получить что-то наподобие этого:

Но, как я уже говорил, с Gephi у меня пока отношения не складываются. Будем работать.

GraphStream: новая библиотека для визуализации динамических социальных сетей

Наткнулся на видео, демонстрирующее возможности первой версии библиотеки:

Вроде бы ничего сверхъестественного, однако чем-то зацепило. Возможно музыкой.

В любом случае, эту вещь стоит попробовать хотя бы потому, что хвалёный “фотошоп для социальных сетей” – Gephi меня пока совершенно не впечатляет, т.к. я совершенно не могу понять некоторые особенности его концепции, отраженные не в самом логичном интерфейсе. Хотя видеообзор оной тоже впечатляет, в том числе и музыкой:

Introducing Gephi 0.7 from gephi on Vimeo.

Смущает только то, что эта библиотека для Java и, судя по всему, без GUI. По крайней мере мне не удалось ничего запустить.

Официальный сайт проекта.

Краткий мануал по визуализации и анализу в ORA.

Небольшой мануал по анализу социальных сетей в ORA.

 

Запустите ORA и откройте в ней файлы тех вопросов, которые вам достались: File -> Open Meta Network … или Сtrl-O..
В ORA файлы, содержащие узлы и различные виды связей между ними называются meta-networks.  Т.к. вам нужно будет сравнить между собою ответ на один и тот же вопрос в двух разных группах, то всего у вас должно быть открыто 2 meta-networks, как показано на рисунке.

 

ORA Main Window
Главное окно ORA

Если раскрыть одну такую meta network, то в ней можно увидеть несколько сетей, названных по ключевому слову того или иного вопроса. Чтобы визуализировать какую-либо из них, нужно выделить её и нажать на кнопку Visualize this Network и Visualize Only this Network.

 

ORA Networks`
Networks in ORA

Разница между ними только в том, что вторая позволяет «на лету» менять социограммы, отмечая галочкой соответствующие сети в окошке с «легендой» (Legend).  Если вы отметите там сразу 2 или больше сети, то на одном и том же наборе «кружочков» будет отображено сразу несколько видов связей между ними, каждая из которых представляет тот или иной вопрос. Для того, чтобы их как-то различать, можно поменять цвет для той или иной связи, кликнув по ней в окне с легендой и выбрав цвет. См. рис. 2

 

Network Visualization in ORA
Одновременная визуализация двух сетей

Само по себе меню визуализатора ORA довольно элементарно и вы можете быстро разобраться с ним просто понажимав на различные иконки. Для более детальных настроек цвета, формы, размера «кружочков» и связей, выбора цвета заднего фона и т.д., вы можете обратиться к меню Display.

Картинка сохраняется через меню File –> Save Image to File… или через буфер обмена File à Copy Image to Clipboard с последующей вставкой в Paint или любой другой графический редактор.

                        Стандартный анализ сети.

Перед началом анализа рекомендуется отключить те показатели, подсчёт которых занимает много времени. Делается это в меню Preferences à Measures à Do not use slow measures

 

ORA SNA Report
Отключение медленных метрик

Процедура Standart Network Analysis находится в меню Analysis à Generate Reports… -> Locate Key Entities -> Standart Network Analysis

 

ORA SNA Report
Отчет "Стандартный Анализ Социальной Сети"

При выборе этого отчёта вы получите следующие меню:

 

ORA Reports Menu 1
Выбор одной или нескольких сетей для анализа

В нём достаточно отметить галочкой ту meta-network, которую вы хотите визуализировать и нажать Next.

 

ORA Reports 2
Выбор максимального числа акторов для отображения результатов

Это окно предлагает выбрать количество мест в «рейтинге» различных видов центральностей. По умолчанию их 10. Можете изменить это число по желанию.

Ниже вам нужно будет отметить галочкой тот вопрос, который вы хотите анализировать. Выбираете его и нажимаете Next.

 

ORA Reports 3
Выбор формата и места сохранения отчета

Последнее меню предлагает вам сохранить результаты в различных форматах, а также выбрать папку для сохранения и название файла с отчётом. ВНИМАНИЕ!!! Путь к месту сохранения файла с отчётом НЕ ДОЛЖЕН СОДЕРЖАТЬ КИРИЛЛИЧЕСКИХ СИМВОЛОВ. Иначе ОРА выдаст ошибку. Поэтому, если у вас русскоязычная Windows, то не пытайтесь сохранить отчёт в «Моих документах» или на «Рабочем столе». Нажав Finish, вы получите отчёт в тех форматах, которые вы выбрали (обычно это HTML).

В следующем разделе мы рассмотрим из чего этот отчёт состоит.

                             Standart Network Analysis Report.

Нижеследующий текст относится к отчёту в формате HTML. В других форматах будут небольшие отличия.

Помимо служебной информации об отчёте и картинки, основная информация о социограмме находится в двух таблицах:  Network Level Measures и Node Level Measures. Первая содержит сводную информацию о сети в целом, а вторая – о характеристиках отдельных узлов.

Т.к. на лекции я рассказывал про то, что обозначают различные виды центральности и некоторые характеристики сети в целом, я не буду подробно на этом останавливаться. Перед каждым видом центральности в самом отчёте есть её краткое описание на английском языке. Описания остальных характеристик и индексов можно найти в справке, которая вызывается в меню Help à Help Contents

 

ORA Centralities
Справка ORA по центральностям

В длинном списке из папки Measures вы можете найти краткую справку для любого показателя из отчёта. Наиболее интересными для вас являются следующие показатели:

  • Density
  • Isolate count
  • Component count
  • Reciprocity
  • Characteristic path length

Что касается характеристик отдельных узлов (центральностей), то из них вы выбираете те, которые, на ваш взгляд, подходят по содержанию вашей сети.

                   О программе.

Для работы можно воспользоваться самой свежей версией программы: ORA. 2.2.8. Если с ней возникнут проблемы, можете попробовать версию 2.0.8  — она наиболее стабильна из старых. Список всех версий и ссылки для скачивания тут:
http://www.casos.cs.cmu.edu/projects/ora/versions.html

Перед скачиванием от вас потребуют пройти небольшую регистрацию. Её можно заполнить “от балды”, главное только соблюсти правило написания почтового адреса. Напр., ssgjls@glsdf.com

Workshop on ERGM (p*) in statnet

ERGM (Exponential Random Graph Models) или p* models — это семейство моделей, основанных на случайных графах, с помошью которых можно выявлять наличие (или отсутствие) различных структурных эффектов (реципрокность, транзитивность, цикличность, гомофилия и т.д.) в сети. Т.е. мы можем сказать, является ли наблюдаемая сеть результатом повышенной/пониженной взаимности социальных отношений (реципрокность), действует ли в ней правило "друг моего друга — мой друг" (транзитивность) и склонны ли акторы этой сети выбирать контрагентов со схожими характеристиками (гомофилия). Данная тема составляет значительную часть моей диссертации, поэтому наверняка она ещё не раз тут всплывет.

С этой методикой я познакомился на летней школе в Эссексе, но распробовал все её достоинства не сразу. Но было уже поздно и поэтому пришлось вгрызаться в дебри формул и статистических подробностей самостоятельно. Однако, на помощь мне пришло видео, где David Hunter и Steve Goodreau – одни из ключевых авторов по данной тематике — 5 часов к ряду объясняют как начинку, так и реализацию ERGM в statnet. Это единственное видео подобной длины, которое я не только внимательно просмотрел, но и законспектировал. На прошедшем Sunbelt Стив постоянно курсировал в холле, но я так и не решился подойти к нему и поблагодарить. О чем сейчас жалею.

Goudreau-Hunter Political Networks 2009 1 of 5 from David Lazer on Vimeo.

Остальные части записи можно найти там же.