#24 декабря 2011 года в Твиттере: сеть упоминаний

4 года назад состоялись митинги на Поклонной Горе и Проспекте Сахарова, по которым я собрал из Твиттера данные и несмотря на редкие и спорадические подходы к их анализу успел сделать по ним около десятка презентаций на зарубежных и иногда даже отечественных конференциях, сдать в печать одну англоязычную публикацию и почти написать вторую. Однако все эти результаты каким-то мистическим образом так ни разу и не всплывали в данном блоге кроме как в виде фоновой картинки его заголовка, на которой представлена сеть “реплаев” между пользователями, ключевые акторы которой всем хорошо известны, но по политико-эстетическим причинам оттуда скрыты.

В очередной юбилей данного события я решил хоть как-то исправить это недоразумение и, заборов перфекционизм, запостить хоть что-то вместо традиционного ничего. И начать, пожалуй, лучше всего с данных, т.к. благодаря интересу к ним всё, в общем-то и началось. Но прежде немного истории. На тот момент, а по большому счёту и по сей день, Twitter представлял наиболее простой и удобный способ к собственным данным, чего, увы, не скажешь о качестве самих данных с точки зрения интерпретации, социологической и не только. Первое время единственным поставщиком действительно интересных сетевых данных были крупные IT-конференции вроде RIF и RIW. Однако зимой 2012 года произошёл ряд всем известных политических событий после которых русскоязычный сегмент данной сети претерпел значительные изменения.

Политические митинги, последовавшие за оглашением результатов выборов в Государственную Думу 2011 года (по первому из которых, кстати, тоже сохранились кое-какие данные) некоторым образом отобразились и в Твиттере. И я говорю “некоторым образом” в первую очередь потому, что образ, формат и масштаб данного отображения лично мне пока неизвестен и требует тщательной количественной и сравнительной оценки с похожими сюжетами в других странах, которые принято называть “твиттерными революциями” или, в зависимости от региона, “арабской весной”. Таким образом, митинги на Проспекте Сахарова и Поклонной Горе стали одними из первых акций о которых было известно заранее (в отличие от стихийных первых митингов) а также, что показалось особенно привлекательным с исследовательской точки зрения, в них участвовали представители противоположных политических сил в один день и в одно время. Это позволяло заблаговременно начать сбор данных, что я и сделал.

К 24 декабря 2011 года уже сложилась традиция использовать в рамках подобных мероприятий хэштеги, составленные по формуле дата+месяц. Безусловно, были и другие типа #КартонныйМитинг, но они носили явное оценочное суждение и наверняка привели бы к искажению картины. Поэтому был выбран наиболее нейтральный из популярных хэштег #24дек. Выбор одного единственного хэштега также был обусловлен чисто финансовыми соображениями. Для сбора данных я использовал сервис DataSift, которая на тот момент была одной из двух лицензированных платформ, занимающихся продажей данных из Твиттера. Второй был Gnip, после покупки которого Твиттер разорвал контракт с DataSift монополизировав таким образом данный рынок. Приятной особенностью сервиса DataSift была возможность покупки данных по схеме Pay-as-you-Go, т.е. “поштучно” или “на развес”, задав фильтр по интересующим ключевым словам, а также ряду других параметром. А так как ценник там формировался в зависимости от сложности запроса и в том числе от числа ключевых слов, я решил ограничиться одним, самым популярным и очевидным вариантом. Если бы я тогда знал, что бесплатно можно получить данные большего объема и лучшего качества, всё бы могло сложиться иначе, но это уже совсем другая история заслуживающая отдельного поста.

Если же вкратце, то всего получилось 24 378 сообщения от 3 485 уникальных пользователей. Среди этих сообщений примерно половина содержала упоминание того или иного пользователя, что позволяло построить и визуализировать связи между ними в виде сетевой визуализации, представленной ниже.

Сеть упоминаний между пользователями.
Сеть упоминаний между пользователями.

Данный вид визуализации был немного причёсан из эстетических соображений, дабы продемонстрировать политический “ландшафт” пользователей по аналогии с глобусом. Размером здесь показана популярность пользователя, т.е. число раз, когда он был упомянут другими, а цветом — принадлежность к тому или иному кластеру, выделенному автоматически. Несмотря на то, что представители противоборствующих сил некоторым образом кучкуются вместе, чёткой и однозначной их поляризации, наподобие той, что была получена на знаменитой ныне визуализации Лады Адамик, отображающей связи между политическими блогами в США перед выборами 2004 года, здесь увидеть нельзя. Свидетельствует ли это об отсутствии эффекта “Echo Chamber” при котором люди получают и производят только ту информацию, что близка их взглядам, не обмениваясь ею со сторонниками противоположных точек зрения, сказать сложно. По крайней мере без тщательного анализа содержания сообщений.

На самом деле, в сыром виде, всё выглядит несколько менее приглядно:

Сеть упоминаний между пользователями: непричёсанный вид.
Сеть упоминаний между пользователями: непричёсанный вид.

Несмотря на меньшие эстетические качества, вторая картинка гораздо лучше подчёркивает факт аномальной удалённости пользователя @alex_yarosh и его окружения от остальных. Также столь аномальное скопление пользователей, которые ретвитили только одного пользователя, которого можно условно назвать “лидером мнений” (да простят меня Лазарсфельд и преподаватели социологии), являлось визуальным признаком на то, что все они являлись ботами. Являлись ли они таковыми или нет — смотрите в следующей серии.

Формирование студенческих групп с использованием анализа социальных сетей

Выложил в Сеть слайды и черновик статьи с описанием проекта по формированию студенческих групп с использованием анализа социальных сетей. Суть сюжета очень проста — данные социометрии, проведённой на одном из факультетов питерской Вышки неожиданно пригодились, когда перед факультетом встала задача сокращения числа и укрупнения студенческих групп.

Мы разработали комплексный подход, совмещающий алгоритм выявления сообществ в сетях с последующим “ручным” выравниванием групп по количеству студентов на основе их ответов на вопросы социометрической анкеты.

Спустя полтора года мы посмотрели изменения среднего балла и позиции в рейтинге у студентов из этих групп и сравнили их с группами другого факультета, которые были переформированы без учёта социальных связей студентов. Предварительные результаты показали наличие положительных различий, однако для того, чтобы можно было делать однозначные заявления на данный счёт, необходимо провести более тщательный статистический анализ. Чем я сейчас и занимаюсь.

Слайды, представленные ниже, мы презентовали на IV международной конференции Российской ассоциации исследователей высшего образования «Университетские традиции: ресурс или бремя?».

Текст черновика статьи, который писался вскладчину и впопыхах, я так и не успел прочитать как следует.

Student Groups Formations With Social Network Analysis by Alexander Semeonov

Буду рад любым вопросам, комментариям, замечаниям и предложениям.

Слайды с RIW 2012

Слайды с моего выступления на Russian Internet Week (RIW) 2012 в слегка переработанном для читабельности виде.

Основной мыслью доклада было показать, какую пользу может принести анализ социальных сетей (как социологическая методология) в исследованиях “социальных сетей” на примере столь популярных тем как “инфлюэнсеры” и “вирусное распространение”.

Последний слайд с фрагментом диссера пришлось выкинуть, т.к. он не вписывался в общую канву повествования. Лучше оформлю этот сюжет отдельным постом.

Сетевой анализ Твиттера: митинги на Сахарова и Поклонной Горе

Получил письмо от физиков (?!) из Johns Hopkins University, очень ждавших моего выступления на ASNA12 и сожалевших о том, что я не смог там выступить. Не знаю, куда они смотрели, однако, польщённый таким вниманием, слайды всё же выслал. Это несколько ослабило мой перфекционизм и я решил выложить эти слайды также и сюда, т.к. до членораздельного текста с нынешней загруженностью я ещё нескоро сподоблюсь.

Сразу предупреждаю, что заголовок поста/слайдов излишне претенциозен, т.к. после всех итераций в анализе этих данных я понял, что наиболее адекватным было бы что-то вроде: “Сетевой анализ использования хэштега #24дек в Твиттере во время протестных выступлений в Москве, 24 декабря 2011 года”.

Как с помощью анализа социальных сетей ловили Саддама Хуссейна

Slate относительно недавно выпустил публикацию и видеоролик о том, как анализ социальных сетей помог найти Саддама Хуссейна и почему он оказался не столь эффективным в поимке Усамы Бен Ладена. Ответ на второй вопрос я предлагаю найти вам самостоятельно, т.к. публикация действительно интересная и несомненно заслуживает прочтения. Я же сконцентрируюсь на первом пункте.

Моё внимание привлекло упоминание о том, что один из солдат, участвовавший в операции по обнаружению и поимке Саддама Хуссейна, впоследствие защитил по этим материалам PhD. С текстом его диссертации под названием “Formalizing the Informal: A Network Analysis of an Insurgency” (pdf) я и решил ознакомиться поближе, благо картинки на первый взгляд выглядели интересно:

Saddam's secretary social network

Уж лучше бы я этого не делал.

Если выразить мои претензии кратко и метафорично, то судя по тексту, автор служил в ранге капитана. И вот почему.

Начал наш бравый вояка за здравие: разложил базу имевшихся у него контактов Саддама по типам связей на 2 сети:

  • сеть доверия (Trust), куда вошли близкие/дальние родственники, друзья и охрана
  • стратегическая сеть (Strategy&Goals) с контактами по поводу организации беспорядков (insurgency), финансы и прочие ресурсы

На каждой из этих сетей он сделал ряд более-менее стандартных измерений: размер и плотность сети, её транзитивность, количество клик, посчитал центральности узлов в каждой из них (причём, почему-то обойдясь без closeness centrality и интерпретируя out-degree как “влиятельность”). Под конец он провёл ролевой анализ эгоцентрических сетей основных участников, померив структурную и автоморфную эквивалентности.

И вроде бы всё хорошо, да только выводы, к которым он пришёл, разят наповал своей сенсационностью. Судите сами:

“Transitivity tells us that Saddam Hussein has ties with his personal secretary. The personal secretary has ties with a Fedayeen weapons’ supplier. However, Saddam Hussein does not have a direct relationship with the weapons’ supplier. Therefore, in this case, when the objective is to capture Saddam Hussein, it is unlikely that the weapons’ supplier will be able to provide any specific information as to the location of Hussein. Useful, however, is the location of the personal secretary, which the weapons’ supplier may be able to provide due to the direct relationship between the two.” p. 104

Это, конечно, замечательное наблюдение, но при чём тут транзитивность как сетевая статистика? Это же видно “на глаз”.

“From this it is apparent that the Network of Saddam Hussein is a localized network where those on the periphery are “less connected” — that is there are great inequalities in actor centrality. Those with power have it, and those without it do not!” p. 129

Периферия такая периферия!

“There is a clear division of labor within the network – financiers, decision makers, operators, logisticians, weapons’ distributors, etc.” p. 149

Да поди ж ты! А так это было непонятно.

Но самое смешное заключается в том, что в самом начале диссертации автор пишет (p. 84), что конкретное место, где нашли Саддама, находилось чуть дальше, чем предполагали они и указал им на него человек, захваченный утром в совершенно другой операции, не связанной с поимкой Саддама!

Тогда к чему весь последующий цирк с сетями? Я бы понял, если бы на этого человека вышли с помощью сетевого анализа, но ведь нет же, его поймали случайно. А весь SNA свёлся к бездумному применению стандартных метрик и столь же бездумной их интерпретации и открытиям типа “сеть финансовых связей обладает низкой плотностью”.

Вот такой вот PhDец!