#24 декабря 2011 года в Твиттере: сеть упоминаний

4 года назад состоялись митинги на Поклонной Горе и Проспекте Сахарова, по которым я собрал из Твиттера данные и несмотря на редкие и спорадические подходы к их анализу успел сделать по ним около десятка презентаций на зарубежных и иногда даже отечественных конференциях, сдать в печать одну англоязычную публикацию и почти написать вторую. Однако все эти результаты каким-то мистическим образом так ни разу и не всплывали в данном блоге кроме как в виде фоновой картинки его заголовка, на которой представлена сеть “реплаев” между пользователями, ключевые акторы которой всем хорошо известны, но по политико-эстетическим причинам оттуда скрыты.

В очередной юбилей данного события я решил хоть как-то исправить это недоразумение и, заборов перфекционизм, запостить хоть что-то вместо традиционного ничего. И начать, пожалуй, лучше всего с данных, т.к. благодаря интересу к ним всё, в общем-то и началось. Но прежде немного истории. На тот момент, а по большому счёту и по сей день, Twitter представлял наиболее простой и удобный способ к собственным данным, чего, увы, не скажешь о качестве самих данных с точки зрения интерпретации, социологической и не только. Первое время единственным поставщиком действительно интересных сетевых данных были крупные IT-конференции вроде RIF и RIW. Однако зимой 2012 года произошёл ряд всем известных политических событий после которых русскоязычный сегмент данной сети претерпел значительные изменения.

Политические митинги, последовавшие за оглашением результатов выборов в Государственную Думу 2011 года (по первому из которых, кстати, тоже сохранились кое-какие данные) некоторым образом отобразились и в Твиттере. И я говорю “некоторым образом” в первую очередь потому, что образ, формат и масштаб данного отображения лично мне пока неизвестен и требует тщательной количественной и сравнительной оценки с похожими сюжетами в других странах, которые принято называть “твиттерными революциями” или, в зависимости от региона, “арабской весной”. Таким образом, митинги на Проспекте Сахарова и Поклонной Горе стали одними из первых акций о которых было известно заранее (в отличие от стихийных первых митингов) а также, что показалось особенно привлекательным с исследовательской точки зрения, в них участвовали представители противоположных политических сил в один день и в одно время. Это позволяло заблаговременно начать сбор данных, что я и сделал.

К 24 декабря 2011 года уже сложилась традиция использовать в рамках подобных мероприятий хэштеги, составленные по формуле дата+месяц. Безусловно, были и другие типа #КартонныйМитинг, но они носили явное оценочное суждение и наверняка привели бы к искажению картины. Поэтому был выбран наиболее нейтральный из популярных хэштег #24дек. Выбор одного единственного хэштега также был обусловлен чисто финансовыми соображениями. Для сбора данных я использовал сервис DataSift, которая на тот момент была одной из двух лицензированных платформ, занимающихся продажей данных из Твиттера. Второй был Gnip, после покупки которого Твиттер разорвал контракт с DataSift монополизировав таким образом данный рынок. Приятной особенностью сервиса DataSift была возможность покупки данных по схеме Pay-as-you-Go, т.е. “поштучно” или “на развес”, задав фильтр по интересующим ключевым словам, а также ряду других параметром. А так как ценник там формировался в зависимости от сложности запроса и в том числе от числа ключевых слов, я решил ограничиться одним, самым популярным и очевидным вариантом. Если бы я тогда знал, что бесплатно можно получить данные большего объема и лучшего качества, всё бы могло сложиться иначе, но это уже совсем другая история заслуживающая отдельного поста.

Если же вкратце, то всего получилось 24 378 сообщения от 3 485 уникальных пользователей. Среди этих сообщений примерно половина содержала упоминание того или иного пользователя, что позволяло построить и визуализировать связи между ними в виде сетевой визуализации, представленной ниже.

Сеть упоминаний между пользователями.
Сеть упоминаний между пользователями.

Данный вид визуализации был немного причёсан из эстетических соображений, дабы продемонстрировать политический “ландшафт” пользователей по аналогии с глобусом. Размером здесь показана популярность пользователя, т.е. число раз, когда он был упомянут другими, а цветом — принадлежность к тому или иному кластеру, выделенному автоматически. Несмотря на то, что представители противоборствующих сил некоторым образом кучкуются вместе, чёткой и однозначной их поляризации, наподобие той, что была получена на знаменитой ныне визуализации Лады Адамик, отображающей связи между политическими блогами в США перед выборами 2004 года, здесь увидеть нельзя. Свидетельствует ли это об отсутствии эффекта “Echo Chamber” при котором люди получают и производят только ту информацию, что близка их взглядам, не обмениваясь ею со сторонниками противоположных точек зрения, сказать сложно. По крайней мере без тщательного анализа содержания сообщений.

На самом деле, в сыром виде, всё выглядит несколько менее приглядно:

Сеть упоминаний между пользователями: непричёсанный вид.
Сеть упоминаний между пользователями: непричёсанный вид.

Несмотря на меньшие эстетические качества, вторая картинка гораздо лучше подчёркивает факт аномальной удалённости пользователя @alex_yarosh и его окружения от остальных. Также столь аномальное скопление пользователей, которые ретвитили только одного пользователя, которого можно условно назвать “лидером мнений” (да простят меня Лазарсфельд и преподаватели социологии), являлось визуальным признаком на то, что все они являлись ботами. Являлись ли они таковыми или нет — смотрите в следующей серии.