#24 декабря 2011 года в Твиттере: сеть упоминаний

4 года назад состоялись митинги на Поклонной Горе и Проспекте Сахарова, по которым я собрал из Твиттера данные и несмотря на редкие и спорадические подходы к их анализу успел сделать по ним около десятка презентаций на зарубежных и иногда даже отечественных конференциях, сдать в печать одну англоязычную публикацию и почти написать вторую. Однако все эти результаты каким-то мистическим образом так ни разу и не всплывали в данном блоге кроме как в виде фоновой картинки его заголовка, на которой представлена сеть “реплаев” между пользователями, ключевые акторы которой всем хорошо известны, но по политико-эстетическим причинам оттуда скрыты.

В очередной юбилей данного события я решил хоть как-то исправить это недоразумение и, заборов перфекционизм, запостить хоть что-то вместо традиционного ничего. И начать, пожалуй, лучше всего с данных, т.к. благодаря интересу к ним всё, в общем-то и началось. Но прежде немного истории. На тот момент, а по большому счёту и по сей день, Twitter представлял наиболее простой и удобный способ к собственным данным, чего, увы, не скажешь о качестве самих данных с точки зрения интерпретации, социологической и не только. Первое время единственным поставщиком действительно интересных сетевых данных были крупные IT-конференции вроде RIF и RIW. Однако зимой 2012 года произошёл ряд всем известных политических событий после которых русскоязычный сегмент данной сети претерпел значительные изменения.

Политические митинги, последовавшие за оглашением результатов выборов в Государственную Думу 2011 года (по первому из которых, кстати, тоже сохранились кое-какие данные) некоторым образом отобразились и в Твиттере. И я говорю “некоторым образом” в первую очередь потому, что образ, формат и масштаб данного отображения лично мне пока неизвестен и требует тщательной количественной и сравнительной оценки с похожими сюжетами в других странах, которые принято называть “твиттерными революциями” или, в зависимости от региона, “арабской весной”. Таким образом, митинги на Проспекте Сахарова и Поклонной Горе стали одними из первых акций о которых было известно заранее (в отличие от стихийных первых митингов) а также, что показалось особенно привлекательным с исследовательской точки зрения, в них участвовали представители противоположных политических сил в один день и в одно время. Это позволяло заблаговременно начать сбор данных, что я и сделал.

К 24 декабря 2011 года уже сложилась традиция использовать в рамках подобных мероприятий хэштеги, составленные по формуле дата+месяц. Безусловно, были и другие типа #КартонныйМитинг, но они носили явное оценочное суждение и наверняка привели бы к искажению картины. Поэтому был выбран наиболее нейтральный из популярных хэштег #24дек. Выбор одного единственного хэштега также был обусловлен чисто финансовыми соображениями. Для сбора данных я использовал сервис DataSift, которая на тот момент была одной из двух лицензированных платформ, занимающихся продажей данных из Твиттера. Второй был Gnip, после покупки которого Твиттер разорвал контракт с DataSift монополизировав таким образом данный рынок. Приятной особенностью сервиса DataSift была возможность покупки данных по схеме Pay-as-you-Go, т.е. “поштучно” или “на развес”, задав фильтр по интересующим ключевым словам, а также ряду других параметром. А так как ценник там формировался в зависимости от сложности запроса и в том числе от числа ключевых слов, я решил ограничиться одним, самым популярным и очевидным вариантом. Если бы я тогда знал, что бесплатно можно получить данные большего объема и лучшего качества, всё бы могло сложиться иначе, но это уже совсем другая история заслуживающая отдельного поста.

Если же вкратце, то всего получилось 24 378 сообщения от 3 485 уникальных пользователей. Среди этих сообщений примерно половина содержала упоминание того или иного пользователя, что позволяло построить и визуализировать связи между ними в виде сетевой визуализации, представленной ниже.

Сеть упоминаний между пользователями.
Сеть упоминаний между пользователями.

Данный вид визуализации был немного причёсан из эстетических соображений, дабы продемонстрировать политический “ландшафт” пользователей по аналогии с глобусом. Размером здесь показана популярность пользователя, т.е. число раз, когда он был упомянут другими, а цветом — принадлежность к тому или иному кластеру, выделенному автоматически. Несмотря на то, что представители противоборствующих сил некоторым образом кучкуются вместе, чёткой и однозначной их поляризации, наподобие той, что была получена на знаменитой ныне визуализации Лады Адамик, отображающей связи между политическими блогами в США перед выборами 2004 года, здесь увидеть нельзя. Свидетельствует ли это об отсутствии эффекта “Echo Chamber” при котором люди получают и производят только ту информацию, что близка их взглядам, не обмениваясь ею со сторонниками противоположных точек зрения, сказать сложно. По крайней мере без тщательного анализа содержания сообщений.

На самом деле, в сыром виде, всё выглядит несколько менее приглядно:

Сеть упоминаний между пользователями: непричёсанный вид.
Сеть упоминаний между пользователями: непричёсанный вид.

Несмотря на меньшие эстетические качества, вторая картинка гораздо лучше подчёркивает факт аномальной удалённости пользователя @alex_yarosh и его окружения от остальных. Также столь аномальное скопление пользователей, которые ретвитили только одного пользователя, которого можно условно назвать “лидером мнений” (да простят меня Лазарсфельд и преподаватели социологии), являлось визуальным признаком на то, что все они являлись ботами. Являлись ли они таковыми или нет — смотрите в следующей серии.

Визуализация социальных сетей: мои первые шаги

Вчера по приглашению бывшей студентки вещал про социальные сети на Научно Исследовательском Семинаре родной кафедры НИУ ВШЭ. Т.к. создание слайдов de facto стало одной из моих основных должностных обязанностей, решил выступить по старинке, без отвлекающих картинок. Ибо на мой взгляд для объяснения о Social Network Analysis нет ничего вреднее, чем мельтешащие “волосяные шары”

Однако сейчас, проспавшись и образумев, решил что иная крайность также вредна, и стал собирать в одну пачку слайдов иллюстрации к той слабоструктурированной лавине материала, которую я успел выдать за 2,5 часа непрерывного чесания языком. Т.к. выступление основывалось на моём опыте исследований и проектов, связаных с Social Network Analysis в Живом Журнале, Твиттере, Вконтакте и Фейсбуке, то некоторые картинки пришлось разыскивать в самых отдалённых уголках Живого Журнала и жесткого диска.

По ходы обнаружились визуализации, на которые сейчас можно смотреть разве что с умилением, как на первые детские рисунки. Но в том-то и кроется их прелесть. Поэтому для адекватного восприятия следующих картинок стоит настроить себя на лирическое настроение, которое возникает каждый раз, когда открываешь альбом со старыми фотографиями или пачку школьных тетрадей.

06_09a06_09b

Лето 2009 года. Это я решил поиграться с очередной задумкой то-ли провизора то-ли прохиндея от SNA Питера Глура. Того самого, который сейчас продолжает навешивать на людей в офисах электронные маячки, анализируя затем полученные сети коммуникации. Об этом у меня была заметка на WebScience а также на прошлом Sunbelt я сфотографировал Питера с таким маячком на фоне его постера, который и послужил поводом для написания той статьи.

Сервис, в котором сделаны эти картинки, назывался, кажется, Coolhunter и уже приказал долго жить. И если честно, то я навскидку не скажу, существует ли подобный функционал в какой либо из современных систем мониторинга и аналитики в Social Media.

Впрочем, деталей работы этого сервиса я тоже не помню – может быть что-то всплывало в комментариях к посту в Живом Журнале, где эти картинки были опубликованы впервые. Ну или прочитать книжку “Coolhunting: Chasing Down the Next Big Thing“, где подход и технология расписаны достаточно подробно, чтобы продать, но не настолько, чтобы воспроизвести “с нуля”.

Продолжение следует…

Сетевой анализ Твиттера: митинги на Сахарова и Поклонной Горе

Получил письмо от физиков (?!) из Johns Hopkins University, очень ждавших моего выступления на ASNA12 и сожалевших о том, что я не смог там выступить. Не знаю, куда они смотрели, однако, польщённый таким вниманием, слайды всё же выслал. Это несколько ослабило мой перфекционизм и я решил выложить эти слайды также и сюда, т.к. до членораздельного текста с нынешней загруженностью я ещё нескоро сподоблюсь.

Сразу предупреждаю, что заголовок поста/слайдов излишне претенциозен, т.к. после всех итераций в анализе этих данных я понял, что наиболее адекватным было бы что-то вроде: “Сетевой анализ использования хэштега #24дек в Твиттере во время протестных выступлений в Москве, 24 декабря 2011 года”.