Сетевая визуализация упоминаний в Твиттере во время TechCrunch Moscow (#tcmoscow)

Продолжая тему конструктивной критики материалов Forbes, популяризирующих анализ социальных сетей, обращусь к другой публикации, вышедшей полгода назад, которая была посвящена анализу сетевых данных из Твиттера.

На сей раз статья практически не вызывает упрёков, а заголовок и вовсе достоин аплодисментов, т.к. над Clout Score в академическом мире не смеялся только ленивый. Единственным замечанием, которое стоило бы добавить к её тексту, является комментарий по поводу ограничений на количество и, как следствие, качество данных из Твиттера, которые можно собрать с помощью NodeXL.

Поэтому вместо критики позволю себе лишь проиллюстрировать сказанное в статье примером из наших реалий. Как я неоднократно говорил в своих выступлениях, а может быть даже и где-то писал, один из немногих типов данных из Твиттера в России, которые можно относительно смело анализировать с помощью NodeXL — это тематические конференции, связанные с Интернетом и IT. Одна из таких конференций прошла как раз вчера — речь идёт о TechCrunch Moscow.

Сегодня днём я собрал в Твиттере небольшой датасет, основанный на официальном хэштеге мероприятия #tcmoscow. Среди полученных данных оказалось 1735 твитов, содержащих упоминание других пользователей твиттера. Подобного рода данные вполне пригодны для сетевого анализа, поэтому я на скорую руку сделал по ним описательный анализ и визуализацию.

Вот картинка, аналогичная тем, что представлены в статье Forbes:
twitter mention network visualization techcrunch moscowЭта же картинка + результаты описательной статистики в галерее NodeXL.
Если пользоваться классификацией, приведённой в статье, то она как раз таки идеально вписывается в тип

2. In-Group Network: Seen at conferences and tight knit groups of people, this type of network rarely ventures outside of its membership. A big miss in most cases if you are a brand. Here’s an example of one for Social Business.

Все конференции, которые я анализировал подобным образом (как правило, это были РИФы и RIW), выглядели примерно также.

Стоит отметить, что деление на группы в данном случае весьма условное, т.к. кластеризация пользователей выражена довольно слабо. Это означает, что мероприятие было не очень диверсифицированным (т.е. не разбитым на стримы и секции) и все смотрели/обсуждали/упомянали одно и то же & одних и тех же. Как показывают результаты моих (и не только) исследований протестных политических движений в Твиттере, там ситуация совсем другая и кластеры выражены гораздо более четко.

К сожалению, сделать ту картинку более читабельной и тем более интерактивной у меня времени не хватило, поэтому пока что для более подробного ознакомления предлагаю аналогичный граф, построенный в Gephi:

 

UPD. Интерактивная версия данного графа, выполненная на основе Node.js находится здесь.

Также выкладываю небольшой список наиболее очевидных ТОПов по собранным данным (цифра во втором столбце отображает количество упоминаний).

ТОП-10 самых популярных пользователей

@tcmoscow 254
@techcrunch 142
@digitaloctober 141
@mikebutcher 113
@sbeloussov 91
@acronis 82
@runacapital 61
@nginx 45
@metkere 40
@m1try 32

ТОП-10 хэштегов:

#tcmoscow 1187
#techcrunch 35
#digitaloctober 26
#acronis 16
#startups 12
#facebook 7
#medesk 7
#video 7
#russianstartuprating 6
#10tracks 6

ТОП-10 ссылок:

http://bit.ly/1225c7o 63
http://goo.gl/sznkWV 16
http://tcrn.ch/19ru4qs 14
http://tc.digitaloctober.ru/startups 7
http://tcrn.ch/18sSaUA 6
http://Oktogo.ru 6
http://www.proved.co 6
http://instagram.com/p/hsjDbuE10L/ 6
http://tc.digitaloctober.com/ 5
http://instagram.com/p/hqa87tJtKm/ 4

На сегодня всё.

Визуализация социальных сетей: мои первые шаги

Вчера по приглашению бывшей студентки вещал про социальные сети на Научно Исследовательском Семинаре родной кафедры НИУ ВШЭ. Т.к. создание слайдов de facto стало одной из моих основных должностных обязанностей, решил выступить по старинке, без отвлекающих картинок. Ибо на мой взгляд для объяснения о Social Network Analysis нет ничего вреднее, чем мельтешащие “волосяные шары”

Однако сейчас, проспавшись и образумев, решил что иная крайность также вредна, и стал собирать в одну пачку слайдов иллюстрации к той слабоструктурированной лавине материала, которую я успел выдать за 2,5 часа непрерывного чесания языком. Т.к. выступление основывалось на моём опыте исследований и проектов, связаных с Social Network Analysis в Живом Журнале, Твиттере, Вконтакте и Фейсбуке, то некоторые картинки пришлось разыскивать в самых отдалённых уголках Живого Журнала и жесткого диска.

По ходы обнаружились визуализации, на которые сейчас можно смотреть разве что с умилением, как на первые детские рисунки. Но в том-то и кроется их прелесть. Поэтому для адекватного восприятия следующих картинок стоит настроить себя на лирическое настроение, которое возникает каждый раз, когда открываешь альбом со старыми фотографиями или пачку школьных тетрадей.

06_09a06_09b

Лето 2009 года. Это я решил поиграться с очередной задумкой то-ли провизора то-ли прохиндея от SNA Питера Глура. Того самого, который сейчас продолжает навешивать на людей в офисах электронные маячки, анализируя затем полученные сети коммуникации. Об этом у меня была заметка на WebScience а также на прошлом Sunbelt я сфотографировал Питера с таким маячком на фоне его постера, который и послужил поводом для написания той статьи.

Сервис, в котором сделаны эти картинки, назывался, кажется, Coolhunter и уже приказал долго жить. И если честно, то я навскидку не скажу, существует ли подобный функционал в какой либо из современных систем мониторинга и аналитики в Social Media.

Впрочем, деталей работы этого сервиса я тоже не помню – может быть что-то всплывало в комментариях к посту в Живом Журнале, где эти картинки были опубликованы впервые. Ну или прочитать книжку “Coolhunting: Chasing Down the Next Big Thing“, где подход и технология расписаны достаточно подробно, чтобы продать, но не настолько, чтобы воспроизвести “с нуля”.

Продолжение следует…

Мои новости и проекты: Санбелт, проект и он-лайн курс по анализу социальных сетей

Как можно догадаться по последним новостям в блоге, анализ социальных сетей из темы диссертационного исследования и увлечения превращается в более серьёзную часть моей жизни . Что не так просто совмещать с основной работой, даже если она также связана с социальными сетями. Всё это не лучшим образом сказывается на моей производительности, за что я приношу извинения всем причастным.

Поэтому тут я отпишусь о минувшем и грядущем одной строкой.

  • Посетил Sunbelt — главное мероприятие в области анализа социальных сетей. Впервые без доклада и впервые так плодотворно и интенсивно. О впечатлениях — позже;
  • Закончил курс Мэттью Джексона Social and Economic Networks от Coursera. Весьма насыщенный и довольно тяжёлый.
  • Работаю над собственным он-лайн курсом по Анализу Социальных Сетей для Университета без Границ. Примерная дата начала — 1 июля. В четверг, 13 июня, должен состояться вебинар на эту тему. Следите за обновлениями.
  • Заканчиваю один клиентский проект по сетевому анализу и визуализации в Facebook и Twitter. Если заказчик будет не против, постараюсь выложить ключевые моменты здесь.

Это только те вещи, которые имеют более-менее реальные очертание. О прочих задумках, заготовках, идеях и планах буду рассказывать по мере их воплощения. Пока что хватит и этого.

Визуализация Египетской революции в Твиттере

Натолкнулся на следующее видео, демонстрирующее динамику ретвитов об отречении Мубарака от должности.

По роду деятельности, а особенно после Sunbelt, я пресыщен сетевыми визуализациям, однако это видео показалось мне интересным. Не столько с точки зрения предмета, сколько в качестве демонстрации возможностей Gephi – бесплатной платформы для визуализации графов. Или “Фотошопа для графов”, как её именуют на домашней странице.

Я скачал эту программу пару месяцев назад, но поработать в ней ещё не успел. Возможно, из-за непривычности интерфейса и его глючности на 10-дюймовом мониторе. Однако, если судить по тому, как часто к ней выходят плагины и обновления, проект перспективный и заслуживающий пристального внимания.

Twitter: трезвый взгляд на статистику. Часть II

В предыдущем посте я рассмотрел первые сомнения в популярности Твиттера. Здесь мы продолжим это (не)благородное дело, имея в руках уже более конкретные числа. Новый удар по статистике популярного сервиса нанесло исследование Participatory Marketing Network. Согласно их данным, лишь 22% поколения “Y” (18-24 года) пользуется Твиттером. При том, что в традиционных социальных сервисах типа Facebook и MySpace зарегистрировано 99% молодых людей! Более того, 85% пользователей данной категории отметили, что “фолловят” друзей и лишь треть следит за аккаунтами компаний. Кстати, я сам недавно спросил аудиторию из 20 студентов, слышали они что-либо о Твиттере. Только двое подняли руки. Лишь для того, чтобы сказать, что узнали о нём от меня. Полагаю, что разницу на 10% можно объяснить нерепрезентативностью выборки общим отставанием России в вопросах современных коммуникаций =).

Далее последовало исследование Harvard Business School, проведённое на случайной выборке из 300 000 аккаунтов. Его основным открытием можно считать нетипичность Твиттера с точки зрения разделения полов. Так, если в классических “социальных сетях”, типа Facebook и MySpace, центром внимания и коммуникации является женщина, то в Твиттере это мужчина. То есть, несмотря на то, что 55% пользователей составляют женщины, у мужчин на 15% больше фолловеров. Более того, вероятность того, что “среднестатистическая” женщина зафолловит мужчину на 25% больше, чем женщину. Для мужчин это соотношение составляет 40%.

Другим принципиальным отличием Твиттера от прочих социальных сервисов является Парето-распределение функции числа сообщений от количества пользователей, которое больше напоминает Википедию, нежели Facebook и MySpace. В частности, в Твиттере 90% сообщений написаны 10% пользователей. В Википедии это соотношение составляет 90/15, а для “традиционном” социальном сервисе – 10/30. Эти распределения наглядно отображены на следующем графике:

twitter_research_1

Таким образом, мы видим, что сравнение Твиттера с Blogger.com является не столь уж странным.

Что же касается интересующей нас темы, то здесь статистика тоже не очень утешительная. Среднее значение числа твитов за май составляет 1, т.е. половина пользователей пишет обновления реже, чем раз в 74 дня. Более устойчивая к выбросам статистика – медиана – даёт результат 4, что тоже не очень много.

Такие результаты способно расстроить кого угодно, и Твиттер – не исключение. Это выразилось в остановке взрывного роста числа пользователей (при 7% росте посещаемости). Годовой прирост пользователей в 3 712% и увеличение времени просмотра на 699% являются в данном случае слабой компенсацией.

И вот, последнее исследование “the state of twittersphere” (pdf) от Hubspot, казалось бы подтвердило тревожные данные. На выборке в 4,5 миллиона аккаунтов, были получены следующие данные:

  • 79.79% не указали URL своего сайта
  • 75.86% не указали в профиле свою биографию
  • 68.68% не указали своего месторасположения
  • 55.50% никого не фолловят
  • 54.88% не имеют ни одного обновления
  • 52.71% не имеют ни одного фолловера

Казалось бы, что может быть печальней? Однако пара выводов этого исследования всё же обнадёживают.

Первый из них заключается в переопределении понятия “неактивный пользователей”. Традиционно таковым принято считать того, кто ничего не пишет. Однако, всем хорошо известны “lurkers” традиционных онлайн сообществ, которые хоть и не создают контента сами, но также являются неотъемлемой частью аудитории. Поэтому авторы исследования вводят новое определение “неактивности”. Чтобы считаться таковым, аккаунт должен отвечать всем трём из представленных условий и иметь:

  • меньше 10 фолловеров;
  • меньше 10 френдов;
  • меньше 10 обновлений.

А таковых, согласно данным, насчитывается только 10%.

Второй обнадёживающей находкой отчёта Hubspot является увеличение длины сообщений. По мнению авторов, оно свидетельствует о том, что пользователи постепенно привыкают к сервису и стремятся уместить свои сообщения в отведённые 140 символов. Графически это представлено на следующей диаграмме:

Таким образом, на данный момент смело можно утверждать только одно – Твиттер не является классическим социальным сервисом по типу Facebook и MySpace. Соответственно, к нему требуется принципиально отличный подход при работе и исследованиях.