Сетевая визуализация упоминаний в Твиттере во время TechCrunch Moscow (#tcmoscow)

twitter mention network visualization techcrunch moscow

Продолжая тему конструктивной критики материалов Forbes, популяризирующих анализ социальных сетей, обращусь к другой публикации, вышедшей полгода назад, которая была посвящена анализу сетевых данных из Твиттера.

На сей раз статья практически не вызывает упрёков, а заголовок и вовсе достоин аплодисментов, т.к. над Clout Score в академическом мире не смеялся только ленивый. Единственным замечанием, которое стоило бы добавить к её тексту, является комментарий по поводу ограничений на количество и, как следствие, качество данных из Твиттера, которые можно собрать с помощью NodeXL.

Поэтому вместо критики позволю себе лишь проиллюстрировать сказанное в статье примером из наших реалий. Как я неоднократно говорил в своих выступлениях, а может быть даже и где-то писал, один из немногих типов данных из Твиттера в России, которые можно относительно смело анализировать с помощью NodeXL — это тематические конференции, связанные с Интернетом и IT. Одна из таких конференций прошла как раз вчера — речь идёт о TechCrunch Moscow.

Сегодня днём я собрал в Твиттере небольшой датасет, основанный на официальном хэштеге мероприятия #tcmoscow. Среди полученных данных оказалось 1735 твитов, содержащих упоминание других пользователей твиттера. Подобного рода данные вполне пригодны для сетевого анализа, поэтому я на скорую руку сделал по ним описательный анализ и визуализацию.

Вот картинка, аналогичная тем, что представлены в статье Forbes:
twitter mention network visualization techcrunch moscowЭта же картинка + результаты описательной статистики в галерее NodeXL.
Если пользоваться классификацией, приведённой в статье, то она как раз таки идеально вписывается в тип

2. In-Group Network: Seen at conferences and tight knit groups of people, this type of network rarely ventures outside of its membership. A big miss in most cases if you are a brand. Here’s an example of one for Social Business.

Все конференции, которые я анализировал подобным образом (как правило, это были РИФы и RIW), выглядели примерно также.

Стоит отметить, что деление на группы в данном случае весьма условное, т.к. кластеризация пользователей выражена довольно слабо. Это означает, что мероприятие было не очень диверсифицированным (т.е. не разбитым на стримы и секции) и все смотрели/обсуждали/упомянали одно и то же & одних и тех же. Как показывают результаты моих (и не только) исследований протестных политических движений в Твиттере, там ситуация совсем другая и кластеры выражены гораздо более четко.

К сожалению, сделать ту картинку более читабельной и тем более интерактивной у меня времени не хватило, поэтому пока что для более подробного ознакомления предлагаю аналогичный граф, построенный в Gephi:

 

UPD. Интерактивная версия данного графа, выполненная на основе Node.js находится здесь.

Также выкладываю небольшой список наиболее очевидных ТОПов по собранным данным (цифра во втором столбце отображает количество упоминаний).

ТОП-10 самых популярных пользователей

@tcmoscow 254
@techcrunch 142
@digitaloctober 141
@mikebutcher 113
@sbeloussov 91
@acronis 82
@runacapital 61
@nginx 45
@metkere 40
@m1try 32

ТОП-10 хэштегов:

#tcmoscow 1187
#techcrunch 35
#digitaloctober 26
#acronis 16
#startups 12
#facebook 7
#medesk 7
#video 7
#russianstartuprating 6
#10tracks 6

ТОП-10 ссылок:

http://bit.ly/1225c7o 63
http://goo.gl/sznkWV 16
http://tcrn.ch/19ru4qs 14
http://tc.digitaloctober.ru/startups 7
http://tcrn.ch/18sSaUA 6
http://Oktogo.ru 6
http://www.proved.co 6
http://instagram.com/p/hsjDbuE10L/ 6
http://tc.digitaloctober.com/ 5
http://instagram.com/p/hqa87tJtKm/ 4

На сегодня всё.

Author: Александр Семёнов

(Social | Network | Data) Scientist Младший научный сотрудник Международной лаборатории прикладного сетевого анализа НИУ ВШЭ

Leave a Reply

Your email address will not be published. Required fields are marked *