Рост упоминаний анализа социальных сетей в Google Books

Готовясь недавно к выступлению о пользе анализа социальных сетей в народном хозяйстве, мучительно вспоминал, где я натыкался на графики роста упоминаний “социальных сетей” в публикациях. На ум пришел только исторический экскурс в анализ социальных сетей Фримена и ещё что-то.

Второй проблемой стал поиск нужной картинки в удобоваримом разрешении. Третьей – авторитетность источника, четвёртой – свежесть данных, пятой – красота графика и т.д. В общем, типичный набор проблем человека, вынужденного объяснять другим “актуальность и новизну” своих интересов.

И тут неожиданно нашёлся ответ на все семь бед: Google Books Ngram Viewer. О Google Ngrams я слышал и ранее, но данный инструмент опробовал впервые. Вкратце, он ищет необходимое сочетание слов по всей базе Google Books. В качестве настроек можно выбирать временной интервал и уровень сглаживания графика. Результат — моё почтение:

Анализ социальных сетей в Google Books Ngram Viewer
Рост упоминаний анализа социальных сетей в Google Books

 

Сходу могу предложить следующую интерпретацию некоторых скачков:

Довольно странный пик №1, т.к. сам концепт “социальная сеть” (“social network”) был “изобретён” в 1954 году (что и видно на пике №2). Он может быть связан с тем, что в исторической перспективе социальные сети как понятие принято связывать Георга Зиммеля, писавшего как раз в начале 20-го века.

Причиной “переломного момента” в точке №3 почти наверняка стал выход “библии анализа социальных сетей” Social Network Analysis: Methods and Applications Вассермана&Фауст , а также появившаяся на 2 года раньше хардкорная с математической точки зрения (и потому менее популярная) книжка Фримена&Уайта&Ромни Research Methods in Social Network Analysis.

. С точки №4 популярность анализа социальных сетей стремительно стартовала за счёт набежавших физиков в лице Данкана Уоттса, Альберта-Ласло Барабаши, Уолтера Строгача и пр. Подробнее об этих сюжетах можно почитать в моих предыдущих постах: про визуализацию книг по анализу социальных сетей на Amazon и про недостаток кооперации в области сетевого анализа.

Следующая же картинка может стать большим сюрпризом для тех, кто считает, что социальные сети начались с Фейсбука и Одноклассников:

Социальные сети в Google Books
Существовали ли социальные сети до Фейсбука и одноименного фильма?

Ко всему этому великолепию прилагается возможность работать с “сырыми данными”, что на мой взгляд является золотой жилой для всех адептов text mining и topic modelling.

В общем, отличный инструмент для всех перфекционистов и просто людей, стремящихся обосновывать свои слова данными.

Сетевая визуализация книг по анализу социальных сетей

Наткнулся на инструмент, который ищет заданную книгу на Амазоне и строит к ней интерактивный граф связанных с нею книг. Критерием связи, как я понял, является их рекомендательная система, т.е. количество пользователей, купивших вместе с этой книгой другие книги по схожей тематике.

Казалось, бы, ничего принципиально нового в этом нету, однако я был поражён, насколько точно данный граф отображает современное состояние анализа социальных сетей как дисциплины. Т.к. инструмент не позволяет встраивать динамическую визуализацию, то придётся довольствоваться картинкой, которую я на скорую руку нарисовал в Paint.

Книгой, которую я вбил в поиск была, как несложно догадаться, “библия анализа социальных сетей”: Social Network Analysis: Methods and Applications Стэнли Вассермана и Кэтрин Фауст. Кластер книг, обозначенный цифрой 1, который представляет собой по сути эгоцентрическую сеть данного издания, является essential reading или, если угодно, must read по анализу социальных сетей. В него входят такие книги, как:

Несколько странно, что сюда не попала книжка Introducing Social Networks Дежене и Форсе, которую лично я считаю более удачным хэндбуком, нежели простую, но суховатую книжку Скотта. Также несколько смущает отсутствие исторического экскурса в SNA от Линтона Фримена The Development of Social Network Analysis: A Study in the Sociology of Science. Впрочем, на фоне отсутствия целого кластера, посвященного анализу социальных сетей в организациях, это выглядит не столь странно.

В кластер номер 2 попали книги “новой волны” сетевого анализа. Их характерным отличием является то, что они посвящены анализу сетей вцелом, а не только социальных сетей. Так, сюда вошли 3 книги по сетевому анализу в экономике, уже успевшие стать “классикой”:

Особое положение между кластерами 1 и 2 занимает фундаментальный труд Марка Ньюмана Networks: An Introduction, являющийся по сути энциклопедией сетевого анализа, в которой анализ сетей социальных занимает лишь одну из частей. Действительно, сетевая позиция, которую, как правило, называют boundary spanner, как нельзя лучше характеризует данную книгу.

Третий кластер — это научно-популярное изложение сетевой теории от авторов, пришедших в сетевой анализ из физики: Дункана Уоттса, Стивена Строгатца, Альберта-Ласло Барабаши:

Зная бэкграунд этих авторов, нет ничего удивительного в том, что соседний кластер под номером 4 занимают книги, посвященные теории хаоса и сложных систем (Complexity Theory):

Нетрудно заметить, насколько обособленно от них находится книжка Николаса Кристакиса Connected, которую я упомянал в одном из предыдущих постов. Может потому, что тот пришёл в Network Science из медицины.

Пятый кластер, связанный с “джентльменским набором анализа социальных сетей” через весьма неплохую книжку по анализу сетей social media в NodeXL “Analyzing Social Media Networks with NodeXL: Insights from a Connected World“, представляет собой ни что иное, как подборку книг по data mining и big data.

Та же книга связывает традиционный анализ социальных сетей с бизнес-аналитикой, CRM и Digital Forensics, образовавшими кластер под номером 6.

Практически со всеми книгами данного списка я так или иначе знаком, поэтому в дальнейшем рецензии на них будут появляться в специальном разделе данного блога, посвященном книгам. Напоследок хотелось бы заметить, что подобный вид визуализации и подачи рекомендуемых книг кажется мне особенно интересным и перспективным, т.к. позволяет увидеть кластеры предметных областей, к которым принадлежат те или иные книги.

Также, как показывает практика, процесс оттягивания одного из узлов курсором мышки и наблюдения, как вся сеть болтается словно в желе, развлекает не хуже упаковки с пупырышками =).

Бимодальная сеть благодарственных речей лауреатов премии Оскар

Хотел написать об этом ещё вчера, однако навыки гугления подвели, поэтому пришлось обратиться за помощью к учёному сообществу.

The New York Times сделала забавную визуализацию речей победителей церемонии Оскар 2007 в виде бимодальной сети:

Обычно, в сетевом анализе с помощью бимодальных сетей (или, если угодно, “двудольных графов”) представляют взаимоотношения между сущностями двух классов. Как правило, это люди и организации, люди и советы директоров компаний и т.д. Здесь же авторы NYT подошли к вопросу креативно, изобразив взаимосвязь между лауреатами церемонии (кружки с картинкой) и теми, кого они благодарили в своей “acceptance speech” (кружки без картинки).

Как видно из картинки, наибольшее число благодарностей собрали режиссеры, сценаристы, продюсеры, а также семья. Бога, бойфренда, Арнольда Шварценеггера и всех латиносов упомянули по одному человеку.

Честно говоря, данная визуализаци мне не кажется особенно удачной. Я, например, не сразу увидел, что некоторые картинки фильмов там повторяются. Да и какого бы то ни было анализа тоже не последовало (по крайней мере, я не нашёл). А ведь можно было бы, например, превратить эту бимодальную сеть в две: связи между номинантами и между объектами благодарности и посмотреть, какие фильмы/благодетели наиболее близки друг-другу.

В общем, как это зачастую бывает — не лучшая реализация интересной идеи.

Первый блин в Gephi

Поняв, что желаемую динамическую визуализацию сети концептов, используемых в ходе дискуссий в LiveJournal, я получу скорее в Gephi, нежели в ORA, решил перебороть первое неприятие и познакомиться с программой поближе.

К сожалению, первые впечатления только усилились. Более непродуманного и нелогичного интерфейса я ещё в жизни не встречал! После 2х часов мучений, максимум, чего мне удалось добиться, было это:

Данная визуализация построена по данным широко известного в узких кругах скандала под названием “Куракингейт”. В данном случае узлы представляют блоггеров, а связи — комментирование одним блоггером записей или комментариев другого блоггера.

Лично мне бы хотелось как минимум наличия стрелок на конце линий, однако в Gephi эта задача не из тривиальных. Буду разбираться дальше.

Динамическая визуализация сети комментирования Живого Журнала в ORA

Развлечения ради сделал динамическую визуализацию сети комментирования в Живом Журнале с помощью ORA. Каждый узел – блоггер, оставивший комментарий, каждая связь указывает на блоггера, которому этот комментарий адресован. В качестве объекта был использован пост об отчислении студенток-активисток с соцфака МГУ и последовавшая за ним дискуссия.

Dynamic Visualization of Comment Networks in LiveJournal from Jarens Gald on Vimeo.

В общем-то, ORA – не самый подходящий инструмент для данной задачи, т.к. здесь не хватает возможности динамического изменения размера узла/веса связи в зависимости от центральности/количества комментариев. Точнее, это теоретически можно сделать, но вручную, сохраняя каждую картинку как кадр для *.gif анимации. Нужно будет предложить добавить подобный функционал автоматически.

В идеале, хотелось бы получить что-то наподобие этого:

Но, как я уже говорил, с Gephi у меня пока отношения не складываются. Будем работать.