Анализ социальных сетей взаимопомощи между одноклассниками Гарри Поттера

Поскольку редакционная политика Webscience не предполагает засилия картинок, буду выкладывать ссылки на мои материалы тут с картинкой для привлечения внимания.

На сей раз заметка про анализ социальных сетей между учениками Хогвардса, основной посыл которой заключается в том, что некоторым “исследованиям” лучше публиковаться в блогах, а не в академических журналах.

Анализ социальных сетей одноклассников Гарри Поттера
Анализ социальных сетей одноклассников Гарри Поттера

Иногда применение модных методов анализа данных превращается в «цель в себе». Ярким примером тому может служить недавнее исследование изменений в структуре связей поддержки среди школьников… на основе серии книг про Гарри Поттера.

Продолжение на Webscience.ru

WebScience to the rescue!

webscience_logo_2Я всегда время был большим поклонником “Вебпланеты” и довольно тяжело воспринял её закрытие. Поэтому несложно представить, какие чувства я испытал, когда Лёха Андреев предложил мне поучаствовать в его новом проекте Webscience.ru, посвящённом обзору интересных и релевантных научных исследований, связанных с Интернетом.

Роль новостного журналиста мне немного непривычна (что легко заметить по данному блогу). Однако умение кратко изложить суть того или иного явления весьма полезно не только в исследовательском ремесле. Поэтому буду прокачивать данный навык, совмещая приятное с полезным. Отныне достойные внимания новости и исследования в области анализа социальных сетей будут мною публиковаться там.

На данный момент мною написаны две вещи:

2013-03-04-3.harlemshake_feb_7_8
Картинка для привлечения внимания. Для того, чтобы узнать, что на ней изображено, пройдите по ссылке на новость выше.

Впрочем, как показывает практика, жанр, в котором мне комфортнее всего писать — это комментарии (см. раздел “Последние комментарии” в моём профиле на сайте или мои комментарии на Хабрахабре).

Как мы помним, труды первых философов-учёных были оформлены в виде диалогов. Не брезговали этим жанром и основатели “современной” науки: Фрэнсис Бэкон и Галилео Галилей. Так или иначе, именно диалог с интересным собеседником лучше всего стимулирует меня к написанию текстов. При этом существует соблазн списать отсутствие более-менее серьёзных публикаций на отсутствие соответствующих собеседников, однако это было бы не совсем корректно. Куда более правильным подходом является поиск таковых и привлечение их к дискуссии.

Чем я и планирую заняться на Webscience.

Social Network Analysis: он-лайн курс по анализу социальных сетей от Coursera

Coursera SNA На Coursera стартовал второй сезон курса по анализу социальных сетей. Насколько я знаю, на данный момент это единственный он-лайн курс по сетевому анализу, поэтому всем, кто интересуется данной темой, имеет смысл обратить на него внимание. Я прошёл его в прошлый раз и поделюсь тут своими впечатлениями.

Несмотря на то, что курс озаглавлен как Social Network Analysis, социологической составляющей в нём не так много, как хотелось бы. Читает его Lada Adamic, обессмертившая себя визуализацией американской политической блогосферы накануне выборов 2004 года. Лада относится к молодому поколению исследователей социальных сетей, которое, как правило, представлено выходцами из математики, физики и Computer Science и в силу своего образования тяготеющего к математическим, вычислительным и алгоритмическим аспектам сетевого анализа. А с появлением “библии” данного направления — книги Марка Ньюмена “Networks: Introduction” — и журнала “Network Science”, данная область стала отличаться от анализа социальных сетей также и институционально.

Lada Adamic usa political blog network
Если бы Лада получала royalty за каждое использование данной визуализации, она бы уже давно могла бросить работу и жить на отчисления. Впрочем, судя по тому, что она не использовала её в качестве логотипа своего курса, возможно эти права принадлежат кому-то другому.

Собственно поэтому, несмотря на то, что в курсе покрыты стандартные для SNA темы центральностей, выявления сообществ, визуализаций и т.д., всё-таки заметен уклон в сторону математических моделей (Erdos-Renyi, Scale-Free, preferential attachment), симуляций (в одном из домашних заданий нужно было написать фрагмет кода на SCALA для NetLogo), анализа и визуализации сетей, узлами которых не являются люди (например, та же сеть рецептов) и всего того, что логичнее относить к области Network Science.

В общем и целом, курс оставил впечатление довольно сырого (система не смогла распознать одну из моих домашек и её мне не засчитали) и не очень хорошо структурированного (в отличие от Networked Life, о котором я недавно писал).

К плюсам можно отнести видео-интервью с людьми, которые занимаются анализом социальных сетей в таких компаниях как Facebook (Cameron Marlow), LinkedIn (Sébastien Heymann, по совместительству создатель Gephi).

Впрочем, от обзорного курса сложно требовать что-то большее. Тем более, когда он является единственным в своём роде.

Форум Исследователей Social Network Analysis (ФИSNA)

FISNAВ прошлую среду выступил на Форуме Исследователей Social Network Analysis (ФИSNA), организованном Лабораторией Цифрового Общества с докладом о том, почему анализ социальных сетей в том виде, в котором я им занимаюсь, не стоит морщинки на лице Тома Снайдерса.

По формату требовалось вкратце рассказать о себе и своих достижениях, однако я решил поделиться неудачей

Таковой неудачей я считаю сетевой анализ данных из твиттера, собранных 24 декабря 2011 года, по результатам которого я уже успел доложиться на нескольких конференциях. А заключается она в том, что финальную версию этого доклада, я не стал подавать на грядущий Sunbelt. Даже несмотря на то, что с содержательной точки зрения, его результаты — пожалуй, самое интересное, что у меня пока получалось на этой ниве.

Почему я этого не сделал? Тому как минимум 4 причины:

  • Тема доклада на данный момент безусловно горяча и актуальна. Но мой двигал скорее общий интерес, нежели чётко сформулированные исследовательские вопросы и гипотезы.
  • Данные были уникальнми и достаточно репрезентативными, однако, как выяснилось, при их сборе я не учёл всех нюансов языка запросов в Твиттеру, что привело к значительному искажению содержательных результатов (об этом напишу отдельным постом).
  • Были применены довольно продвинутые методы сетевого анализа, однако я до сих пор не уверен в том, что Louvain algorithm является наиболее адекватным методом для тех задач, к которым я его применил.
  • Там даже была цветная визуализация спагетти-style, сделанная в Gephi, каковых сейчас десятки, если не сотни.

Все вышеперечисленные (а также и некоторые другие) недостатки привели к тому, что проделанная работа не может претендовать на статус “научной”. Более того, она не является и “исследованием”. Её жанр и ниша — разрозненный “эксплораторный” анализ данных, который, безусловно, имеет полное право на существование, но не может считаться результатом “анализа социальных сетей” в том виде, в каком понимаю его я.

В моём понимании, анализ социальных сетей (как и всякий анализ данных) — это искусство давать понятные ответы на чётко сформулированные и актуальные вопросы с помощью применения адекватных методов к релевантным данным.

Слайды и видеозаписи выступлений, можно посмотреть на сайте Лаборатории Цифрового Общества.

Видеозапись человека, похожего на  моего выступления в двух частях:

P.S. Как меня совершенно корректно подправили, Лазарсфельд с Мертоном написали о гомофилии в 60-х. Если не ошибаюсь, тут: Lazarsfeld, Paul F., and Robert K. Merton. “Friendship as a social process: A substantive and methodological analysis.” Freedom and control in modern society 18.1 (1954): 18-66.

Впредь буду внимательнее.

Networked Life – бесплатный он-лайн курс по сетям от Coursera

Coursera Networked LifeНедавно окончил он-лайн курс по сетевому анализу Networked Life от Coursera с не очень впечатляющим результатом в 97.4206349206349%, о чём был выдан соответствующий сертификат.

Как несложно догадаться из названия, курс был посвящён сетям, однако не столько социологическим их аспектам, сколько моделям, симуляциям, экспериментам и играм. Собственно поэтому первое впечатление от курса было довольно неприятным, т.к. профессор Michael Kearns почему-то решил называть диаметром сети среднее расстояние между любыми двумя узлами, а не максимальное, как это принято в литературе. Я повозмущался было по этому поводу на тамошнем форуме ссылаясь на всех мыслимых авторитетов, включая Фрэнка Харари от теории графов, Стэнли Вассермана и Кэтрин Фауст от анализа социальных сетей, и Марка Ньюмана как предтечи новомодной нынче Network Science. Но так как особой реакции не последовало (кроме обвинений в понтах и зазнайстве), я плюнул на это дело и смирился с тем, что в Интернете кто-то так и остался неправ…

Профессор вообще оказался со странностями, т.к. каждую лекцию начинал со стандартной приветственной фразы “… from a lovely place in downtown Philadelphia” в то время как в качестве “задников” использовались фотографии разных городов, причём каждый раз новые.
Впрочем, первое впечатление оказалось в очередной раз обманчивым. Его лекции были очень хорошо структурированы, материал вмеру сложен, а на тесты давалось только 2 или 3 попытки, что исключало возможность ответа на них “методом тыка”.

Из полезных вещей я для себя вынес более детальное знакомство с платформой для симуляций и агентных моделей (или как там правильно переводится agent based modelling) NetLogo, а также понимание взаимосвязи теории игр и сетевого анализа, доселе не столь очевидной. И хотя я не верю ни в то ни в другое, данные сведения были весьма полезны. Моделирование в социальных науках, как математическое, так и основанное на симуляциях, кажется мне чем-то вроде кропотливого конструирования идеальных линеек, мер и весов с тем, чтобы потом применить их к заведомо “кривому” объекту. Я прекрасно помню аргумент Макса Вебера по данному поводу, однако мне всё же интереснее отвечать на вопрос, почему эта линейка не подходит. Т.е., грубо говоря, я пока остаюсь приверженцем ad hoc исследований.

Вцелом, это был неплохой курс средней сложности с отличным изложением материала.