Daten über Soziale Netzwerke (Social network data)
Einführung: Warum Daten über Soziale Netzwerke so anders sind
Es gibt eigentlich gar nicht so viele Besonderheiten an den Daten, die aus der Analyse Sozialer Netzwerke gewonnen werden. Zwar benutzen Analysten Sozialer Netzwerke eine spezielle Fachsprache, wenn sie Strukturen und Bedeutung der durch Beobachtungen gewonnenen Daten diskutieren. Dennoch können Daten über Netzwerke auch mit herkömmlichen Methoden beschrieben und interpretiert werden, zum Beispiel denen, die aus der Auswertung von Umfragen bekannt sind.
Andererseits sehen die Datensätze, die von Analysten Sozialer Netzwerke gewonnen werden, zumeist etwas anders aus als die herkömmlichen, rechteckigen Datenfelder aus der Welt der Umfrage-Forscher und Statistiker. Diese Unterschiede sind ziemlich wichtig, denn sie erlauben uns, die vorliegenden Daten aus einem anderen Blickwinkel zu betrachten - ja sogar die Art, wie wir Statistik betreiben, zu hinterfragen.
Herkömmliche Daten der Sozialwissenschaftler bestehen aus einem rechteckigen Datenfeld gefüllt mit Messergebnissen. In den einzelnen Zeilen finden sich dabei die Forschungsobjekte wieder. Die Spalten beinhalten die Ausprägungen bestimmter Merkmale (sowohl quantitav als auch qualitativ), Variablen oder Messergebnisse. Ein einfaches Beispiel wird in Bild 1.1 gezeigt. Jede Zelle des Datenfeldes beschreibt die Ausprägung eines Untersuchungsgegenstandes (Zeile) in einer bestimmten Eigenschaft (Spalte). In einigen Fällen gibt es sogar eine dritte Dimension, die der Darstellung anderer Versuchsreihen oder Gruppen dient.
| Name | Geschlecht | Alter | Anzahl eingehender Kanten |
|---|---|---|---|
| Bob | Männlich | 32 | 2 |
| Carol | Weiblich | 27 | 1 |
| Ted | Männlich | 29 | 1 |
| Alice | Weiblich | 28 | 3 |
Die grundlegende Struktur der Daten legt uns nahe, die jeweiligen Forschungsobjekte anhand ihrer Eigenschaften miteinander zu vergleichen. Wir könnten auch untersuchen, inwieweit sich die Eigenschaften in ihren Ausprägungen voneinander unterscheiden. Dazu müssten die korrelierenden Spalten verglichen werden.
Netzwerk-Daten (in ihrer originären Form) bestehen aus einem quadratischen Feld gefüllt mit Ausprägungen. In den Zeilen des Feldes sind wieder die Forschungsobjekte aufgelistet. Die Spalten des Feldes sind - und das ist der entscheidende Unterschied zu herkömmlichen Daten - befüllt mit eben jenen Objekten. Jede Zelle beschreibt dabei eine Beziehung zwischen den Akteuren. Ein einfaches Beispiel zeigt Bild 1.2. Darin werden Freundschaftsbeziehungen zwischen vier Leuten beschrieben.
| Wahl | ||||
|---|---|---|---|---|
| Wähler | Bob | Carol | Ted | Alice |
| Bob | - | 0 | 1 | 1 |
| Carol | 1 | - | 0 | 1 |
| Ted | 0 | 1 | - | 1 |
| Alice | 1 | 0 | 0 | - |
Wir könnten diese Datenstruktur genauso analysieren, wie wir das obige Beispiel mit den abgebildeten Eigenschaften betrachtet haben. Indem wir die Zeilen des Feldes vergleichen, können wir erkennen, welche Akteure anderen ähnlich sind in dem Sinne, dass sie die gleichen Leute ausgewählt haben. Indem wir auf die Spalten schauen, können wir herausfinden, wer wem ähnlich ist im Sinne des gewählt-werdens. Das sind hilfreiche Möglichkeiten auf die Daten zu schauen, da sie uns helfen, herauszufinden, welche Akteure ähnliche Stellungen in dem Netzwerk haben. Das ist der erste wichtige Knackpunkt der Netzwerk-Analyse: zu sehen, wie die Akteure in dem Gesamtnetzwerk positioniert oder eingebettet sind.
Doch ein Netzwerk-Analyst wird wahrscheinlich noch eine zweite Herangehensweise wählen: die ganzheitliche. Der Analyst wird feststellen, dass es in der Matrix etwa gleich viele Nullen und Einsen gibt. Daraus leitet sich ein ziemlich ausgewogenes Verhältnis des Einander-Mögens und -Nicht-Mögens ab. Der Analyst wird weiterhin überprüfen, ob die Relation des Mögens symmetrisch ist (wenn Bob Ted mag, mag dann Ted auch Bob?). Das ist der zweite wichtige Knackpunkt der Netzwerk-Analyse: die Gesamtstruktur der individuellen Angaben erlaubt einen ganzheitlichen Blick.
Es ist im Grunde genommen möglich, Netzwerk-Daten genauso zu betrachten wie herkömmliche Daten. Man kann sich ohne weiteres die Reihen als eine Auflistung der Fälle und die Spalten als zugeordnete Eigenschaften der Akteure vorstellen (d.h., dass die Relationen mit anderen Akteuren einfach als Eigenschaften angenommen werden). Und tatsächlich ist es so, dass viele der von Netzwerk-Analysten benutzten Methoden (etwa die Berechnung von Korrelationen oder Abständen) so auf Netzwerk-Daten angewendet werden, wie sie auch auf herkömmliche Daten angewendet werden würden.
Obwohl es also möglich ist, die Netzwerk-Daten als Spezialfall herkömmlicher Daten zu betrachten (der sie ja auch sind), schauen Netzwerk-Analysten noch von einem grundverschiedenen Blickpunkt auf die Daten. Anstatt zu denken, dass die Verbindungen eines Akteurs mit anderen Akteuren die Eigenschaften eines "Egos" darstellen, sehen die Netzwerk-Analysten eine Netzstruktur, in die die Akteure eingebettet sind. Akteure werden durch ihre Beziehungen und nicht durch ihre Eigenschaften beschrieben. Und die Beziehungen sind per se von genauso großer Bedeutung, wie die Akteure, die sie verbinden.
Der Hauptunterschied zwischen herkömmlichen und Netzwerk-Daten ist, dass herkömmliche Daten die Akteure und deren Eigenschaften in den Mittelpunkt rücken; Netzwerk-Daten sind auf die Akteure und ihre Verbindungen fokussiert. Dieser Bedeutungsunterschied ist ausschlaggebend für die Herangehensweise, die ein Forscher wählen muss, sei es mit Blick auf den Aufbau der Studie, die Durchführung der Datenbeschaffung oder die Methodik der Datenanalyse. Die von Netzwerk-Analysten benutzten Forschungswerkzeuge sind dabei nicht so verschieden von denen anderer Sozialwissenschaftler. Aber der spezielle Zweck und die Bedeutung der Netzwerk-Analyse legen ein paar zusätzliche Überlegungen nahe.
In diesem Kapitel werden wir einige Designaspekte der Netzwerkforschung untersuchen sowie Besonderheiten bei der Aufnahme und Analyse von Daten sozialer Netzwerke diskutieren. Dabei werden wir uns auf zwei Bestandteile von Netzwerk-Daten konzentrieren: Knoten (oder Akteure) sowie Kanten (Relationen). Wir werden einige Gemeinsamkeiten und Unterschiede zu herkömmlichen, eigenschaftsbasierten Daten aufzeigen. Außerdem werden wir die gebräuchliche Terminologie einführen, damit wir die Besonderheiten von Netzwerk-Daten einfacher beschreiben können. Und zuletzt erklären wir, auf welche Art und Weise die Unterschiede zwischen netzwerk- und eigenschaftsbasierten Daten die Anwendung statistischer Werkzeuge beeinflussen.
Knoten
Ein Netzwerk wird über seine Akteure und Relationen definiert (auch Knoten und Kanten genannt). Knoten an sich sind keine Besonderheit. Andere empirische Ansätze in den Sozialwissenschaften haben ähnliche Konzepte. Dort heißt das dann Fall, Subjekt, Untersuchungsgegenstand oder auch Element der Stichprobe. Einen Unterschied gibt es allerdings schon, und der liegt in der Art, wie die Daten gesammelt werden, begründet - und auch darin, wie die Stichprobe ausgewählt wird.
Netzwerk-Analyse stellt die Beziehungen zwischen den Akteuren in den Mittelpunkt, und nicht die individuellen Akteure mit ihren jeweiligen Eigenschaften. Daraus ergibt sich, dass die Stichprobe nicht unabhängig ausgewählt werden kann, wie das in anderen Forschungsgebieten geschieht (insbesondere Umfragen). Nehmen wir einmal an, wir müssten Freundschaftsbeziehungen untersuchen. John wird nun für unsere Stichprobe ausgewählt. Auf die Frage nach seinen Freunden zählt er sieben Leute auf. Nun stehen wir vor dem Problem, dass wir diese sieben Leute auch in unsere Stichprobe aufnehmen und nach ihren Freunden befragen müssen. Diese sieben Leute sind in unserer Stichprobe, weil John sie als seine Freunde genannt hat, d.h., die Stichprobe ist nicht mehr unabhängig.
Die Knoten oder Akteure aus Studien, die keinen Netzwerk-Bezug haben, sind zumeist das Ergebnis einer unabhängigen Stichprobenerhebung. Studien über Netzwerke hingegen enthalten oftmals alle Akteure innerhalb einer gewissen (meist natürlich auftretenden) Grenze. Häufig werden für Netzwerk-Studien sogar gar keine Stichproben genutzt, zumindest im herkömmlichen Sinne. Vielmehr tendieren sie dazu, alle Akteure einer oder mehrerer bestimmter Grundgesamtheiten zu berücksichtigen. Klar ist, dass die zu untersuchenden Grundgesamtheiten eine Stichprobe aus einer größeren Menge an Grundgesamtheiten sein können. Beispielsweise würden wir alle Kinder einer Klasse einschließen, wenn wir die Verhaltensmuster innerhalb der Klasse untersuchen wollten. Die Klasse selbst hingegen könnte mit Methoden der Wahrscheinlichkeitslehre aus der Gesamtheit aller Klassen (z.B. einer bestimmten Schule) ausgewählt worden sein.
Die Tatsache, dass in Netzwerk-Studien oftmals ganze Grundgesamtheiten für die Untersuchung herangezogen werden, macht es für den Analysten so wichtig, sich über Auswahlkriterien und Grenzen der gewählten Untersuchungsgruppe im Klaren zu sein. Für die Analyse von Netzwerk-Daten ist es häufig nötig, verschiedene Ebenen zu betrachten. Dabei finden sich die einzelnen Akteure in der untersten Ebene wieder. Man spricht in diesem Zusammenhang von verschachteltem Design.