Hypothesentests und Textanalyse in sozialen Medien: Projekt 4 Journal Tutorial

Einleitung: Daten aus sozialen Medien verstehen

Soziale Medien wie Facebook, Twitter und YouTube liefern täglich riesige Datenmengen. In diesem Tutorial lernst du, wie du mit statistischen Methoden und Textanalyse Muster erkennst. Wir beziehen uns auf typische Aufgaben aus Projekt 4 Journal, ohne die Lösung direkt zu verraten. Stattdessen zeigen wir dir das Handwerkszeug.

Hypothesentests am Beispiel von Facebook-Reichweiten

Stell dir vor, du analysierst die Reichweite eines Facebook-Posts nach Altersgruppen und Geschlecht. Du möchtest wissen, ob die Unterschiede zufällig sind oder ob ein echter Effekt vorliegt. Dazu führst du einen statistischen Test durch.

Null- und Alternativhypothese

Die Nullhypothese (H₀) besagt: Es gibt keinen Unterschied zwischen den Gruppen. Die Alternativhypothese (H₁) besagt: Es gibt einen Unterschied. In unserem Fall: H₀: Die Reichweite ist unabhängig von Alter und Geschlecht. H₁: Die Reichweite hängt von Alter und Geschlecht ab.

Teststatistik und Randomisierung

Als Teststatistik verwendest du z.B. den Chi-Quadrat-Test. Die Formel lautet: χ² = Σ ( (beobachtet - erwartet)² / erwartet ). Um die Verteilung der Teststatistik unter H₀ zu erhalten, führst du eine Randomisierung durch: Mische die Gruppenzugehörigkeiten zufällig und berechne jedes Mal die Teststatistik. Wiederhole dies tausendfach. So entsteht eine Verteilung, mit der du deinen beobachteten Wert vergleichst.

Angenommen, dein beobachteter χ²-Wert ist 3,1. Wenn nur 5% der randomisierten Werte größer sind, verwirfst du H₀. Das bedeutet, die Unterschiede sind signifikant.

Textanalyse von Alien-Tweets

Neulich tauchten mysteriöse Tweets auf: "do da da da do", "di di di do do", "da da da da da da". Wir wollen herausfinden, welcher Tweet dem Query "da di" am ähnlichsten ist. Dazu brauchen wir Textvorverarbeitung und Ähnlichkeitsmaße.

Stopwörter und Stemming

Stopwörter wie "da" oder "do" könnten entfernt werden, aber hier sind sie die einzigen Wörter. Stemming (Reduktion auf Wortstamm) ist auch nicht sinnvoll, da die Wörter bereits kurz sind. Also behalten wir alles.

Dokument-Term-Matrix

Wir zählen die Häufigkeiten der Wörter in jedem Tweet:

Tweet 1: do (2), da (3) → Vektor [2,3]
Tweet 2: di (3), do (2) → [3,2]
Tweet 3: da (6) → [0,6]
Query "da di": da (1), di (1) → [1,1]

Die Reihenfolge der Spalten ist: di, da.

Kosinusähnlichkeit

Die Kosinusähnlichkeit zwischen zwei Vektoren A und B ist cos(θ) = (A·B) / (||A|| ||B||). Berechnen wir:

Tweet 1 & Query: (2*1 + 3*1) / (√(2²+3²) * √(1²+1²)) = 5 / (√13 * √2) ≈ 5 / (3,606 * 1,414) ≈ 0,98
Tweet 2 & Query: (3*1 + 2*1) / (√13 * √2) ≈ 0,98
Tweet 3 & Query: (0*1 + 6*1) / (√36 * √2) = 6 / (6 * 1,414) ≈ 0,71

Tweet 1 und 2 sind gleich ähnlich zur Query, Tweet 3 weniger. Das liegt daran, dass Tweet 3 kein "di" enthält.

Netzwerkanalyse von YouTube-Clips

Ein Graph zeigt Beziehungen zwischen Videos. Wir lernen, wie man Adjazenzmatrix, Durchmesser, Betweenness-Zentralität und Dichte berechnet.

Adjazenzmatrix

Für einen ungerichteten Graphen mit n Knoten ist die Adjazenzmatrix eine n×n-Matrix mit 1, wenn eine Kante existiert, sonst 0. Beispiel: Knoten A,B,C mit Kanten A-B, B-C ergibt Matrix:

Graphdurchmesser

Der Durchmesser ist die längste kürzeste Pfadlänge zwischen zwei Knoten. In obigem Beispiel ist der kürzeste Pfad von A nach C über B (Länge 2), also Durchmesser = 2.

Betweenness-Zentralität

Sie misst, wie oft ein Knoten auf den kürzesten Pfaden zwischen anderen Knoten liegt. Knoten B liegt auf dem Pfad von A nach C, also hat B Betweenness 1 (bei normierter Skala). Knoten A und C haben 0.

Dichte

Die Dichte eines Graphen ist das Verhältnis der vorhandenen Kanten zur maximal möglichen Anzahl. Bei 3 Knoten und 2 Kanten: Dichte = 2 / (3*2/2) = 2/3 ≈ 0,67.

Fazit: Werkzeuge für die Praxis

Mit diesen Methoden kannst du eigenständig Daten aus sozialen Medien analysieren. Ob Facebook-Reichweiten, Twitter-Texte oder YouTube-Netzwerke – Hypothesentests, Textähnlichkeit und Graphentheorie sind unverzichtbar. Probiere es selbst aus!