Angewandte Datenanalyse mit Stata: Übungsmappe Teil 2 Tutorial

Einleitung: Warum Datenanalyse heute wichtiger ist denn je

Ob bei der Auswertung von Umfragen zur Videoüberwachung im öffentlichen Raum oder bei der Analyse von Nutzungsdaten in Social-Media-Apps – die Fähigkeit, Daten systematisch zu bereinigen und auszuwerten, ist eine Schlüsselkompetenz. Im zweiten Teil der Übungsmappe Angewandte Datenanalyse (Wintersemester 2025/26) wirst du genau das tun: Du bereitest Variablen auf, erstellst Kreuztabellen und bildest einen Index. Dieser Tutorial begleitet dich durch die wichtigsten Schritte, ohne die konkreten Aufgaben der Mappe zu lösen. Stattdessen erhältst du das Rüstzeug, um die Aufgaben selbstständig zu meistern.

1. Variablenaufbereitung in Stata: Grundlagen und Praxis

Bevor du mit der Analyse beginnst, musst du sicherstellen, dass deine Variablen korrekt formatiert und rekodiert sind. In der Übungsmappe geht es um die Variable vid_stark (Einstellung zur Videoüberwachung) und jugendost (Jugend in Ostdeutschland). Der erste Schritt: Sample-Einschränkung. Du beschränkst deine Analyse auf Personen, die zum Befragungszeitpunkt (ALLBUS 2016) zwischen 36 und 85 Jahre alt sind – also vor der Wiedervereinigung ihre Jugend erlebt haben. Das machst du mit dem keep- oder if-Befehl.

* Beispiel: Sample einschränken
gen alter = 2016 - geburtsjahr
keep if alter >= 36 & alter <= 85

Anschließend erstellst du die dichotome Variable vid_stark. Die Idee: Personen, die „auf jeden Fall“ oder „auf keinen Fall“ für Videoüberwachung sind, haben eine starke Meinung (Wert 1). Alle anderen („eher dafür“, „eher dagegen“, „weiß nicht“) erhalten 0. In Stata nutzt du recode oder generate mit Bedingungen. Vergiss nicht, die Variable und ihre Ausprägungen zu labeln – das erleichtert die spätere Interpretation.

* Beispiel: vid_stark generieren
generate vid_stark = 1 if j011_1 == 1 | j011_1 == 5
replace vid_stark = 0 if inlist(j011_1,2,3,4,6)
label variable vid_stark "Starke Meinung zur Videoüberwachung"
label define vid_stark_lbl 1 "Ja" 0 "Nein"
label values vid_stark vid_stark_lbl

Prüfe die Rekodierung mit tabulate oder assert. Eine schnelle Kontrolle: tab j011_1 vid_stark, missing zeigt dir, ob alle Fälle korrekt zugeordnet wurden.

Analog erstellst du die Dummy-Variable jugendost aus dg03. Achte darauf, dass fehlende Werte (z. B. „verweigert“) nicht fälschlich als 0 codiert werden. Verwende recode dg03 (1=1) (2=0) (else=.), gen(jugendost) und label sie anschließend.

2. Univariate Deskription: Eine aussagekräftige Kennzahl

Nach der Aufbereitung sollst du die Variable vid_stark mit einer geeigneten Zahl beschreiben. Hier bietet sich der Anteil der Personen mit starker Meinung an (z. B. 42 %). Du berechnest ihn mit tab vid_stark oder proportion. In deiner Interpretation erklärst du, was dieser Wert bedeutet: „Etwa 42 % der Befragten haben eine klare Position zur Videoüberwachung, während 58 % eher unentschlossen sind.“

3. Kreuztabelle und Chi²-Test: Hypothese prüfen

In Aufgabe 2 untersuchst du den Zusammenhang zwischen Jugend in Ostdeutschland und starker Meinung zur Videoüberwachung. Deine Hypothese: Ostdeutsche haben häufiger eine starke Meinung. Mit tabulate jugendost vid_stark, row chi2 V erstellst du eine Kreuztabelle mit Zeilenprozenten, Chi²-Test und Cramérs V. Die Ausgabe zeigt dir die Häufigkeiten und den p-Wert. Ein p-Wert < 0,05 deutet auf einen signifikanten Zusammenhang hin. Cramérs V gibt die Stärke des Zusammenhangs an (0,1 = schwach, 0,3 = mittel, 0,5 = stark).

Beispielinterpretation: „In der Stichprobe haben 48 % der Ostdeutschen, aber nur 38 % der Westdeutschen eine starke Meinung. Der Chi²-Test ist mit p = 0,002 signifikant. Cramérs V beträgt 0,08, was auf einen schwachen Zusammenhang hindeutet. Die Hypothese wird also bestätigt, der Effekt ist jedoch klein.“

4. Indexbildung: Mehrere Items zu einem Maß zusammenfassen

In Aufgabe 3 geht es um die Einstellung zu „Law & Order“-Maßnahmen. Du sollst aus fünf Items (J013_1, J013_2, J014_1, J014_2, J014_3) einen additiven Index bilden. Zuerst prüfst du, ob die Items gleichsinnig codiert sind. Falls ein Item eine gegenteilige Formulierung hat (z. B. „mehr Rechte für Straftäter“), musst du es umpolen (recode mit reverse). Dann stellst du sicher, dass alle Items die gleiche Skala haben (z. B. 1–7). Fehlende Werte werden ausgeschlossen oder durch den Mittelwert ersetzt (je nach Vorgabe).

* Beispiel: Items umpolen (falls nötig)
recode j013_2 (1=7) (2=6) (3=5) (4=4) (5=3) (6=2) (7=1), gen(j013_2_r)
* Index bilden (nur bei vollständigen Fällen)
egen law_order = rowtotal(j013_1 j013_2_r j014_1 j014_2 j014_3), missing
replace law_order = . if missing(j013_1) | missing(j013_2_r) | missing(j014_1) | missing(j014_2) | missing(j014_3)

Diskutiere in deiner Antwort, warum du diese Schritte durchgeführt hast und welche Alternativen es gibt (z. B. Mittelwertindex). Ein additiver Index setzt voraus, dass die Items eindimensional sind – prüfe das mit einer Faktorenanalyse oder Cronbachs Alpha (alpha).

5. Tipps für die Abgabe: do-File und PDF

Deine Abgabe besteht aus einem do-File und einem PDF. Der do-File muss fehlerfrei laufen. Kommentiere deinen Code mit * und trenne die Aufgaben durch Sternchen-Blöcke. Schreibe die Interpretationen stichwortartig unter *** Interpretation. Im PDF formulierst du ganze Sätze. Achte auf die Formatierung: Seitenränder, Schriftart, Zitierweise (siehe Merkblatt). Vergiss nicht die Eigenständigkeitserklärung auf der letzten Seite.

Fazit

Mit diesen Grundlagen bist du bestens gerüstet, um die Übungsmappe Teil 2 erfolgreich zu bearbeiten. Datenanalyse ist wie das Lösen eines Puzzles – jeder Schritt baut auf dem vorherigen auf. Nutze die aktuellen Beispiele aus der Überwachungsdebatte, um deine Ergebnisse in einen größeren Kontext zu stellen. Viel Erfolg!