Programming lesson
Einkommensanalyse mit Stata: Ein praktischer Leitfaden zur LFS-Datenauswertung
Lerne, wie du mit Stata den Quarterly Labour Force Survey auswertest: Daten laden, Regressionen schätzen, regionale Unterschiede testen – inklusive aktueller Beispiele aus dem Jahr 2026.
Einleitung: Warum Einkommensanalyse mit Stata?
Die Analyse von Lohndaten ist ein zentrales Thema der angewandten Ökonometrie. Mit dem Quarterly Labour Force Survey (LFS) des Office for National Statistics stehen Forschern reichhaltige Mikrodaten zur Verfügung. In diesem Tutorial lernst du Schritt für Schritt, wie du solche Daten mit Stata verarbeitest, Regressionen schätzt und regionale Einkommensunterschiede interpretierst. Die Beispiele beziehen sich auf den aktuellen Datensatz von April–Juni 2018 (SN 8381), aber die Methoden sind auf jede LFS-Welle übertragbar.
1. Daten laden und Stichprobe definieren
1.1 Datensatz öffnen
Lade die Hauptdatei lfsp_aj18_eul.dta mit dem Befehl:
use "lfsp_aj18_eul.dta", clear1.2 Stichprobe eingrenzen
Wir beschränken uns auf Erwerbstätige mit positivem Wochenverdienst und ohne aktuelle Qualifikation:
keep if GRSSWK > 0 & QULNOW == 2Nach diesem Schritt sollten genau 9141 Beobachtungen übrig sein. Kontrolliere mit count.
2. Regionale Einkommensunterschiede
2.1 Histogramm der Wochenverdienste
Erstelle ein Histogramm von GRSSWK:
histogram GRSSWK, frequency normalDie Verteilung ist rechtsschief – die meisten verdienen zwischen 200 und 600 Pfund, wenige sehr hohe Einkommen. Das ist typisch für Lohndaten.
2.2 Theoretische Erwartungen
Warum gibt es regionale Lohnunterschiede? Die ökonomische Theorie nennt Faktoren wie Produktivitätsunterschiede, Ballungseffekte (z. B. London als Finanzzentrum), Lebenshaltungskosten und Arbeitsmarktstruktur. In Zeiten von Remote Work und KI-Transformation (wie 2026) können sich diese Muster verschieben – etwa wenn Tech-Jobs vermehrt außerhalb Londons entstehen.
2.3 Regression mit logarithmiertem Einkommen
Erzeuge neue Variablen:
gen logGRSSWK = ln(GRSSWK)
gen age2 = AGE^2Erstelle Dummies für die Länder (England, Schottland, Nordirland, Wales als Basis):
gen England = (COUNTRY == 1)
gen Scotland = (COUNTRY == 2 | COUNTRY == 3)
gen NIreland = (COUNTRY == 4)Schätze das Modell:
reg logGRSSWK AGE age2 England Scotland NIrelandDie Ergebnisse zeigen: London-Effekt? In der Regel haben England und Schottland höhere Löhne als Wales, Nordirland liegt oft darunter. Die Altersvariablen bilden den typischen Lebenszyklus ab: Mit Alter steigt der Lohn, fällt aber nach einem Höhepunkt wieder.
2.4 F-Tests auf Länderunterschiede
Mit test prüfst du, ob Koeffizienten gleich sind:
test England = Scotland
test England = NIreland
test Scotland = NIrelandFür Test (i) auch von Hand: Schätze das restringierte Modell ohne England und Scotland, berechne die Quadratsummen und setze in die F-Formel ein. Das vertieft das Verständnis für die Testlogik.
2.5 Nur England: Regionale Dummies
Beschränke auf England (7616 Beobachtungen):
keep if COUNTRY == 1Erstelle Dummies für die 9 Regionen (URESMC) mit Merseyside als Basis. Schätze:
reg logGRSSWK AGE age2 i.URESMC, baselevelsErwartungsgemäß zeigt sich ein deutlicher London-Effekt: Inner London und Outer London haben die höchsten Koeffizienten, gefolgt vom Südosten. Das bestätigt die ökonomische Intuition.
3. Bildung und Einkommen
3.1 Bildungsdummy
Tabelliere HIQUL15D und filtere gültige Angaben (7521 Beobachtungen). Erzeuge degree = 1 für Hochschulabschluss:
gen degree = (HIQUL15D == 1 | HIQUL15D == 2)Füge degree in die Regression ein. Der Koeffizient ist positiv und signifikant – Akademiker verdienen im Schnitt deutlich mehr. Vergleiche mit dem Modell ohne Bildung: Die regionalen Koeffizienten sinken oft, weil Bildung regional ungleich verteilt ist. Das zeigt, dass ein Teil des regionalen Lohnunterschieds auf unterschiedliche Bildungsniveaus zurückgeht.
3.2 Test auf gleiche Regionen
Teste, ob alle Regionsdummies gleich sind: testparm i.URESMC. Meist wird die Nullhypothese verworfen. Ohne London und Südosten könnte der Test nicht signifikant sein – die restlichen Regionen unterscheiden sich kaum.
4. Weitere Einflussfaktoren
4.1 Dimension wählen: Berufserfahrung oder Branche
Wähle z. B. die Berufserfahrung (potentielle Erfahrung = Alter - Schuljahre - 6) oder die Branche (SIC2007). Die Humankapitaltheorie sagt, dass Erfahrung den Lohn steigert, aber mit abnehmender Rate. In Zeiten von KI könnten bestimmte Branchen (Tech, Gesundheitswesen) besonders profitieren.
4.2 Regressionen schätzen
Erstelle die Variable exp und exp2 und schätze:
reg logGRSSWK AGE age2 degree exp exp2 i.URESMCDie Ergebnisse zeigen: Erfahrung wirkt positiv, aber der quadratische Term ist negativ (abnehmender Grenzertrag). Interagiere Erfahrung mit Region – möglicherweise ist der Erfahrungseffekt in London stärker.
5. Kritische Reflexion
5.1 Selektionsverzerrung
Indem wir nur Erwerbstätige mit positivem Verdienst betrachten, blenden wir Arbeitslose und Nichterwerbstätige aus. Regionale Unterschiede in der Erwerbsquote können die Ergebnisse verzerren. Ein Heckman-Korrektur-Modell wäre eine Lösung.
5.2 Region versus Geburtsort
Die Variable COUNTRY misst den Wohnort, nicht den Geburtsort. Zugezogene können andere Lohnstrukturen mitbringen. Eine Analyse mit BIRTH könnte zusätzliche Einblicke geben.
Fazit
Dieses Tutorial hat gezeigt, wie du mit Stata den LFS auswertest: von der Datenaufbereitung über Regressionen bis hin zu Hypothesentests. Die Methoden sind auf viele Fragestellungen anwendbar – ob 2018 oder 2026. Mit den hier gelernten Techniken kannst du eigene ökonometrische Projekte umsetzen und kritisch hinterfragen.