Einkommensanalyse mit Stata: LFS-Daten auswerten

Einleitung: Warum Einkommensanalyse mit Stata?

Die Analyse von Lohndaten ist ein zentrales Thema der angewandten Ökonometrie. Mit dem Quarterly Labour Force Survey (LFS) des Office for National Statistics stehen Forschern reichhaltige Mikrodaten zur Verfügung. In diesem Tutorial lernst du Schritt für Schritt, wie du solche Daten mit Stata verarbeitest, Regressionen schätzt und regionale Einkommensunterschiede interpretierst. Die Beispiele beziehen sich auf den aktuellen Datensatz von April–Juni 2018 (SN 8381), aber die Methoden sind auf jede LFS-Welle übertragbar.

1. Daten laden und Stichprobe definieren

1.1 Datensatz öffnen

Lade die Hauptdatei lfsp_aj18_eul.dta mit dem Befehl:

use "lfsp_aj18_eul.dta", clear

1.2 Stichprobe eingrenzen

Wir beschränken uns auf Erwerbstätige mit positivem Wochenverdienst und ohne aktuelle Qualifikation:

keep if GRSSWK > 0 & QULNOW == 2

Nach diesem Schritt sollten genau 9141 Beobachtungen übrig sein. Kontrolliere mit count.

2. Regionale Einkommensunterschiede

2.1 Histogramm der Wochenverdienste

Erstelle ein Histogramm von GRSSWK:

histogram GRSSWK, frequency normal

Die Verteilung ist rechtsschief – die meisten verdienen zwischen 200 und 600 Pfund, wenige sehr hohe Einkommen. Das ist typisch für Lohndaten.

2.2 Theoretische Erwartungen

Warum gibt es regionale Lohnunterschiede? Die ökonomische Theorie nennt Faktoren wie Produktivitätsunterschiede, Ballungseffekte (z. B. London als Finanzzentrum), Lebenshaltungskosten und Arbeitsmarktstruktur. In Zeiten von Remote Work und KI-Transformation (wie 2026) können sich diese Muster verschieben – etwa wenn Tech-Jobs vermehrt außerhalb Londons entstehen.

2.3 Regression mit logarithmiertem Einkommen

Erzeuge neue Variablen:

gen logGRSSWK = ln(GRSSWK)
gen age2 = AGE^2

Erstelle Dummies für die Länder (England, Schottland, Nordirland, Wales als Basis):

gen England   = (COUNTRY == 1)
gen Scotland  = (COUNTRY == 2 | COUNTRY == 3)
gen NIreland  = (COUNTRY == 4)

Schätze das Modell:

reg logGRSSWK AGE age2 England Scotland NIreland

Die Ergebnisse zeigen: London-Effekt? In der Regel haben England und Schottland höhere Löhne als Wales, Nordirland liegt oft darunter. Die Altersvariablen bilden den typischen Lebenszyklus ab: Mit Alter steigt der Lohn, fällt aber nach einem Höhepunkt wieder.

2.4 F-Tests auf Länderunterschiede

Mit test prüfst du, ob Koeffizienten gleich sind:

test England = Scotland
test England = NIreland
test Scotland = NIreland

Für Test (i) auch von Hand: Schätze das restringierte Modell ohne England und Scotland, berechne die Quadratsummen und setze in die F-Formel ein. Das vertieft das Verständnis für die Testlogik.

2.5 Nur England: Regionale Dummies

Beschränke auf England (7616 Beobachtungen):

keep if COUNTRY == 1

Erstelle Dummies für die 9 Regionen (URESMC) mit Merseyside als Basis. Schätze:

reg logGRSSWK AGE age2 i.URESMC, baselevels

Erwartungsgemäß zeigt sich ein deutlicher London-Effekt: Inner London und Outer London haben die höchsten Koeffizienten, gefolgt vom Südosten. Das bestätigt die ökonomische Intuition.

3. Bildung und Einkommen

3.1 Bildungsdummy

Tabelliere HIQUL15D und filtere gültige Angaben (7521 Beobachtungen). Erzeuge degree = 1 für Hochschulabschluss:

gen degree = (HIQUL15D == 1 | HIQUL15D == 2)

Füge degree in die Regression ein. Der Koeffizient ist positiv und signifikant – Akademiker verdienen im Schnitt deutlich mehr. Vergleiche mit dem Modell ohne Bildung: Die regionalen Koeffizienten sinken oft, weil Bildung regional ungleich verteilt ist. Das zeigt, dass ein Teil des regionalen Lohnunterschieds auf unterschiedliche Bildungsniveaus zurückgeht.

3.2 Test auf gleiche Regionen

Teste, ob alle Regionsdummies gleich sind: testparm i.URESMC. Meist wird die Nullhypothese verworfen. Ohne London und Südosten könnte der Test nicht signifikant sein – die restlichen Regionen unterscheiden sich kaum.

4. Weitere Einflussfaktoren

4.1 Dimension wählen: Berufserfahrung oder Branche

Wähle z. B. die Berufserfahrung (potentielle Erfahrung = Alter - Schuljahre - 6) oder die Branche (SIC2007). Die Humankapitaltheorie sagt, dass Erfahrung den Lohn steigert, aber mit abnehmender Rate. In Zeiten von KI könnten bestimmte Branchen (Tech, Gesundheitswesen) besonders profitieren.

4.2 Regressionen schätzen

Erstelle die Variable exp und exp2 und schätze:

reg logGRSSWK AGE age2 degree exp exp2 i.URESMC

Die Ergebnisse zeigen: Erfahrung wirkt positiv, aber der quadratische Term ist negativ (abnehmender Grenzertrag). Interagiere Erfahrung mit Region – möglicherweise ist der Erfahrungseffekt in London stärker.

5. Kritische Reflexion

5.1 Selektionsverzerrung

Indem wir nur Erwerbstätige mit positivem Verdienst betrachten, blenden wir Arbeitslose und Nichterwerbstätige aus. Regionale Unterschiede in der Erwerbsquote können die Ergebnisse verzerren. Ein Heckman-Korrektur-Modell wäre eine Lösung.

5.2 Region versus Geburtsort

Die Variable COUNTRY misst den Wohnort, nicht den Geburtsort. Zugezogene können andere Lohnstrukturen mitbringen. Eine Analyse mit BIRTH könnte zusätzliche Einblicke geben.

Fazit

Dieses Tutorial hat gezeigt, wie du mit Stata den LFS auswertest: von der Datenaufbereitung über Regressionen bis hin zu Hypothesentests. Die Methoden sind auf viele Fragestellungen anwendbar – ob 2018 oder 2026. Mit den hier gelernten Techniken kannst du eigene ökonometrische Projekte umsetzen und kritisch hinterfragen.