STAT1201 Analyse wissenschaftlicher Daten: ANOVA mit R – Tutorial zur Prüfungsvorbereitung

Einführung: Datenanalyse im Zeitalter von KI und klinischen Studien

Ob du dich auf die STAT1201 Abschlussprüfung vorbereitest oder einfach deine Fähigkeiten in der wissenschaftlichen Datenanalyse verbessern möchtest: Die einfaktorielle Varianzanalyse (ANOVA) ist ein unverzichtbares Werkzeug. Stell dir vor, du analysierst die Wirkung verschiedener MDMA-Dosierungen auf PTSD-Patienten – genau wie in der aktuellen Studie, die im Prüfungsbeispiel vorkommt. Mit RStudio kannst du solche statistischen Hypothesentests schnell durchführen. In diesem Tutorial zeige ich dir Schritt für Schritt, wie du eine ANOVA in R berechnest, die Ergebnisse interpretierst und typische MC-Fragen aus der Klausur löst. Dabei verbinden wir die Theorie mit einem aktuellen Beispiel aus der klinischen Forschung – und du erfährst, warum dieses Wissen auch für Data Science und KI-Anwendungen relevant ist.

Das Studienbeispiel: MDMA und PTSD

Eine randomisierte, kontrollierte Studie untersuchte, ob MDMA (3,4-Methylendioxymethamphetamin) in Kombination mit Psychotherapie die Symptome einer posttraumatischen Belastungsstörung (PTSD) lindern kann. Die Probanden wurden zufällig einer von drei Dosierungsgruppen zugeteilt: niedrig (40 mg), mittel (100 mg) oder hoch (125 mg). Der primäre Endpunkt war die Reduktion des CAPS-IV-Scores einen Monat nach der Behandlung. Die Daten sind in einer CSV-Datei gespeichert und enthalten Variablen wie Before, After, Change, Drop20 und Dose.

Schritt 1: Daten in R laden und inspizieren

Lade die CSV-Datei in RStudio und verschaffe dir einen Überblick:

mdma <- read.csv("MDMA.csv")
head(mdma)
summary(mdma)

Du siehst die CAPS-IV-Werte vor und nach der Behandlung sowie die berechnete Veränderung (Change). Die Spalte Dose enthält die Dosierungsstufen. Achte darauf, dass Dose als Faktor vorliegt – falls nicht, wandle ihn um:

mdma$Dose <- as.factor(mdma$Dose)

Schritt 2: Deskriptive Statistik und erste Visualisierung

Bevor du die ANOVA rechnest, solltest du die Mittelwerte und Streuungen pro Gruppe kennen. Nutze aggregate oder dplyr:

aggregate(Change ~ Dose, data = mdma, FUN = mean)
aggregate(Change ~ Dose, data = mdma, FUN = sd)

Ein Boxplot hilft, die Verteilung zu visualisieren:

boxplot(Change ~ Dose, data = mdma, xlab = "MDMA-Dosierung", ylab = "Reduktion CAPS-IV", main = "Vergleich der Dosierungsgruppen")

Du siehst vielleicht, dass die mittlere Reduktion in der Hochdosisgruppe am größten ist – aber ist dieser Unterschied statistisch signifikant?

Schritt 3: Einfaktorielle ANOVA in R durchführen

Die einfaktorielle ANOVA testet, ob die Mittelwerte der drei Gruppen gleich sind (Nullhypothese) oder ob mindestens einer abweicht. Der Befehl in R lautet:

anova_model <- aov(Change ~ Dose, data = mdma)
summary(anova_model)

Die Ausgabe zeigt dir die Quadratsummen (Sum Sq), Freiheitsgrade (Df), den F-Wert und den p-Wert. Merke: Die residuale Freiheitsgrade betragen hier 51 (wie in der Klausurfrage). Die totale Quadratsumme (Total Sum of Squares) ist die Summe aus Behandlung und Residuen – in unserem Fall 297,43.

Schritt 4: Ergebnisse interpretieren und MC-Fragen beantworten

Der p-Wert im Summary gibt an, ob ein signifikanter Unterschied vorliegt. Ist p < 0,05, spricht man von moderater Evidenz; bei p < 0,01 von starker Evidenz. In der Klausur lautete die korrekte Antwort: „starke Evidenz für einen Effekt der MDMA-Dosierung (p < 0,01)“. Wichtig: Die ANOVA sagt nur, dass es einen Unterschied gibt, nicht zwischen welchen Gruppen. Dafür bräuchtest du einen Post-hoc-Test (z.B. Tukey HSD).

Schritt 5: Voraussetzungen der ANOVA prüfen

Damit die ANOVA gültig ist, müssen die Residuen normalverteilt sein und die Varianzen homogen. Teste dies mit:

plot(anova_model, which = 2)  # Q-Q-Plot
library(car)
leveneTest(Change ~ Dose, data = mdma)

Ist der Levene-Test nicht signifikant (p > 0,05), ist die Varianzhomogenität gegeben. Die Normalverteilung kannst du mit dem Shapiro-Wilk-Test auf den Residuen prüfen.

Praktische Tipps für die STAT1201-Prüfung

Zeitmanagement: Die Klausur dauert 2 Stunden 10 Minuten inklusive Lesezeit. Plane für jede der vier Szenarien etwa 30 Minuten ein.
Erlaubte Hilfsmittel: Du darfst deine eigenen Notizen und das Blackboard-Material nutzen. Ein Casio fx-82 Taschenrechner ist erlaubt.
RStudio: Stelle sicher, dass du RStudio vor der Prüfung startest und die CSV-Dateien herunterlädst. Übe das Einlesen und die grundlegenden Befehle.
MC-Fragen: Oft werden die Freiheitsgrade, Quadratsummen oder p-Werte abgefragt. Merke dir die Formeln: df_treatment = k-1, df_residual = n-k, SS_total = SS_treatment + SS_residual.

Zusammenfassung und Ausblick

Die einfaktorielle ANOVA ist ein mächtiges Werkzeug, um Unterschiede zwischen mehreren Gruppen zu testen – sei es in der klinischen Forschung, in Sportanalysen (z.B. Vergleich von Trainingsmethoden) oder in KI-Experimenten (z.B. Performance verschiedener Algorithmen). Mit R kannst du solche Analysen schnell und reproduzierbar durchführen. Für die STAT1201-Prüfung solltest du die Konzepte der Quadratsummenzerlegung, F-Test und p-Wert-Interpretation sicher beherrschen. Viel Erfolg bei deiner Vorbereitung!

„Statistik ist die Grammatik der Wissenschaft.“ – Karl Pearson