STATS101/101G/108 Block 1 & 2: Statistik-Grundlagen verstehen

Einführung in die statistischen Grundlagen

Statistik ist überall – ob bei Umfragen zu den neuesten KI-Trends 2026 oder bei der Analyse von Sportergebnissen. In diesem Tutorial zu STATS101/101G/108 Block 1 und 2 lernst du die wichtigsten Konzepte kennen, die dir helfen, Daten richtig zu interpretieren. Wir gehen dabei auf kategoriale Variablen, Studiendesigns, Hypothesentests und mehr ein – immer mit Bezug zu aktuellen Beispielen aus dem Jahr 2026.

Kategoriale Variablen und Studiendesigns

Daten einer kategorialen Variable bestehen aus Gruppen- oder Kategoriennamen für jede Einheit – zum Beispiel die bevorzugte Streaming-Plattform (Netflix, Disney+, Amazon Prime) in einer Umfrage von Mai 2026. Im Gegensatz dazu sind Messungen oder Zählungen numerisch. Ein longitudinales Studiendesign beobachtet dieselbe Gruppe über einen längeren Zeitraum, etwa die Entwicklung der Nutzung von KI-Assistenten bei Studierenden von 2024 bis 2026.

Randomisierung und Inferenz

In einem gut designten Experiment mit Freiwilligen erlaubt ein Anteil von weniger als 5% im Randomisierungstest eine Schlussfolgerung vom Experiment auf Kausalität. Das ist wie bei einem A/B-Test einer neuen App-Funktion: Wenn nur 3% der zufälligen Zuweisungen einen so großen Effekt zeigen wie der beobachtete, können wir ziemlich sicher sein, dass die Funktion wirklich etwas bewirkt. Zufallsstichproben ermöglichen die Berechnung der wahrscheinlichen Größe von Stichprobenfehlern – ein zentrales Konzept für Umfragen zur Bundestagswahl 2026.

Bootstrap-Konfidenzintervalle und Stichprobengröße

Ein Bootstrap-Konfidenzintervall gibt einen Bereich plausibler Werte für den Parameter an – nicht, dass der Parameter sicher darin liegt. Stell dir vor, du schätzt die durchschnittliche Zeit, die Jugendliche 2026 täglich auf TikTok verbringen. Dein Bootstrap-Intervall könnte [45, 65] Minuten lauten. Das bedeutet, dass der wahre Durchschnitt wahrscheinlich in diesem Bereich liegt, aber nicht mit 100%iger Sicherheit. Größere Stichproben liefern engere Konfidenzintervalle – also präzisere Schätzungen.

Nullhypothese und t-Test

Die Nullhypothese (H₀) ist die zu testende Hypothese, oft dass kein Unterschied oder kein Effekt besteht. Bei einem t-Test prüfst du mit einem Plot der Daten auf Anzeichen von Nicht-Normalität. Wenn die Daten stark schief sind, ist der Median oft ein besseres Maß für die Mitte als der Mittelwert. Denk an die Verteilung der Gehälter in einem Tech-Startup 2026: Einige wenige verdienen sehr viel, die Masse weniger – der Median gibt ein realistischeres Bild.

Chi-Quadrat-Test und Korrelation

Beim Chi-Quadrat-Test auf Unabhängigkeit spricht ein großer Unterschied zwischen beobachteten und erwarteten Häufigkeiten gegen die Nullhypothese. Zum Beispiel: Wenn in einer Umfrage zur Handynutzung 2026 die erwartete Anzahl von iPhone-Nutzern unter 18 Jahren 100 ist, aber tatsächlich 150 beobachtet werden, deutet das auf einen Zusammenhang hin. Das Vorzeichen des Korrelationskoeffizienten r ist immer gleich dem Vorzeichen der Steigung der Regressionsgeraden – ein wichtiger Punkt, den viele Studierende verwechseln.

Wahr oder Falsch? Typische Aussagen verstehen

Viele Aufgaben in STATS101/101G/108 verlangen True/False-Entscheidungen. Hier einige zentrale Aussagen mit Erläuterungen:

„Bei stark schiefen Daten ist der Median ein sinnvolleres Maß für die Mitte als der Mittelwert.“ – Richtig. Beispiel: Die Nutzungsdauer von Social Media ist oft rechtsschief.
„Eine Beobachtungsstudie kann zuverlässig die Ursache eines Effekts feststellen.“ – Falsch. Nur Experimente mit Randomisierung erlauben Kausalaussagen.
„Unter Zufall allein wäre der beobachtete Unterschied zwischen zwei Gruppen rein auf die zufällige Gruppenzugehörigkeit zurückzuführen.“ – Richtig. Das ist die Grundidee des Randomisierungstests.
„Größere Stichproben verringern die Effekte von Selektionen und anderen Nicht-Stichprobenfehlern nicht.“ – Richtig. Diese Fehler werden durch größere Stichproben nicht behoben.
„Wir können sicher sein, dass der wahre Parameter in einem Bootstrap-Konfidenzintervall liegt.“ – Falsch. Es ist ein plausibler Bereich, keine Garantie.
„Das Konfidenzniveau ist die langfristige Erfolgsrate einer Methode, die Konfidenzintervalle liefert, die den Parameter enthalten.“ – Richtig. Bei 95% Konfidenz enthalten 95 von 100 Intervallen den wahren Wert.
„Statistische Signifikanz impliziert praktische Signifikanz.“ – Falsch. Ein kleiner Effekt kann statistisch signifikant sein, aber praktisch irrelevant.
„Wenn der P-Wert für einen F-Test in der einfaktoriellen Varianzanalyse groß ist, könnten die Unterschiede zwischen den Stichprobenmittelwerten auf Zufall beruhen.“ – Richtig. Großer P-Wert = keine Ablehnung der Nullhypothese.
„Je größer der Chi-Quadrat-Teststatistikwert, desto schwächer die Evidenz gegen die Nullhypothese.“ – Falsch. Ein größerer Wert bedeutet stärkere Evidenz gegen H₀.
„Der Korrelationskoeffizient misst die Stärke und Richtung eines linearen Zusammenhangs zwischen zwei numerischen Variablen.“ – Richtig. r zwischen -1 und 1.

Block 2: Vertiefte Anwendungen am Beispiel einer Studie

In Block 2 geht es um eine konkrete Studie, in der Teilnehmer entweder einer Zeitbegrenzungs- oder einer Kontrollgruppe zugewiesen wurden. Die Antwortvariable war die berichtete Zahl. Wichtig: Die Forscher waren verbindet (blinded), da sie nicht wussten, welche Zahl tatsächlich gewürfelt wurde. Die Kontrollgruppe war die Gruppe ohne Zeitbegrenzung. Das Design war vollständig randomisiert. Ein falsche Aussage wäre: „Es gab mehr Teilnehmer in der NoTimeRestriction-Gruppe, die eine 1 würfelten, als in der TimeRestriction-Gruppe.“ – Das kann man aus den Grafiken nicht sicher ableiten. Der P-Wert des Randomisierungstests war kleiner als 5%, was Evidenz dafür liefert, dass die Zeitbegrenzung die berichteten Zahlen beeinflusst hat. Für den Test der mittleren Zeitdauer bis zur Berichterstattung lauten die korrekten Hypothesen: H₀: μ_NoTime - μ_Time = 0 vs. H₁: μ_NoTime - μ_Time ≠ 0.

Fazit

Mit diesem Leitfaden hast du die wichtigsten Konzepte aus STATS101/101G/108 Block 1 und 2 wiederholt. Denk daran: Statistik ist nicht nur trockene Theorie, sondern hilft dir, die Welt um dich herum zu verstehen – sei es bei Umfragen, Studien zu KI oder bei der Analyse von Sportergebnissen. Übe mit den True/False-Fragen und den Block-2-Aufgaben, um sicher in der Prüfung zu sein. Viel Erfolg!