Hochdimensionale Inferenz STAT3006: Leitfaden zu PCA, Faktorenmodellen und MMD-Tests

Einführung in die hochdimensionale Inferenz

Die hochdimensionale Inferenz ist ein zentrales Thema in der modernen Statistik und Datenwissenschaft. In Kursen wie STAT3006 lernen Studierende, mit Daten umzugehen, bei denen die Anzahl der Merkmale (q) die Anzahl der Beobachtungen (n) übersteigt – eine typische Herausforderung in Bereichen wie Genomik, Bildverarbeitung und Finanzanalyse. Dieser Leitfaden bietet eine verständliche Einführung in Schlüsselkonzepte wie Dimensionsreduktion, Faktorenmodelle und Kernel-basierte Tests, die in Assignment 4 behandelt werden.

Warum ist hochdimensionale Inferenz wichtig?

Stellen Sie sich vor, Sie analysieren die Pixeldaten von handgeschriebenen Ziffern (wie im zip.txt-Datensatz mit 256 Pixeln pro Bild) oder Genexpressionsdaten mit über 3500 Genen (wie in golub_genes.csv). In solchen Fällen sind klassische statistische Methoden oft ungeeignet, weil sie unter dem Fluch der Dimensionalität leiden. Hochdimensionale Inferenztechniken helfen, Muster zu erkennen und Vorhersagen zu treffen, ohne dass die Modelle überanpassen.

Problem 1: Dimensionsreduktion mit PCA und Faktorenmodellen

Teil 1: Visualisierung von Ziffernbildern

Wählen Sie eine Ziffer (z.B. y=3) und plotten Sie 9 zufällige Bilder aus dem Datensatz. Dies gibt Ihnen ein Gefühl für die Variabilität innerhalb einer Klasse. Die Bilder sind 16x16 Graustufenmatrizen, die als Vektoren der Länge 256 vorliegen.

Teil 2: Hauptkomponentenanalyse (PCA)

Zentrieren Sie die Daten: X̃_i = X_i - X̄_n. Dann lösen Sie das Optimierungsproblem für s=4 Hauptkomponenten. Die PCA sucht nach orthogonalen Richtungen, die die meiste Varianz erklären. Der minimale Rekonstruktionsfehler ist ein Maß dafür, wie gut die 4 Komponenten die Daten approximieren.

Teil 3: Visualisierung der Scores

Die transformierten Daten Ŵ_i = F̂ X̃_i können in einem 2D- oder 3D-Plot dargestellt werden. Färben Sie die Punkte nach den Ziffernlabels (0-9). Oft zeigen sich Cluster, die verschiedenen Ziffern entsprechen – ein Zeichen dafür, dass die PCA relevante Strukturen extrahiert.

Teil 4: Varianzerklärung

Berechnen Sie die Eigenwerte der Gram-Matrix G̃ = Σ X̃_i X̃_i^T. Die ersten 4 Eigenwerte erklären typischerweise einen bestimmten Prozentsatz der Gesamtvarianz. Dies hilft zu entscheiden, wie viele Komponenten sinnvoll sind.

Teil 5: Probabilistisches PCA (Faktorenmodell)

Im Faktorenmodell wird angenommen, dass die Daten durch latente Variablen W_i erzeugt werden: X_i = μ + R W_i + ε_i, mit ε_i ~ N(0, σ² I). Die Maximierung der Log-Likelihood liefert Schätzer für μ, R und σ². Dieses Modell ist flexibler als die klassische PCA, da es Rauschen explizit modelliert.

Teil 6: Posterior Expectations

Die erwarteten latenten Variablen gegeben die Daten sind: E(W_i | X_i) = (R^T R + σ² I_s)^{-1} R^T (X_i - μ). Auch diese können farbcodiert geplottet werden und ähneln oft den PCA-Scores.

Teil 7: Autoencoder für nichtlineare Dimensionsreduktion

Ein 3-Lagen-Autoencoder mit einer Aktivierungsfunktion (z.B. ReLU) lernt eine nichtlineare Abbildung von 256 auf 4 Dimensionen. Die gelernten Repräsentationen können komplexere Strukturen erfassen als lineare Methoden. Plotten Sie die 4D-Repräsentationen (z.B. mittels t-SNE) und färben Sie nach Ziffern.

Problem 2: Zwei-Stichproben-Test mit Maximum Mean Discrepancy (MMD)

Teil 1: Test auf Unterschiede zwischen ALL- und AML-Zellen

Der MMD-Test vergleicht zwei Verteilungen basierend auf Kerneln. Hier wird der Gauß-Kernel κ(x,y) = exp(-β ||x-y||²) mit β = 2^{-28} verwendet. Die Teststatistik misst den Abstand zwischen den Mittelwerten der Kernel-Abbildungen. Der kritische Wert wird durch Permutation oder asymptotische Theorie bestimmt. Bei α=0.1 könnte die Nullhypothese abgelehnt werden, wenn die Stichprobe groß genug ist (hier n=72). Diskutieren Sie die Teststärke: Bei kleinen Stichproben kann der Test zu konservativ sein.

Teil 2: Genweise Tests

Für jedes Gen j wird ein p-Wert berechnet, um zu testen, ob die mittleren Expressionen zwischen ALL und AML unterschiedlich sind. Dies ist ein multiples Testproblem; Korrekturverfahren wie Bonferroni oder FDR sind notwendig.

Praktische Tipps für die Implementierung

Sprache: R oder Python – beide eignen sich gut. In R können Sie prcomp für PCA und factanal für Faktorenanalyse verwenden. Für den MMD-Test gibt es Pakete wie kernel oder Sie implementieren ihn selbst.
Datenvorbereitung: Zentrieren und ggf. standardisieren Sie die Daten. Bei Bilddaten ist Zentrierung ausreichend.
Visualisierung: Nutzen Sie ggplot2 (R) oder matplotlib (Python) für ansprechende Plots.
Autoencoder: In Python können Sie tensorflow oder pytorch verwenden. Ein einfacher 3-Lagen-Autoencoder mit einer versteckten Schicht von 4 Neuronen ist schnell implementiert.

Trend-Beispiel: KI und Genomik

Die Techniken aus Assignment 4 sind hochaktuell: In der personalisierten Medizin werden hochdimensionale Genexpressionsdaten genutzt, um Krebsarten zu klassifizieren. Ähnlich wie im Golub-Datensatz (ALL vs. AML) helfen PCA und MMD dabei, Biomarker zu identifizieren. Auch in der Bilderkennung – wie bei der Erkennung handgeschriebener Ziffern – sind Autoencoder und Faktorenmodelle Standardwerkzeuge.

Häufige Fehler und wie man sie vermeidet

Überanpassung: Bei hoher Dimensionalität neigen Modelle dazu, Rauschen zu lernen. Regularisierung (wie im Faktorenmodell) oder Kreuzvalidierung helfen.
Interpretation der latenten Variablen: PCA-Scores sind nicht immer leicht interpretierbar. Betrachten Sie die Loading-Vektoren, um zu verstehen, welche Merkmale wichtig sind.
Multiple Testprobleme: Bei tausenden Genen müssen p-Werte korrigiert werden. Sonst steigt die Wahrscheinlichkeit für falsch positive Ergebnisse.

Zusammenfassung

Dieser Leitfaden hat die Kernkonzepte der hochdimensionalen Inferenz anhand von STAT3006 Assignment 4 erläutert. Mit PCA, Faktorenmodellen, Autoencodern und MMD-Tests sind Sie gut gerüstet, um komplexe, hochdimensionale Datensätze zu analysieren. Die Fähigkeit, zwischen linearen und nichtlinearen Methoden zu wählen und die Ergebnisse kritisch zu bewerten, ist entscheidend für den Erfolg in der Datenwissenschaft.