ML 80629A: Grundlagen des maschinellen Lernens – Trainingsfehler, Regularisierung & Textklassifikation

Einführung in die Hausaufgabe ML 80629A

Die Hausaufgabe ML 80629A aus dem Herbstsemester 2021 deckt zentrale Themen des maschinellen Lernens ab, die auch im Jahr 2026 hochaktuell sind. Von der Unterscheidung zwischen Trainingsfehler und Generalisierungsfehler über Regularisierungsmethoden bis hin zur Textklassifikation mit Naive Bayes und neuronalen Netzen – dieses Tutorial hilft dir, die Konzepte zu verstehen, ohne die Lösung direkt vorzugeben. Stattdessen erhältst du eine strukturierte Anleitung, um die Aufgaben eigenständig zu bearbeiten.

1. ML-Grundlagen: Trainingsfehler vs. Generalisierungsfehler

Was ist der Unterschied?

Der Trainingsfehler ist der Fehler, den ein Modell auf den Daten macht, mit denen es trainiert wurde. Der Generalisierungsfehler hingegen beschreibt, wie gut das Modell auf neuen, unbekannten Daten funktioniert. Ein niedriger Trainingsfehler garantiert keinen niedrigen Generalisierungsfehler – im Gegenteil: Überanpassung (Overfitting) führt oft zu einem sehr geringen Trainingsfehler, aber hohem Generalisierungsfehler.

Wie evaluiert man den Generalisierungsfehler in der Praxis?

Typischerweise teilt man die Daten in Trainings-, Validierungs- und Testsets auf. Der Generalisierungsfehler wird auf dem Testset geschätzt. Eine häufige Falle ist das Datenleak: Wenn Informationen aus dem Testset in das Training einfließen (z.B. durch wiederholtes Anpassen von Hyperparametern auf dem Testset), wird die Fehlerschätzung zu optimistisch. Aktuelle KI-Trends wie die Entwicklung von Large Language Models (LLMs) zeigen, wie wichtig saubere Evaluierung ist – selbst bei Modellen wie GPT-4o oder Gemini 2.0 wird der Generalisierungsfehler oft auf speziellen Benchmarks gemessen.

2. Training mit Testdaten: Bringt das eine niedrigere Validierungsfehler?

Die Aufgabe fragt: Wenn du zuerst ein Modell trainierst, damit Labels für einen ungelabelten Testsatz erzeugst und dann das Modell mit Trainings- und Testdaten neu trainierst – erwartest du eine niedrigere Validierungsfehler? Die Antwort ist nein. Denn die so erzeugten Labels sind vom ersten Modell abhängig und enthalten dessen Fehler. Der Validierungsfehler würde sinken, wenn die Testdaten zufällig ähnlich zu den Trainingsdaten sind, aber generell führt dieses Vorgehen zu verzerrten Ergebnissen. Ein Beispiel aus der Praxis: Bei der KI-gestützten Aktienkursvorhersage (z.B. für den DAX) wäre es fatal, das Modell mit eigenen Vorhersagen zu trainieren – die Fehler würden sich verstärken.

3. Regularisierung bei K-NN

Regularisierung zielt darauf ab, die Varianz zu reduzieren und die Verzerrung (Bias) zu erhöhen – das ist der Bias-Variance-Tradeoff. Bei einem K-NN-Modell kann Regularisierung durch die Wahl eines größeren k erreicht werden. Ein größeres k glättet die Entscheidungsgrenze und reduziert Overfitting. Stell dir vor, du bewertest die Beliebtheit eines neuen KI-Musikgenerators wie Suno oder Udio: Wenn du nur die Meinung deiner engsten Freunde (kleines k) nimmst, ist das verrauscht. Fragst du eine größere Gruppe (großes k), erhältst du ein stabileres Bild – aber vielleicht übersiehst du Nischengeschmack.

4. K-NN für Dokumentenklassifikation mit Bag-of-Words

Ja, K-NN kann für die Klassifikation von Dokumenten verwendet werden, wenn diese als Bag-of-Words (BoW) kodiert sind. Eine sinnvolle Distanzfunktion ist die Kosinus-Ähnlichkeit (cosine similarity), da sie die Ähnlichkeit unabhängig von der Dokumentenlänge misst. Alternativ kann die euklidische Distanz verwendet werden, aber sie wird oft durch die Dokumentenlänge verzerrt. In der Praxis, z.B. bei der Analyse von Kundenrezensionen auf Amazon, wird häufig Kosinus-Ähnlichkeit genutzt, um ähnliche Meinungen zu gruppieren.

5. Vor- und Nachteile eines größeren k bei der k-Fold-Cross-Validation

Ein größeres k (z.B. 20 statt 5) bedeutet mehr Trainingsdaten pro Fold, was die Varianz der Fehlerschätzung reduziert. Der Nachteil: Der Rechenaufwand steigt linear mit k. Außerdem wird die Verzerrung der Schätzung geringer, da die Trainingssets größer sind. Ein aktuelles Beispiel: Bei der Entwicklung von KI-Modellen für E-Sports (z.B. Vorhersage von Siegern in League of Legends) wird oft 10-fache Kreuzvalidierung verwendet, um eine stabile Leistung zu gewährleisten.

6. Regression mit dem California Housing Dataset

Der California Housing Datensatz enthält Merkmale wie Bevölkerungszahl, Einkommen und Hausalter. Eine erste statistische Analyse mit .describe() zeigt oft, dass die Wertebereiche stark variieren – z.B. Einkommen in Zehntausend Dollar, während die Bevölkerungszahl in Tausend gemessen wird. Dies deutet auf die Notwendigkeit einer Feature-Skalierung hin. Die Verteilung der Zielvariable (Medianhauswert) ist häufig rechtsschief, mit einem Maximum bei 500.000 USD (Deckelung).

10-fache Kreuzvalidierung mit LinearRegression

Führe eine 10-fache Kreuzvalidierung mit shuffle=True und random_state=20160202 durch. Der mittlere quadratische Fehler (MSE) auf dem Validierungsset wird typischerweise bei etwa 0,5–0,7 (in Einheiten von $100.000²) liegen. Vergleiche dies mit Lasso und Ridge.

7. Lasso und Ridge: Regularisierung im Überblick

Das Schlüsselwort, das beide Methoden beschreibt, ist Regularisierung. Lasso (L1) und Ridge (L2) fügen einen Strafterm zu den Kostenfunktionen hinzu, um die Modellkomplexität zu reduzieren. Lasso kann einige Koeffizienten auf Null setzen (Merkmalsauswahl), während Ridge die Koeffizienten schrumpft, aber nie ganz auf Null. In der aktuellen Finanzanalyse wird Ridge häufig eingesetzt, um Modelle mit vielen Korrelationen zu stabilisieren.

8. Feature-Repräsentationen: BoW und TF-IDF

Für die Textklassifikation werden zwei Verfahren genutzt: Bag-of-Words (BoW) und TF-IDF. Der Code für BoW in scikit-learn lautet:

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=10000)
X_train_bow = vectorizer.fit_transform(X_train)
X_val_bow = vectorizer.transform(X_val)
X_test_bow = vectorizer.transform(X_test)

Für TF-IDF:

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=10000)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_val_tfidf = vectorizer.transform(X_val)
X_test_tfidf = vectorizer.transform(X_test)

9. Naive Bayes für Sentiment-Analyse

Mit den erzeugten Features trainierst du einen Naive-Bayes-Klassifikator (z.B. MultinomialNB aus sklearn). Die Validierungsgenauigkeit liegt typischerweise zwischen 80% und 85%. Aus den trainierten Modellen lassen sich die einflussreichsten Wörter extrahieren: Positive Wörter könnten „excellent“, „amazing“, „wonderful“ sein, negative Wörter „terrible“, „boring“, „awful“. Dies ist besonders nützlich für die Analyse von Social-Media-Trends, z.B. bei der Stimmungserfassung zu einem neuen KI-Chatbot.

10. Neuronale Netze: Hyperparameter-Tuning

Du trainierst neuronale Netze mit verschiedenen Kombinationen von: erste Hidden-Layer-Dimension [4,8,16], zweite Hidden-Layer-Dimension [0,4,8], Lernrate [0.1, 0.01, 0.001] und L2-Penalty [0.001, 0.01, 0.1]. Die beste Kombination könnte z.B. (16, 4, 0.01, 0.001) sein. Beobachte, wie größere Layer die Genauigkeit steigern, aber auch Overfitting begünstigen. Eine niedrigere Lernrate erfordert mehr Epochen, führt aber zu stabilerer Konvergenz. Empfehlung: Beginne mit einer groben Suche und verfeinere dann die vielversprechendsten Bereiche – ähnlich wie bei der Hyperparameter-Optimierung für GPT-Modelle.

11. Vergleich der Modelle

Der einfachste Baseline ist die Mehrheitsklasse: Wenn die meisten Reviews positiv sind, sagt das Modell immer „positiv“ voraus. Die Genauigkeit liegt dann bei etwa 50% (bei balancierten Daten). Die besten Testgenauigkeiten: Naive Bayes erreicht ca. 82-85%, neuronale Netze ca. 85-88%. TF-IDF liefert oft bessere Ergebnisse als BoW, da es häufige Stoppwörter heruntergewichtet. Das beste Modell ist meist das neuronale Netz mit TF-IDF, da es komplexe Muster lernen kann – aber Naive Bayes ist einfacher und schneller. Ein aktuelles Beispiel: In der Stimmungsanalyse von App-Bewertungen (z.B. für TikTok) setzen viele Entwickler auf TF-IDF + logistische Regression als schnellen Prototypen.

Fazit

Die Hausaufgabe ML 80629A vermittelt essenzielle ML-Konzepte, die in der Praxis unverzichtbar sind. Mit diesem Leitfaden bist du gut gerüstet, um die Aufgaben zu lösen und ein tiefes Verständnis für maschinelles Lernen zu entwickeln. Denk daran: Der Schlüssel liegt im Verständnis der Trade-offs – zwischen Bias und Varianz, zwischen Einfachheit und Genauigkeit.