Starke Konvexität und proximaler Gradient: Tutorial für ECE490

Einführung: Warum starke Konvexität und proximaler Gradient wichtig sind

In der Optimierung begegnen uns oft Funktionen, die sowohl stark konvex als auch glatt sind. Diese Eigenschaften garantieren schnelle Konvergenz von Algorithmen wie dem Gradientenverfahren. Der proximale Gradientenalgorithmus erweitert das Verfahren auf nichtglatte Anteile. In diesem Tutorial lernst du die theoretischen Grundlagen aus den Kapiteln 9 und 10 von Wright und Recht – ideal zur Vorbereitung auf ECE490 Homework 6.

Grundlagen: m-starke Konvexität und L-Glattheit

Eine Funktion f heißt m-stark konvex, wenn für alle x, y gilt: f(y) ≥ f(x) + ∇f(x)ᵀ(y−x) + (m/2)‖y−x‖². Sie heißt L-glatt, wenn der Gradient Lipschitz-stetig ist: ‖∇f(x)−∇f(y)‖ ≤ L‖x−y‖. Diese Eigenschaften sind zentral für die Analyse von Optimierungsverfahren.

Aufgabe 1a: Konvexität von f_m und (L−m)-Lipschitz-Gradient

Definiere f_m(x) = f(x) − (m/2)‖x‖². Behauptung: f_m ist konvex und ihr Gradient ist (L−m)-Lipschitz. Beweis: Die starke Konvexität von f impliziert, dass f_m konvex ist. Die Glattheit von f liefert die Lipschitz-Konstante für ∇f_m.

Aufgabe 1b: Proximaler-Gradienten-Algorithmus

Wir zerlegen f = f_m + g, wobei f_m glatt und g konvex, aber nicht notwendigerweise glatt ist (z.B. g(x) = (m/2)‖x‖²). Der proximale Gradientenschritt lautet: x_{k+1} = prox_{αg}(x_k − α∇f_m(x_k)). Dabei ist der Proximaloperator prox_{αg}(v) = argmin_x ( g(x) + (1/(2α))‖x−v‖² ).

Aufgabe 1c: Schrittweite für identische Iterationen

Ja, es existiert eine Schrittweite α, sodass der proximale Gradient für f = f_m + g dieselben Iterationen liefert wie das gewöhnliche Gradientenverfahren für f. Wähle α = 1/L und beachte, dass ∇f(x) = ∇f_m(x) + ∇g(x). Da g quadratisch ist, wird der Prox-Schritt explizit.

Aufgabe 1d: Schrittweite für Konvergenzrate

Für stark konvexe f und α ≤ 2/(m+L) konvergiert der proximale Gradient linear: ‖x_k − x*‖ ≤ (1 − αm)ᵏ ‖x_0 − x*‖. Die optimale Schrittweite ist α = 2/(m+L).

Aufgabe 2: Optimalitätsbedingungen für polyedrische Mengen

Gegeben min f(x) unter Ex = g, Cx ≥ d. Führe Schlupfvariablen s ein: Cx − s = d, s ≥ 0. Das äquivalente Problem ist min f(x) mit A[x; s] = b, s ≥ 0. Die KKT-Bedingungen liefern: ∇f(x*) − Eᵀλ − Cᵀμ = 0, Ex* = g, 0 ≤ μ ⊥ (Cx*−d) ≥ 0. Dies sind die notwendigen Bedingungen erster Ordnung.

Praktische Anwendung: KI-Trends und Optimierung

In modernen KI-Anwendungen wie Large Language Models werden ähnliche Optimierungsverfahren genutzt, um riesige Modelle zu trainieren. Starke Konvexität beschleunigt die Konvergenz, ähnlich wie ein gut gewählter Lernratenplan in PyTorch oder TensorFlow. Der proximale Gradient kommt bei regularisierten Problemen wie L1-Regularisierung (Lasso) zum Einsatz – ein wichtiges Werkzeug in der Datenwissenschaft.

Fazit

Das Verständnis von stark konvexen und glatten Funktionen sowie des proximalen Gradienten ist essenziell für fortgeschrittene Optimierung. Mit diesen Konzepten kannst du nicht nur Hausaufgaben wie ECE490 Homework 6 lösen, sondern auch reale Probleme in Machine Learning und Operations Research angehen.