Empirische Risikominimierung
Empirische Risikominimierung ist ein häufig angewendetes Prinzip der statistischen Lerntheorie[1]. Sie wird verwendet, um die Qualität einer durch Überwachtes Lernen trainierten Funktion abzuschätzen. Beim maschinellen Lernen ist es häufig nicht möglich, alle möglichen Eingabedaten zu kennen oder zu testen. Daher wird bei der empirische Risikominimierung mit einem bekannten Subset der möglichen Eingabedaten gearbeitet.
Definition
Das Risiko ist:
wobei L eine Verlustfunktion (z. B. die 0-1 Verlustfunktion) ist, eine von den Realisierungen abhängige und durch parametrisierte Hypothese, y ein Label. Die Risikominimierung hat zum Ziel zu minimieren, indem die Parameter angepasst werden. Beispielsweise minimiert der Bayes-Klassifikator das Risiko einer Falschklassifikation.
Ziel der Lernverfahren ist es die Hypothese im Raum der untersuchten Hypothensen zu finden, für das Risiko minimiert wird:
siehe auch arg min.
In der empirischen Risikominimierung stehen jedoch nicht die echten Wahrscheinlichkeitsdichten zur Verfügung, sodass stattdessen der empirische Schätzer minimiert wird (siehe auch Importance Sampling).
Hintergrund
Ein typisches Szenario beim Überwachten Lernen ist, dass zwei Wertemengen und existieren, für die eine Funktion gesucht wird, welche für jeden Werte des ersten Raums den passenden Wert des zweiten Raums liefert. Für jede mögliche Eingabe existiert genau ein korrektes Ergebnis.
Beispiel 1
Der Eingabewerteraum enthält alle möglichen natürlichen Zahlen , die Ausgabe soll die Anzahl der Primfaktoren für diese Zahl enthalten. Die möglichen Ergebnisse bilden den Raum .
Um zu bewerten, wie gut eine Funktion die Aufgabe bewältigt, wird eine Verlustfunktion angewendet, welche für jedes angibt, wie weit das Ergebnis vom korrekten Ergebnis abweicht. Zum Beispiel wird einem korrekten Ergebnis ein Verlust von 0, einem falschen Ergebnis ein Verlust von 1 zugewiesen.
Ist dieser Wert für jede mögliche Eingabe bekannt, dann lässt sich damit angeben, wie stark die Funktion im Durchschnitt vom korrekten Ergebnis abweicht. Wenn aber nur für einen Teil der möglichen Eingaben das korrekte Ergebnis bekannt ist oder nur ein Teil getestet werden kann, kann dieser Durchschnitt nicht vollständig berechnet werden.
Beispiel 2
Es ist zwar theoretisch für jede Zahl die Anzahl der Primfaktoren bekannt oder ermittelbar, aber zum Einen gibt es unendlich viele Eingabewerte und zum Anderen ist der korrekte Wert für große Zahlen nicht effizient ermittelbar.
Hier setzt die empirische Risikominimierung an und beschränkt die Analyse auf ausgewählte, bekannte Wertepaare. Für diese Wertepaare wird ermittelt, wie stark das Ergebnis von der der Erwartung abweicht.
Anstelle des realen Fehlers wird die Qualität der Funktion mit Hilfe der bekannten Verlustwerte abgeschätzt: Je geringer der Fehler in den getesteten Daten ist, desto besser wird die Funktion eingeschätzt. Die Risikoabschätzung erfolgt also über die Abschätzung basierend auf methodisch-systematisch gesammelten Daten, anstelle der vollständigen Daten.
Ob die so ermittelte Qualität der Funktion korrekt ist, hängt stark von der Aufgabe und der Auswahl der Daten ab.
Die Funktionen
und
sollen verglichen werden. Als Daten liegen die Ergebnisse für den Wertebereich 1 … 10 vor. liefert hier vier mal das korrekte Ergebnis (Verlust also 6/10), sieben Mal (Verlust 3/10). Damit würde als besser eingeschätzt. Tatsächlich wäre aber besser, da es mehr Produkte aus zwei Primzahlen gibt, die ungerade sind, als Primzahlen.
Einzelnachweise
- Goodfellow, I., Bengio, Y., Courville, A. (2018). Deep Learning. Das umfassende Handbuch: Grundlagen, aktuelle Verfahren und Algorithmen, neue Forschungsansätze. Deutschland: mitp Verlags GmbH & Company.