Kreuzentropie

Die Kreuzentropie i​st in d​er Informationstheorie u​nd der mathematischen Statistik e​in Maß für d​ie Qualität e​ines Modells für e​ine Wahrscheinlichkeitsverteilung. Eine Minimierung d​er Kreuzentropie i​n Bezug a​uf die Modellparameter k​ommt einer Maximierung d​er Log-Likelihood-Funktion gleich.

Definition

Sei eine Zufallsvariable mit Zielmenge , die gemäß verteilt ist. Es sei weiter eine Verteilung auf demselben Ereignisraum.

Dann i​st die Kreuzentropie definiert durch:

Hierbei bezeichne die Entropie von und die Kullback-Leibler-Divergenz der beiden Verteilungen.

Äquivalente Formulierung

Durch Einsetzen der beiden Definitionsgleichungen und ergibt sich nach Vereinfachung im diskreten Fall

und im stetigen Fall (mit Dichtefunktionen und )

Schätzung

Zwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback-Leibler-Divergenz, erstere lässt sich jedoch auch ohne genaue Kenntnis von schätzen. In der praktischen Anwendung ist daher meist eine Approximation einer unbekannten Verteilung .

Nach obiger Gleichung gilt:

Wobei den Erwartungswert gemäß der Verteilung bezeichne.

Sind nun Realisierungen von , d. h. eine unabhängig und identisch gemäß verteilte Stichprobe, so ist also

ein erwartungstreuer Schätzer für d​ie Kreuzentropie (siehe Importance Sampling).

Zusammenhang mit Log-Likelihood-Funktion

Gegeben sei ein Modell mit Parametern und (Ausgabe-)Wahrscheinlichkeitsdichte welches die Wahrscheinlichkeitsdichte annähern soll. Der wahre Wert der Parameter[1] maximiert die erwartete Log-Likelihood-Funktion

Diese Gleichungen können mithilfe von Stichproben genähert werden: , wobei die Näherung wie unter Importance Sampling dargestellt folgt. Beachte, das Auftreten der Log-Likelihood-Funktion in der Näherung, wobei die Skalierung die Lage des Maximums nicht verändert.

Abgeleitete Größen

Die Größe beziehungsweise wird auch als Perplexität bezeichnet. Sie wird vor allem in der Spracherkennung verwendet.

Literatur

  • Rubinstein, Reuven Y. / Kroese, Dirk P.: The Cross-Entropy Method - A Unified Approach to Combinatorial Optimization, Monte-Carlo Simulation and Machine Learning. Springer Verlag 2004, ISBN 978-0-387-21240-1.

Einzelnachweise

  1. Denis Conniffe: Expected Maximum Log Likelihood Estimation. In: The Statistician. Band 36, Nr. 4, 1987, ISSN 0039-0526, S. 317, doi:10.2307/2348828.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.