Entropieschätzung

Das Themengebiet d​er Entropieschätzung befasst s​ich mit d​en unterschiedlichen Methoden für d​ie statistische Schätzung d​er Shannon-Entropie a​uf der Basis v​on endlichen Stichproben.

Für die formale Berechnung der Shannon-Entropie ist gemäß Definition die Kenntnis der Wahrscheinlichkeiten der zugrunde liegenden Nachrichtenquelle notwendig. Jedoch sind in der Praxis diese Wahrscheinlichkeiten meistens unbekannt, und man ist darauf angewiesen, die Wahrscheinlichkeiten der Nachrichten aus einer vorgegebenen endlichen Stichprobe zu schätzen, um damit auf die Entropie der Gesamtheit zu schließen.

Aufgrund der naturgegebenen statistischen Schwankungen in endlichen Stichproben sind dabei systematische und unsystematische Abweichungen bei den Schätzungen zu erwarten. Bei dem gewöhnlichen Maximum-Likelihood-Schätzer für die Entropie werden die Wahrscheinlichkeiten , , in der Shannon-Entropie[1][2]

,

durch die Maximum-Likelihood-Schätzer ersetzt. Erscheint im Falle von insgesamt Beobachtungen das Ereignis mit einer absoluten Häufigkeit von , so führt die Verwendung von zu dem in der Praxis häufig verwendeten Maximum-Likelihood-Schätzer für die Entropie

Dieser Schätzer ist aus statistischer Sicht besonders geeignet, wenn die Stichprobe sehr viel größer als die mögliche Anzahl der unterschiedlichen Ereignisse ist, d. h. gegeben ist. Andernfalls führt der obige Schätzer oft zu einer systematischen Unterschätzung der Entropie. Dieser Fehler wird besonders dann merklich, wenn der Umfang der Stichprobe nicht sehr viel größer als die Anzahl der unterschiedlichen Nachrichten der Quelle ist. In der Praxis ist jedoch letzteres oft von besonderem Interesse.

„Finite-Sample“-Korrekturen

Es gibt eine Reihe von Ansätzen in der Literatur die sich damit befassen, den systematischen Fehler mit geeigneten Korrekturtermen sukzessive zu verringern. Dabei werden üblicherweise Taylor-Reihenentwicklung der Entropie vorgenommen. Für Korrekturen bis zur ersten Ordnung in ergibt sich beispielsweise der Schätzer

Der Korrekturterm wurde zuerst von Miller[3] für die Untersuchung medizinischer Daten berücksichtigt. Weitere Anwendungen im Rahmen der Genforschung wurden beispielsweise später von Herzel[4] vorgenommen. Die ersten Berechnungen von Korrekturtermen bis zur zweiten Ordnung wurden zuerst von Harris[5] publiziert. Dabei stellt sich heraus, dass die Korrekturterme zweiter Ordnung nicht unabhängig von den zu schätzenden Wahrscheinlichkeiten sind. Zudem führt eine Substitution der Wahrscheinlichkeiten in diesen Termen durch die Maximum-Likelihood-Schätzer nicht zu Verbesserungen. Für praktische Zwecke ist das Ergebnis von Harris daher wenig geeignet.

Korrekturen höherer Ordnung

Eine alternative Vorgehensweise, bei der ausschließlich beobachtbare Beiträge zu den Korrekturtermen höherer Ordnung beitragen, wurde zuerst von Peter Grassberger[6] vorgeschlagen. Für die zu schätzenden Wahrscheinlichkeiten wird dabei die Bedingung vorausgesetzt, wobei die absoluten Häufigkeiten als unabhängige, Poisson-verteilte Zufallsvariable angesehen werden. Diese Annahmen sind insbesondere für die in der Praxis interessanten Beispiele meistens sehr gut erfüllt. Ausgangspunkt bei der Herleitung von Korrekturen höherer Ordnung ist dabei die Rényi-Entropie der Ordnung

Der formale Zusammenhang mit der Shannon-Entropie ergibt sich durch den Grenzübergang , d. h. . Es erscheint dann naheliegend, zunächst nach unverzerrten Schätzern für jeden der Summanden zu suchen. Für den Fall ganzzahliger Werte existieren solche unverzerrte Schätzer, d. h.

mit für . Für eine formale Bildung des Grenzwertes ist eine analytische Fortsetzung für beliebige reelle Werte von notwendig. Von Grassberger[6] wurde dazu die -Funktion vorgeschlagen. Diese führt zwar nicht zu einem unverzerrten Schätzer für die Entropie, es ergibt sich jedoch ein asymptotisch unverzerrter Entropieschätzer,

der für endliche Stichproben in der Praxis zu Verbesserungen führt. Die Funktion bezeichnet dabei die sogenannte Digamma-Funktion. Für den interessanten Fall kleiner Wahrscheinlichkeiten ist der systematisch Fehler dieses Schätzers kleiner als bei dem Schätzer mit den von Miller vorgeschlagenen Korrekturen.

Systematische Korrekturen

Auf ähnlich Weise lässt s​ich eine parametrisierte Schar v​on allgemeinen Entropieschätzern angeben, welche d​ie obigen Schätzer fortsetzen bzw. asymptotisch repräsentieren. Anstatt e​iner Poisson-Verteilung w​ird dabei e​ine Binomialverteilung für d​ie absoluten Häufigkeiten unterstellt. Weitere Restriktionen a​n die Wahrscheinlichkeiten werden d​abei nicht gemacht. Als Entropieschätzer erhält m​an damit[7]

,

wobei die reelle Variable unterschiedliche Entropieschätzer parametrisiert.

Beispiele

1. Im Fall verschwindet der Korrekturterm und man erhält den Entropieschätzer

Ein ähnlicher Schätzer w​urde auch v​on Wolpert u​nd Wolf[8] i​m Rahmen d​er Bayes-Theorie diskutiert. Asymptotisch entspricht dieser Schätzer d​em Miller-Schätzer.

2. Der Schätzer für reproduziert näherungsweise den Schätzer . Numerische Analysen ergeben, dass der Unterschied zwischen und vernachlässigbar gering ist. Der systematische Fehler von ist geringer als der systematische Fehler des Schätzers .

3. Der Fall entspricht asymptotisch einem weiteren von Grassberger hergeleiteten Entropieschätzer.[9] Letzterer besitzt eine kleinere Verzerrung als der Miller-Schätzer und .

Systematischer Fehler (Verzerrung)

Der Systematische Fehler e​ines Schätzers i​st definiert a​ls die erwartete Abweichung zwischen d​em betrachteten Schätzer u​nd der z​u schätzenden Variablen. In d​em hier vorliegenden Fall ergibt s​ich gemäß dieser Definition

Dieser Ausdruck ist explizit abhängig von den Wahrscheinlichkeiten und dem Parameter . Für jede Auswahl dieser Variablen ergibt sich ein charakteristischer Wert für den Schätzfehler, welcher sich wie folgt analytisch bestimmen lässt[7]

Die Funktion auf der rechten Seite dieser Formel ist eine unvollständige Beta-Funktion und gehört zu der Klasse der sog. speziellen Funktionen.[10] Für den unsystematischen Fehler lässt sich hingegen keine derartige Formel herleiten. Letzterer muss daher in der Regel numerisch bestimmt werden.

Referenzen

  1. C. E. Shannon, Bell Syst. Tech. 27 (1948) 379.
  2. C. E. Shannon and W. Weaver, 1949 The Mathematical Theory of Communication (Urbana, IL: University of Illinois Press.)
  3. G. Miller: Note on the bias of information estimates. In H. Quastler, ed., Information theory in psychology II-B, p. 95 (Free Press, Glencoe, IL, 1955).
  4. H. Herzel, Sys. Anal. Mod. Sim. 5, (1988) 435.
  5. B. Harris, Colloquia Math. Soc. Janos Bolya, p. 323 (1975)
  6. P. Grassberger, Phys. Lett. A 128, (1988) 369.
  7. T. Schürmann, J. Phys. A: Math. Gen. 37 (2004) L295, arxiv:cond-mat/0403192.
  8. D. H. Wolpert und D. R. Wolf, Phys. Rev. E 52, 6841 (1995).
  9. P. Grassberger, (2003) arxiv:physics/0307138.
  10. https://functions.wolfram.com/GammaBetaErf/Beta3/07/01/01/

Siehe auch

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.