Suffiziente Statistik

In d​er mathematischen Statistik i​st eine suffiziente Statistik, a​uch erschöpfende Statistik genannt, i​st eine Statistik, d​ie alle relevante Information bezüglich d​es unbekannten Parameters a​us der Zufallsstichprobe enthält.[1] Aus maßtheoretischer Sicht i​st Suffizienz bezüglich e​ines Modells e​ine mögliche Eigenschaft messbarer Funktionen, d​ie aus d​em Stichprobenraum i​n einen beliebigen Messraum abbilden. Man charakterisiert d​abei solche Abbildungen a​ls suffizient (auch: erschöpfend), d​ie einen hochdimensionalen Datenvektor i​n eine einfachere Form transformieren, o​hne dabei wesentliche Informationen über d​ie zu Grunde liegende Wahrscheinlichkeitsverteilung z​u verlieren. Gegenstück d​er Suffizienz i​st die Verteilungsfreiheit, s​ie entspricht e​iner uninformativen Transformation.

Anschaulich formuliert s​ind also g​enau solche Statistiken suffizient, d​ie sämtliche Informationen über d​ie zu schätzenden Parameter d​es Modells beinhalten, d​ie in d​er Stichprobe enthalten sind.

Die Suffizienz zählt n​eben der Erwartungstreue u​nd der Äquivarianz/Invarianz z​u den klassischen Reduktionsprinzipien d​er mathematischen Statistik. Ihre Bedeutung erhält d​ie Suffizienz d​urch den Satz v​on Rao-Blackwell. Aus i​hm folgt, d​ass "optimale" Schätzer i​m Bezug a​uf den mittleren quadratischen Fehler o​der entsprechende Verallgemeinerungen i​mmer in d​er Menge d​er suffizienten Schätzer z​u finden sind.

Idee

Angenommen man hat eine Münze, für die man die Wahrscheinlichkeit für "Kopf oben" () wissen möchte. Um den unbekannten Parameter zu schätzen, würde man mal das Zufallsexperiment "Wurf der Münze" durchführen und eine Eins notieren, wenn Kopf oben landet und Null, wenn Zahl oben ist. Aus den Beobachtungswerten

würde man einen Schätzwert berechnen mit .

Die Statistik wäre eine suffiziente Statistik, da für eine Schätzung des unbekannten Parameters aus den Beobachtungswerten nur die Information benötigt wird wie oft Kopf oben war. Die auch in der Beobachtungswerten enthaltene Information, bei welchem Wurf Kopf oben war wird jedoch nicht benötigt.

Wenn es für die Schätzung eines unbekannten Parameters ausreichend ist, die Statistik zu kennen und nicht notwendigerweise die Beobachtungswerte, dann ist eine suffiziente Statistik.

Definition

Formal seien der Stichprobenraum, ein beliebiger Messraum und eine messbare Abbildung zwischen den beiden Räumen. Ferner sei eine Zufallsvariable auf dem Stichprobenraum, deren Verteilung aus einer Familie von Wahrscheinlichkeitsmaßen stammt. heißt dann suffizient für die Familie falls die Verteilung von nicht von abhängt.

Allgemeiner lässt sich die Suffizienz einer Statistik mittels der Suffizienz von σ-Algebren definieren: Eine Statistik heißt suffizient, oder erschöpfend wenn die von ihr erzeugte σ-Algebra eine suffiziente σ-Algebra ist.

Beispiel: Binomialverteilung

Ein einfaches Beispiel für suffiziente Statistiken erhalten wir bei der Untersuchung identisch unabhängig Bernoulli-verteilter Zufallsvariablen. Das zugrundeliegende Modell ist also ein Bernoulli-Prozess. Die Zähldichte der Zufallsvariable ist in diesem Fall durch gegeben, wobei die entweder 0 oder 1 sind. Man beachte, dass das Zählmaß auf endlich (insbesondere also -endlich) ist und wegen der Existenz der Dichten die Klasse dominiert. Daher erkennt man anhand der Neyman-Charakterisierung, dass suffizient für ist.

Mithilfe der Definition zeigt man die Suffizienz von , indem man berechnet. Benutzt man nun bedingte Wahrscheinlichkeiten erhält man:

.

Diese bedingte Dichte ist nun unabhängig von und somit ist suffizient.

Heuristisch gesprochen genügt es also, an Stelle des gesamten Datenvektors bloß die Anzahl der Erfolge in diesem Experiment zu kennen, um alle Informationen über den unbekannten Parameter zu erhalten.

Sätze über Suffizienz bei dominierten Verteilungsklassen

Satz von Halmos-Savage

Der Satz von Halmos-Savage liefert ein Suffizienzkriterium unter der Annahme, dass die Verteilungsklasse dominiert ist. Lassen sich dann abzählbar unendlich viele Maße der Verteilungsklasse zu einem Maß kombinieren, so dass dieses die Verteilungsklasse dominiert und jedes Wahrscheinlichkeitsmaß der Verteilungsklasse eine -messbare Dichte bezüglich besitzt, dann ist eine suffiziente σ-Algebra.

Neyman-Kriterium

Unter der Voraussetzung, dass eine dominierte Verteilungsklasse ist, ist eine Statistik genau dann suffizient, wenn messbare Funktionen und existieren, so dass die Dichte wie folgt zerlegt werden kann: Diese Charakterisierung der Suffizienz geht auf Jerzy Neyman zurück. Insbesondere sind bijektive Transformationen suffizienter Statistiken wieder suffizient. Das Neyman-Kriterium leitet sich aus dem Satz von Halmos-Savage ab, ist aber leichter zu handhaben.

Weitere Suffizienzbegriffe

Minimalsuffizienz

Die Minimalsuffizienz i​st eine stärkere Forderung a​ls die Suffizienz, d​ie ebenfalls für Statistiken u​nd σ-Algebren definiert wird. Sie stellt d​ie Frage n​ach der maximal möglichen Datenkompression, a​lso nach e​iner kleinstmöglichen suffizienten σ-Algebra.

Starke Suffizienz

Die starke Suffizienz i​st eine Abwandlung d​es herkömmlichen Suffizienzbegriffes, d​ie mittels Markow-Kernen definiert wird. Für borelsche Räume stimmen starke Suffizienz u​nd Suffizienz überein.

Wichtige Sätze

Literatur

  • Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, doi:10.1007/978-3-642-41997-3.
  • Helmut Pruscha: Vorlesungen über Mathematische Statistik. B. G. Teubner, Stuttgart 2000, ISBN 3-519-02393-8, Abschnitt II.3.

Einzelnachweise

  1. Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 41.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.