A-priori-Wahrscheinlichkeit
Die A-priori-Wahrscheinlichkeit (auch Anfangswahrscheinlichkeit[1], Vortest- oder Ursprungswahrscheinlichkeit[2]) ist in den Naturwissenschaften ein Wahrscheinlichkeitswert, der anhand von allgemeinem Vorwissen bzw. von vernünftig erscheinenden Grundannahmen über die Eigenschaften eines Systems (zum Beispiel symmetrische Eigenschaften eines Würfels) als naheliegend vermutet wird. Der lateinische Begriff „a priori“ kann in diesem Zusammenhang in etwa mit „augenscheinlich“ oder „auf den ersten Blick am naheliegendsten“ wiedergegeben werden: Es erscheint beispielsweise vernünftig anzunehmen, dass ein Würfel bei häufigem Werfen alle Augenzahlen gleich häufig zeigt, d. h. die A-priori-Wahrscheinlichkeit für jede Augenzahl ist 1/6.
Diese älteste Methode für die Bestimmung von A-priori-Wahrscheinlichkeiten stammt von Laplace: Sofern es keinen bekannten Grund gibt, etwas anderes anzunehmen, wird allen elementaren Ereignissen (das sind beim Würfel die möglichen Ergebnisse der einzelnen Würfe, also die Augenzahlen 1 bis 6) dieselbe Wahrscheinlichkeit zugeordnet (Indifferenzprinzip). Entsprechend sind bei einem Münzwurf die elementaren Ereignisse „Kopf“ und „Zahl“ a priori gleich wahrscheinlich: Solange man keinen Grund hat, anzunehmen, die Münze sei manipuliert, wird man beiden Ereignissen dieselbe Wahrscheinlichkeit 1/2 zuordnen. Sollte sich dann jedoch anhand einer langen Versuchsreihe herausstellen, dass die Elementarereignisse mit sehr unterschiedlicher Häufigkeit auftreten, lässt sich vermuten, dass die A-priori-Annahmen nicht zutrafen, etwa weil der Würfel bzw. die Münze keine homogene Massenverteilung aufwies; die im Gefolge einer solchen Versuchsreihe ermittelte Wahrscheinlichkeit nennt man A-posteriori-Wahrscheinlichkeit (die Wahrscheinlichkeit, die sich hinterher herausgestellt hat).
So gesehen lassen sich die Unterschiede zwischen A-priori- und A-posteriori-Wahrscheinlichkeit als mathematische Ausdeutung des volkstümlichen Spruchs verstehen: Probieren (=eine A-posteriori-Wahrscheinlichkeit durch eine Versuchsreihe ermitteln) geht über Studieren (=eine A-priori-Wahrscheinlichkeit auf rein theoretischer Grundlage anhand naheliegend erscheinender Vermutungen festlegen).
Eine Erweiterung des Laplace-Prinzips ist das Prinzip der maximalen Entropie. Hier wird davon ausgegangen, dass man schon etwas über das System weiß, aber noch nicht alles. Da die (Informations-)Entropie ein Maß für die Unsicherheit des Wissens ist, wird argumentiert, dass die A-priori-Wahrscheinlichkeit dadurch gegeben sein muss, dass ihre Entropie unter den mit dem Wissen verträglichen Wahrscheinlichkeitsverteilungen maximal ist, denn eine andere Verteilung würde zusätzliches Wissen implizieren. Im Fall, dass keine zusätzliche Information vorliegt, reduziert sich dieses Prinzip auf das Indifferenzprinzip.
Annahmen über die A-priori-Wahrscheinlichkeiten sind Voraussetzungen für die Berechnung der bedingten Wahrscheinlichkeit eines zusammengesetzten Ereignisses und beim bayesschen Wahrscheinlichkeitsbegriff.
A-priori-Verteilungen
Folgende Situation ist gegeben: ist ein unbekannter Populationsparameter, der auf der Basis von Beobachtungen einer Zufallsgröße geschätzt werden soll.
Gegeben sei eine Verteilung für den Parameter , die das Wissen über den Parameter vor der Beobachtung der Stichprobe beschreibt. Diese Verteilung wird A-priori-Verteilung genannt.
Weiterhin sei die bedingte Verteilung der Stichprobe unter der Bedingung gegeben, die auch als Likelihood-Funktion bekannt ist.
Aus der A-priori-Verteilung und der Likelihood-Funktion kann mit Hilfe des Satzes von Bayes die A-posteriori-Verteilung berechnet werden, welche grundlegend für die Berechnung von Punktschätzern (siehe Bayes-Schätzer) und Intervallschätzern in der bayesschen Statistik (siehe Glaubwürdigkeitsintervall) ist.
Nichtinformative und informative A-priori-Verteilungen
Eine nichtinformative A-priori-Verteilung ist als eine A-priori-Verteilung definiert, die keinen Einfluss auf die A-posteriori-Verteilung hat. Dadurch erhält man eine A-posteriori-Verteilung, die identisch mit der Likelihood-Funktion ist. Maximum-a-posteriori-Schätzer und Konfidenzintervalle, die mit einer nichtinformativen A-priori-Verteilung gewonnen wurden, sind daher numerisch äquivalent zu Maximum Likelihood-Schätzern und frequentistischen Konfidenzintervallen.
Eine informative A-priori-Verteilung liegt in allen anderen Fällen vor.
Der Begriff der nichtinformativen A-priori-Verteilung sei an einem Beispiel erläutert: Die Zufallsgröße Y sei der mittlere Intelligenzquotient in der Stadt ZZZ. Aufgrund der Konstruktion des Intelligenzquotienten ist bekannt, dass Y normalverteilt ist mit Standardabweichung 15 und unbekanntem Parameter . An einer Stichprobe von N Freiwilligen wird der Intelligenzquotient gemessen. In dieser Stichprobe wird ein arithmetisches Mittel von 105 beobachtet.
Eine nichtinformative A-priori-Verteilung ist in diesem Fall gegeben durch
- ,
wobei eine positive reelle Zahl ist. Auf diese Weise erhält man als A-posteriori-Verteilung eine Normalverteilung mit Mittelwert 105 und Standardabweichung . Der Maximum a posteriori-Schätzer für den Mittelwert ist dann 105 (i.e.: das arithmetische Mittel der Stichprobe) und somit identisch zum Maximum-Likelihood-Schätzer.
Eigentliche und uneigentliche A-priori-Verteilungen
An obigem Beispiel kann ein Problem illustriert werden, das häufig bei der Verwendung nichtinformativer A-priori-Verteilungen auftritt: definiert eine sogenannte uneigentliche A-priori-Verteilung. Uneigentliche A-priori-Verteilungen sind dadurch gekennzeichnet, dass das Integral der A-priori-Verteilung größer als 1 ist. Daher sind uneigentliche A-priori-Verteilungen keine Wahrscheinlichkeitsverteilungen. In vielen Fällen kann jedoch gezeigt werden, dass die A-posteriori-Verteilung auch bei Verwendung einer uneigentlichen Verteilung definiert ist. Dies trifft zu, wenn
für alle gilt. Eine eigentliche A-priori-Verteilung ist dadurch definiert, dass sie unabhängig von den Daten ist und dass ihr Integral den Wert 1 ergibt.
Konjugierte A-priori-Verteilungen
A-priori- und A-posteriori-Verteilung sind konjugiert für eine gegebene Likelihood-Funktion, wenn sie den gleichen Verteilungstyp besitzen.
Ein Beispiel hierfür ist das Binomial-Beta-Modell: sei eine binomialverteilte Zufallsgröße mit Erfolgswahrscheinlichkeit als Parameter. In Einzelversuchen werden Erfolge beobachtet. Als A-priori-Verteilung für wird eine -Verteilung auf verwendet. Unter diesen Voraussetzungen ist die A-posteriori-Verteilung eine -Verteilung.
Ein weiteres Beispiel ist das Update eines normalverteilten Priors mit einer gaußförmigen Likelihood-Funktion. Die A-posteriori-Verteilung ist dann ebenfalls eine Normalverteilung.
Literatur
- James O. Berger: Statistical decision theory and Bayesian analysis. Springer Series in Statistics, Springer-Verlag, New York Berlin Heidelberg 1985. ISBN 0-387-96098-8
- Andrew Gelman et al.: Bayesian Data Analysis. Chapman & Hall/CRC, Boca Raton London New York Washington D.C. 2013.
Einzelnachweise
- Arthur Pap: Analytische Erkenntnistheorie, Springer-Verlag, Wien 1955 S. 99.
- Intuition, Statistik und Beweiswürdigung (Memento vom 31. Mai 2009 im Internet Archive)