Normalverteilungsmodell

Als Normalverteilungsmodell[1] oder Gauß'sches Produktmodell[2] bezeichnet man in der Statistik ein spezielles statistisches Modell, das sich durch einfache Modellannahmen auszeichnet. Dabei soll einerseits die Erhebung der Daten stochastisch unabhängig voneinander sein, andererseits sollen die Daten alle normalverteilt sein, je nach Präzisierung mit einem oder zwei unbekannten Parametern.

Die Bedeutung des Normalverteilungsmodells ergibt sich sowohl aus der Tatsache, dass es ein sehr gut untersuchtes Modell ist, für das gute Parameterschätzer, Konfidenzintervalle und Tests angegeben werden können, als auch aus der Sonderstellung der Normalverteilung, die sich nach dem zentralen Grenzwertsatz immer dann einstellt, wenn sich viele, voneinander unabhängige zufällige Einflüsse überlagern.

Es lassen sich drei Fälle unterscheiden:

Man geht von einem bekannten Erwartungswert der Normalverteilungen aus und versucht, Aussagen über die Varianz zu treffen. Beispiel hierfür wäre die Eichung einer Waage mit einem vorgegebenen genormten Gewicht.
Man geht von einer bekannten Varianz der Normalverteilungen aus und versucht, Aussagen über den Erwartungswert zu treffen. Dieser Fall würde beispielsweise eintreten bei einer Messung mit einem Messinstrument bekannter Ungenauigkeit, die vom Hersteller angegeben ist.
Sowohl Varianz als auch Erwartungswert sind unbekannt. Ein Beispiels für diesen Fall wäre die Schätzung der Schuhgröße von Männern: Weder ist klar, welche Schuhgröße ein Mann „im Mittel“ hat, noch ist klar, wie sehr die Schuhgrößen streuen.

Für die drei Fälle stehen jeweils unterschiedliche Methoden zur Verfügung.

Erwartungswert bekannt und Varianz unbekannt

Bei bekanntem Erwartungswert und unbekannter Varianz werden die Rahmenbedingungen wie folgt formalisiert: Das statistische Modell ist gegeben durch

(\mathbb {R} ^{n},{\mathcal {B}}(\mathbb {R} ^{n}),{\mathcal {P}})

,

wobei die Verteilungsklasse genauer als

{\mathcal {P}}=\{{\mathcal {N}}^{\otimes n}(\mu _{0},\sigma ^{2})\;|\;\sigma ^{2}\in (0,\infty )\}

definiert ist. Hierbei ist $\mu _{0}$ der bekannte Erwartungswert. Mit $P^{\otimes n}$ sei das n-fache Produktmaß des Wahrscheinlichkeitsmaßes $P$ bezeichnet. Es handelt sich bei dem Modell folglich um ein einparametriges Modell und ein Produktmodell. Die Verteilungsklasse ist Teil der einparametrigen Exponentialfamilie, denn die Wahrscheinlichkeitsdichte $\phi (x)$ der Normalverteilung besitzt eine Darstellung als

\phi (x)=\exp(a(\sigma )\cdot b(x)+c(\sigma ))

mit

a(\sigma )=-{\frac {1}{2\sigma ^{2}}},\;b(x)=(x-\mu _{0})^{2}\;

und

c(\sigma )=-{\tfrac {1}{2}}\ln(2\pi \sigma )

.

Damit erhält man für die Wahrscheinlichkeitsdichte auf dem gesamten Raum die Darstellung

f(x)=\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu _{0})^{2}-{\tfrac {n}{2}}\ln(2\pi \sigma ^{2})\right)

.

Geschätzt werden soll die unbekannte Varianz, die zu schätzende Parameterfunktion ist somit gegeben durch

g(\sigma ^{2})=\sigma ^{2}

.

Parameterschätzung

Sowohl die Maximum-Likelihood-Methode als auch die Momentenmethode liefern als Schätzer für die unbekannte Varianz die (nicht korrigierte)Stichprobenvarianz

V(X)={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu _{0})^{2}

.

Sie ist erwartungstreu. Die Suffizienz dieser Schätzfunktion folgt aus der Darstellung der Normalverteilung als Teil der Exponentialfamilie und der entsprechenden kanonischen Statistik. Außerdem ist der Schätzer auch vollständig[3] und somit nach dem Satz von Lehmann-Scheffé ein gleichmäßig bester erwartungstreuer Schätzer.

Konfidenzintervalle

Konfidenzintervalle für die unbekannte Varianz beruhen auf der Pivot-Statistik

T(X,\sigma ^{2})=\sum _{i=1}^{n}\left({\frac {X_{i}-\mu _{0}}{\sigma }}\right)^{2}={\frac {n}{\sigma ^{2}}}\cdot V(X)

.

Sie ist Chi-Quadrat-verteilt mit $n$ Freiheitsgraden, also $T(X,\sigma ^{2})\sim \chi _{n}^{2}$ . Ein beidseitiges Konfidenzintervall zum Konfidenzniveau $1-\alpha$ ist somit gegeben durch[4]

C(X)=\left[{\frac {n}{\chi _{n;1-\alpha /2}^{2}}}V(X);{\frac {n}{\chi _{n;\alpha /2}^{2}}}V(X)\right]

.

Hierbei ist $\chi _{n,\alpha }^{2}$ das $\alpha$ -Quantil der Chi-Quadrat-Verteilung mit $n$ Freiheitsgraden. Die konkreten Werte der Quantile können in der Quantiltabelle der Chi-Quadrat-Verteilung nachgeschlagen werden.

Testen

Für Einstichprobenprobleme existiert der Chi-Quadrat-Test zur Prüfung einer Varianz, für Zweistichprobenprobleme der F-Test zum Vergleich zweier Varianzen.[5]

Varianz bekannt und Erwartungswert unbekannt

Ist die Varianz bekannt und der Erwartungswert unbekannt, so werden die Rahmenbedingungen wie folgt formalisiert: das statistische Modell gegeben durch

(\mathbb {R} ^{n},{\mathcal {B}}(\mathbb {R} ^{n}),{\mathcal {P}})

,

wobei die Verteilungsklasse genauer als

{\mathcal {P}}=\{{\mathcal {N}}^{\otimes n}(\mu ,{\sigma _{0}}^{2})\;|\;\mu \in \mathbb {R} \}

definiert ist. Hierbei bezeichnet $\sigma _{0}$ die bekannte Varianz. Es handelt sich bei dem Modell folglich um ein einparametriges Modell und ein Produktmodell. Genauso ist die Verteilungsklasse ein Teil der einparametrigen Exponentialfamilie, denn die Wahrscheinlichkeitsdichte $\phi (x)$ der Normalverteilung besitzt eine Darstellung als

\phi (x)=\exp(a(\mu )\cdot b(x)+c(\mu )+d(x))

mit

a(\mu )={\frac {\mu }{\sigma _{0}^{2}}},\;b(x)=x,\;c(\mu )=-{\tfrac {\mu ^{2}}{2\sigma _{0}^{2}}}

und

d(x)=-\left({\tfrac {x^{2}}{2\sigma _{0}^{2}}}+{\tfrac {1}{2}}\ln(2\pi \sigma _{0}^{2})\right)

.

Damit erhält man für die Wahrscheinlichkeitsdichte auf dem gesamten Raum die Darstellung

f(x)=\exp \left({\frac {\mu }{\sigma _{0}^{2}}}\sum _{i=1}^{n}x_{i}+n\cdot c(\mu )-\left({\tfrac {n}{2}}\ln(2\pi \sigma _{0}^{2})+\sum _{i=i}^{n}{\tfrac {x_{i}^{2}}{2\sigma _{0}^{2}}}\right)\right)

Geschätzt werden soll der unbekannten Erwartungswert, die zu schätzende Parameterfunktion ist somit gegeben durch

g(\mu )=\mu

.