Verzerrung durch ausgelassene Variablen
In der Statistik tritt eine Verzerrung durch ausgelassene Variablen, auch Verzerrung aufgrund von ausgelassenen Variablen (englisch Omitted Variable Bias, kurz OVB) auf, wenn eine oder mehrere relevante Variable(n) bzw. Regressor(en) nicht berücksichtigt wird (werden).[1] Hierbei ist eine relevante Variable eine Variable, die einen von null verschiedenen partiellen (wahren) Effekt auf die Antwortvariable aufweist, also eine Variable die im wahren Modell Einfluss auf die Antwortvariable hat. Die Variablen für die man eigentlich kontrollieren will, die aber bei der Schätzung eines Regressionsmodells ausgelassen wurden, werden ausgelassene Variablen genannt. Die mögliche Folge des Weglassens einer oder mehrerer relevanter Variablen ist ein verzerrter und inkonsistenter Schätzer für den Effekt des Interesses.
Falls das (mit der Kleinste-Quadrate-Schätzung geschätzte) Regressionsmodell fehlspezifiziert wurde und eine relevante erklärende Variable in der Regressionsgleichung ausgelassen wurde kommt es zu einer Verzerrung der Kleinste-Quadrate-Schätzer. Im Allgemeinen tritt eine Verzerrung ein, falls:
- die ausgelassene Variable mit einer im Modell berücksichtigten Variablen korreliert ist und
- wenn die ausgelassene Variable die Antwortvariable bestimmt
Die Verzerrung bei den Kleinste-Quadrate-Schätzern entsteht, weil das Modell versucht, die fehlenden relevanten Variablen dadurch zu kompensieren, dass es die Effekte der anderen erklärenden Variablen über- oder unterschätzt. In der Praxis existiert meist eine Austauschbeziehung zwischen einer Verzerrung durch ausgelassene Variablen und dem Problem des Vorliegens von Multikollinearität. Eine mögliche Lösung stellt die Verwendung von Instrumentvariablen dar.
Ausgangslage
Gegeben ein typisches multiples lineares Regressionsmodell , mit dem Vektor der unbekannten Regressionsparameter, der Versuchsplanmatrix , dem Vektor der abhängigen Variablen und dem Vektor der Fehlerterme . Des Weiteren wird angenommen, dass die Fehlerterme im Mittel null sind: . Das bedeutet, es kann davon ausgegangen werden, dass das Modell im Mittel korrekt ist.
Man betrachte folgende Situation:
- Der wahre datengenerierende Prozess sei:
- mit
- Der fehlspezifizierte datengenerierende Prozess sei:
Obwohl das volle Modell korrekt ist, wird fälschlicherweise das reduzierte Modell geschätzt. In diesem Fall werden unzutreffend die relevanten Variablen (diese Variablen sind relevant, weil für den wahren Parameter gilt ) vernachlässigt. Diese ausgelassenen Variablen wandern in eine neu definierte stochastische Störgröße, weil sie zwar relevant sind, aber dennoch nicht im Modell berücksichtigt werden. Im Falle von ausgelassenen Variablen ist der Kleinste-Quadrate-Schätzer im Allgemeinen verzerrt (Verzerrung durch ausgelassene Variablen). Eine Ausnahme liegt vor, wenn und orthogonal sind, d. h. jede Variable in ist mit jeder Variablen in unkorreliert. Darüber hinaus zeigen die Komponenten des Schätzers vom reduzierten Modell eine kleinere Varianz als die entsprechenden Komponenten des Schätzers basierend auf dem wahren Modell.[1]
Effekte der Modellspezifikation
Verzerrung des Kleinste-Quadrate-Schätzers
Falls man das reduzierte Modell schätzt, in Wirklichkeit das wahre Modell aber das volle Modell ist, dann ergibt sich wegen
ein systematischer Fehler im Umfang von .
Verzerrung des Varianzschätzers
Durch die ausgelassenen Variablen ist der Varianzschätzer für die wahre Varianz der Störgrößen verzerrt. Die Unsicherheit bzgl. der Schätzung der Störgrößen steigt also und die Varianz kann nicht mehr erwartungstreu geschätzt werden. Für die Verzerrung der Varianz gilt
- ,
d. h. im Mittel wird die Varianz der Störgrößen systematisch überschätzt. Da der systematische Fehler im Zähler eine quadratische Form hat, ist er positiv.
Verzerrung der Residuen
Durch das Auslassen relevanter Variablen sind die Residuen nicht mehr um Null zentriert
- ,
Dies lässt sich so interpretieren, dass im Mittel nicht mehr das wahre Modell geschätzt wird.
Einzelnachweise
- Peter Hackl: Einführung in die Ökonometrie. 2. aktualisierte Auflage, Pearson Deutschland GmbH, 2008., ISBN 978-3-86894-156-2, S. 105.ff.