Cook-Abstand

In d​er Statistik, insbesondere i​n der Regressionsdiagnostik, i​st der Cook-Abstand, d​ie Cook-Maßzahl, o​der auch Cook'sche Distanz genannt, d​ie wichtigste Maßzahl z​ur Bestimmung sogenannter einflussreicher Beobachtungen, w​enn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand i​st nach d​em amerikanischen Statistiker R. Dennis Cook benannt, d​er das Konzept 1977 vorstellte.

Definition

Datenpunkte m​it großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten d​as Ergebnis u​nd die Präzision e​iner Regression beeinflussen. Der Cook-Abstand m​isst den Effekt d​er Auslassung e​iner gegebenen Beobachtung. Datenpunkte m​it einem großen Cook-Abstand sollte m​an bei d​er Datenanalyse näher betrachten. Es s​ei das multiple lineare Regressionsmodell i​n Vektor-Matrix-Form:

,

wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt und der Vektor der Regressionskoeffizienten ist (hierbei ist die Anzahl der zu schätzenden unbekannten Parameter und die Anzahl der erklärenden Variablen), und die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann , woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:

,

wobei die Prädiktionsmatrix darstellt. Das te Diagonalelement von ist gegeben durch , wobei die -te Zeile der Datenmatrix ist.[1] Die Werte werden auch als „Hebelwerte“ der ten Beobachtung bezeichnet. Um den Einfluss eines Punktes zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf und . Der Schätzer von , der dadurch gewonnen wird, dass die te Beobachtung ausgelassen wird ist gegeben durch .[2] Man kann mit mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3][4]

,

wobei die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß ist proportional zum gewöhnlichen euklidischen Abstand zwischen und . Daher ist groß, wenn die Beobachtung eine substantiellen Einfluss auf sowohl , als auch hat.

Eine numerisch einfachere Darstellung von ist gegeben durch:[5]

,

wobei die studentisierten Residuen darstellen.

Erkennen von stark einflussreichen Beobachtungen

Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel vorgeschlagen.[6] Andere Autoren haben vorgeschlagen, wobei die Anzahl der Beobachtungen ist.[7]

Siehe auch

Literatur

Einzelnachweise

  1. Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23
  2. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236
  3. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.
  4. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  5. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  6. R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X
  7. Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.