Mahalanobis-Abstand

Der Mahalanobis-Abstand, a​uch Mahalanobis-Distanz o​der verallgemeinerter Abstand[1] (nach Mahalanobis) genannt, i​st ein Distanzmaß zwischen Punkten i​n einem mehrdimensionalen Vektorraum. Intuitiv g​ibt der Mahalanobis-Abstand zweier Punkte i​hren Abstand i​n Standardabweichungen an. Der Mahalanobis-Abstand w​ird speziell i​n der Statistik verwendet, z​um Beispiel i​m Zusammenhang m​it multivariaten Verfahren.

Definition

Bei multivariaten Verteilungen werden die Koordinaten eines Punktes als -dimensionaler Spaltenvektor dargestellt. Man fasst ihn als Realisierung eines Zufallsvektors mit der Kovarianzmatrix auf. Der Abstand zweier so verteilter Punkte und wird dann durch den Mahalanobis-Abstand in der Grundgesamtheit

bestimmt. Der Mahalanobis-Abstand i​st skalen- u​nd translationsinvariant.

Analog g​ilt für d​en Mahalanobis-Abstand i​n der Stichprobe:

,

wobei die Inverse der Stichproben-Kovarianzmatrix darstellt.

Im Zweidimensionalen bilden die Punkte mit gleichem Mahalanobis-Abstand von einem Zentrum graphisch eine Ellipse (deren Achsen nicht notwendigerweise in Richtung der Koordinatenachsen zeigen), während es beim euklidischen Abstand ein Kreis ist. Ist die Kovarianzmatrix die Einheitsmatrix (dies ist genau dann der Fall, wenn die einzelnen Komponenten des Zufallsvektors paarweise unkorreliert sind und jeweils Varianz 1 besitzen), so entspricht der Mahalanobis-Abstand dem euklidischen Abstand. Die Flächen konstanten Abstandes von einem Punkt können beim Mahalanobis-Abstand beliebige Kegelschnitte sein.

Mathematisch ergibt sich der Mahalanobis-Abstand aus der -dimensionalen Normalverteilung mit Erwartungswertvektor und Kovarianzmatrix , wobei gilt. Diese Verteilung besitzt nämlich die Dichte

.

Durch Logarithmieren dieses Ausdrucks erhält m​an die logarithmische Dichte

mit einer Konstanten , was bis auf die fehlende Wurzel, den Vorfaktor und den Summanden dem Mahalanobis-Abstand entspricht.

Anwendungen

In der Diskriminanzanalyse wird die Zuordnung eines Punktes zu einer bestimmten gegebenen Population unter anderem mit dem Mahalanobis-Abstand bestimmt. Ein weiteres Anwendungsgebiet ist die Erkennung von Ausreißern mit Hilfe des Mahalanobis-Abstands, wobei der Punkt durch einen (robusten) Lageparameter ersetzt wird. Kritisch ist dabei anzumerken, dass sowohl die Kovarianzmatrix als auch die Lageparameter durch Ausreißer verzerrt sein können. Sie werden in den meisten Fällen durch robuste Verfahren geschätzt, z. B. mit Hilfe der MCD-Schätzer (MCD englisch für Minimum Covariance Determinant, deutsch etwa Schätzer mit kleinstmöglicher Determinante der Kovarianzmatrix). Weiterhin können bei der Verwendung des Mahalanobis-Abstandes als Abstandsklassifikator zwei Fälle unterschieden werden:

  1. Die Kovarianzmatrix ist für alle Klassen gleich oder gemittelt.
  2. Es werden unterschiedliche Kovarianzmatrizen für die einzelnen Klassen verwendet.

Die Entscheidung für e​ine Alternative i​st durch empirische Analysen z​u begründen.

Siehe auch

Literatur

  • P. C. Mahalanobis: On the generalised distance in statistics. In: Proceedings of the National Institute of Science of India. Band 2, Nr. 1, 1936, S. 49–55 (isical.ac.in [PDF; 248 kB; abgerufen am 17. August 2021]).
  • R. De Maesschalck, D. Jouan-Rimbaud & D. L. Massart: The Mahalanobis distance. In: Chemometrics and Intelligent Laboratory Systems. Band 50, Nr. 1, 2000, S. 1–18, doi:10.1016/S0169-7439(99)00047-7.
  • G. J. McLachlan: Mahalanobis distance. In: Resonance. Band 4, 1999, S. 20–26, doi:10.1007/BF02834632.

Einzelnachweise

  1. Mahalanobis' generalized distance. Glossary of statistical terms. In: International Statistical Institute. 1. Juni 2011, abgerufen am 15. Oktober 2020 (englisch).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.