Totale Varianz

Die totale Varianz (nicht zu verwechseln mit der totalen Varianz, die sich aus der totalen Quadratsumme berechnet) ist in der multivariaten Statistik ein Maß für die Gesamt­streuung eines multivariaten (mehrdimensionalen) Datensatzes (mit Variablen ). Ein weiteres Maß für die Gesamtstreuung eines multivariaten Datensatzes ist die verallgemeinerte Varianz.

Definition

Die totale Varianz i​st definiert als

,

wobei die -te Beobachtung in der Variable , das arithmetische Mittel der Beobachtungen der Variablen und die quadrierte euklidische Distanz zwischen der multivariaten Beobachtung und dem Mittelpunkt der Daten darstellt.

Sie ist damit eine Erweiterung der empirischen Varianz einer Variablen auf den multivariaten Fall:

Eine wichtige Eigenschaft d​er totalen Varianz i​st ihre Invarianz u​nter einer Rotation d​es Datensatzes, d. h. d​ie totale Varianz d​er rotierten Daten i​st gleich d​er totalen Varianz d​er unrotierten Daten. Dies gilt, d​a die totale Varianz d​er mittlere Abstand d​er Beobachtung z​um Datensatzmittelpunkt ist.

Zusammenhang mit der Kovarianzmatrix

Die totale Varianz steht in einem engen Zusammenhang mit der Kovarianzmatrix der Daten, welche ebenfalls als eine Verallgemeinerung der univariaten Varianz betrachtet werden kann, aber von der gewählten Basis abhängt. Die totale Varianz ist dann gerade die Spur dieser Matrix, sie ist also gleichzeitig die Summe der Eigenwerte der Kovarianzmatrix.[1] Der Anteil der erklärten totalen Varianz wird daher in der Hauptkomponentenanalyse, der Faktoranalyse und der Clusteranalyse als ein Maß benutzt, ob die vorgenommene Datenreduktion den multivariaten Datensatz gut widerspiegelt. Bei der Verwendung dieses Maßes in der Clusteranalyse spricht man von einer „internen Validierung“, da sie ohne zusätzliche externe Information auskommt.

Literatur

  • Ludwig Fahrmeir, Wolfgang Brachinger, Alfred Hamerle, Gerhard Tutz: Multivariate statistische Verfahren, Gruyter, 2. Auflage, 1996

Einzelnachweise

  1. Alvin C. Rencher: Methods of multivariate analysis. Vol. 492. John Wiley & Sons, 2003. S. 74.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.