Mittlere absolute Abweichung vom Median
Die mittlere absolute Abweichung vom Median ist ein robustes Streuungsmaß in der deskriptiven Statistik und gibt an, wie weit eine Stichprobe „im Mittel“ vom Median abweicht. Je nach Definition wird entweder das arithmetische Mittel oder der Median der absoluten Abweichungen berechnet.
Definition
Gegeben sei eine Stichprobe
mit Elementen. Es sei der Median der Stichprobe.
Die mittlere absolute Abweichung ist nun entweder definiert als arithmetisches Mittel der absoluten Abweichungen (englisch mean absolute deviation, kurz MAD):[1][2]
Oder als Median der absoluten Abweichungen (auch: Median-Abweichung, englisch median absolute deviation, kurz MAD oder auch MedAD):[3]
Beispiel
Gegeben sei die Stichprobe
- ,
es ist also . Als sortierte Stichprobe erhält man
- ,
somit ist der Median
- .
Daraus folgt
Insbesondere unterscheiden sich die beiden Werte für die mittlere absolute Abweichung vom Median beinahe immer von der mittleren absoluten Abweichung vom arithmetischen Mittel. Diese liefert bei derselben Stichprobe den Wert
- .
Eigenschaften
Betrachtet man die mittlere absolute Abweichung von einem beliebigen Wert , also
- ,
so ist genau dann minimal, wenn der Median ist.[4] Ein analoges Resultat gilt auch für die mittlere quadratische Abweichung von einem Wert : sie wird genau dann minimal, wenn das arithmetische Mittel ist. In diesem Sinne ist die mittlere absolute Abweichung ein natürliches Streumaß um den Median, ebenso wie die mittlere quadratische Abweichung ein natürliches Streumaß um das arithmetische Mittel ist.
Die mittlere absolute Abweichung ist ein robustes Streuungsmaß, es ist also deutlich unempfindlicher gegenüber Ausreißern als etwa die Standardabweichung. Dies liegt an der Verwendung des robusten Medians. Besonders relevant ist dies, wenn eine Regel für das Entfernen von Ausreißern aus einem Datensatz gefunden werden soll: Das übliche Verfahren, alle Werte, die mehr als drei Standardabweichungen vom arithmetischen Mittel entfernt sind, zu streichen, ist insofern problematisch, als dass Standardabweichung und Mittel selbst durch Ausreißer verzerrt sein könnten. Ein deutlich unempfindlicheres Verfahren wäre, alle Werte zu streichen, die mehr als das k-fache des MedAD vom Median abweichen, wobei k ein von der Wahrscheinlichkeitsverteilung abhängiger Faktor ist.[5]
Einzelnachweise
- Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 6. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8, S. 74, doi:10.1007/978-3-540-77788-5.
- Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, doi:10.1007/978-3-8349-4748-2.
- Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 32, doi:10.1007/978-3-658-03077-3.
- Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 275, doi:10.1007/978-3-8348-2331-1.
- Leys, C., et al: Detecting outliers: Do not use standard deviation around the mean, use absolute deviation around the median. In: Journal of Experimental Social Psychology. Band 49, Nr. 4, 2013, S. 764–766, doi:10.1016/j.jesp.2013.03.013 (englisch, ulb.ac.be [PDF]).