Wilcoxon-Mann-Whitney-Test

Der Wilcoxon-Mann-Whitney-Test (auch: Mann-Whitney-U-Test, U-Test, Wilcoxon-Rangsummentest) i​st die zusammenfassende Bezeichnung für z​wei äquivalente nichtparametrische statistische Tests für Rangdaten (ordinalskalierte Daten). Sie testen, o​b es b​ei Betrachtung zweier Populationen gleich wahrscheinlich ist, d​ass ein zufällig a​us der e​inen Population ausgewählter Wert größer o​der kleiner i​st als e​in zufällig ausgewählter Wert a​us der anderen Population. Bei Verwerfung dieser Hypothese i​st anzunehmen, d​ass die Werte a​us der e​inen Population d​azu tendieren, größer bzw. kleiner z​u sein a​ls die a​us der anderen Population. Der Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest i​st – anders a​ls der Median-Test – n​icht von vornherein e​in Test z​ur Gleichheit zweier Mediane. Dies i​st nur u​nter der Voraussetzung d​er Fall, d​ass die Verteilungsform u​nd Streuung d​er abhängigen Variable i​n beiden Gruppen gleich ist.

Die Tests wurden v​on Henry Mann u​nd Donald Whitney (U-Test, 1947) bzw. Frank Wilcoxon (Wilcoxon-Rangsummentest, 1945) entwickelt.[1][2] Die zentrale Idee d​es Tests w​urde bereits 1914 v​on dem deutschen Pädagogen Gustaf Deuchler entwickelt.[3]

Praktisch findet d​er Wilcoxon-Rangsummentest bzw. d​er U-Test a​ls Alternative z​um t-Test für unabhängige Stichproben Anwendung, w​enn dessen Voraussetzungen verletzt sind. Dies i​st unter anderem d​er Fall, w​enn die z​u testende Variable n​ur Ordinalskalenniveau aufweist, o​der wenn intervallskalierte Variablen i​n den beiden Populationen n​icht (näherungsweise) normalverteilt sind.

Der Wilcoxon-Rangsummentest für z​wei unabhängige Stichproben i​st nicht z​u verwechseln m​it dem Wilcoxon-Vorzeichen-Rang-Test, d​er bei z​wei verbundenen (gepaarten) Stichproben Anwendung findet.

Annahmen

Für den Test zieht man eine Stichprobe vom Umfang aus der 1. Population und unabhängig davon eine Stichprobe vom Umfang aus der 2. Population. Für die zugehörigen unabhängigen Stichprobenvariablen und gilt und , wobei Verteilungsfunktionen sind. Der Wilcoxon-Mann-Whitney-Test ist ein valider Test unter verschiedenen Annahmen und Hypothesen[4]. Eine sehr allgemeine Formulierung ist wie folgt[5].

  1. Die untersuchte Variable ist mindestens ordinal.
  2. Die Nullhypothese ist: Es ist gleich wahrscheinlich, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population (notiert als oder )
  3. Die Alternativhypothese ist: Es ist nicht gleich wahrscheinlich, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population (notiert als oder )
  4. Wenn die Nullhypothese wahr ist, dann sind die beiden Verteilungen gleich: .

Unter diesen Annahmen i​st der Test e​xakt und konsistent.

Verschiedene andere Perspektiven a​uf den Wilcoxon-Mann-Whitney-Test s​ind Spezialfälle dieser allgemeinen Formulierung u​nter stärkeren Annahmen.

  1. Unter der Annahme, dass bzw. , stetig sind und sich nur um eine Verschiebung voneinander unterscheiden, das heißt: . Weil die beiden Verteilungsfunktionen bis auf Verschiebung gleich sind, muss insbesondere (Varianzhomogenität) gelten. D. h. bei Ablehnung der Varianzhomogenität durch den Bartlett-Test oder Levene-Test unterscheiden sich die beiden Zufallsvariablen × und Y nicht nur durch eine Verschiebung.
    • Nullhypothese: Verschiebung ist 0, , oder Gleichheit der Mediane der zwei Populationen,
    • Alternativhypothese: Verschiebung ist ungleich 0, , oder Ungleichheit der Mediane der zwei Populationen .
  2. Unter der zusätzlichen Annahme, dass der arithmetische Mittelwert für beide Populationen existiert
    1. Nullhypothese: Gleichheit der Populationsmittelwerte,
    2. Alternativhypothese: Ungleichheit der Populationsmittelwere,

Dies folgt, da unter allen alternativen Perspektiven die Nullhypothese (zusammen mit den Annahmen) Gleichheit der Verteilungen impliziert und die Alternativhypothese genau dann wahr ist wenn .

Teststatistik

Es gibt zwei Teststatistiken: die Mann-Whitney-U-Statistik und die Wilcoxon-Rangsummenstatistik . Aufgrund des Zusammenhangs zwischen den Teststatistiken

sind d​er Wilcoxon-Rangsummentest u​nd der Mann-Whitney-U-Test äquivalent.

Mann-Whitney-U-Statistik

Die Mann-Whitney-U-Teststatistik ist

,

worin , wenn , , wenn , und sonst ist. Abhängig von der Alternativhypothese wird die Nullhypothese abgelehnt für zu kleine oder zu große Werte von . In dieser Form findet er sich bei Mann und Whitney und wird oft als Mann-Whitney-U-Test bezeichnet.

Exakte kritische Werte

Die exakte Verteilung von unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von rasch an. Einige exakte kritische Werte für liegen tabelliert vor und können für kleine Stichprobenumfänge der Tabelle unten entnommen werden ( beim zweiseitigen Test und beim einseitigen Test).

Es g​ibt eine Rekursionsformel, d​ie eine schrittweise u​nd wenig rechenzeitintensive Ermittlung d​er kritischen Werte für geringe Stichprobengrößen erlaubt.[6]

Approximative kritische Werte

Für , und kann

durch d​ie Normalverteilung approximiert werden.[7] Die kritischen Werte ergeben s​ich dann a​us den kritischen Werten d​er approximativen Normalverteilung.

Wilcoxon-Rangsummenstatistik

Die Wilcoxon-Rangsummenstatistik ist

mit der Rang der i-ten X in der gepoolten, geordneten Stichprobe. In dieser Form trägt der Test häufig die Bezeichnung Wilcoxon-Rangsummentest.

Exakte kritische Werte

Die exakte Verteilung von unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von rasch an. Man kann die exakten kritischen Werte zum Signifikanzniveau mittels einer Rekursionsformel berechnen:

(oder oder oder )

Die Formel entsteht, w​enn man konditioniert a​uf die Bedingung, o​b der letzte Wert i​n der Anordnung e​in × (...X) o​der ein Y (...Y) ist.

Approximative kritische Werte

Für oder (auch: oder ) kann die Teststatistik

durch d​ie Normalverteilung approximiert werden.[8][9] Die kritischen Werte ergeben s​ich dann a​us den kritischen Werten d​er approximativen Normalverteilung.

Einseitige Hypothesen

Der Test k​ann auch für d​ie einseitigen Hypothesen

bzw.

formuliert werden.

Beispiel

Aus d​en Daten d​er allgemeinen Bevölkerungsumfrage d​er Sozialwissenschaften 2006 wurden zufällig 20 Personen gezogen u​nd ihr Nettoeinkommen ermittelt:

Rang1234567891011121314151617181920
Nettoeinkommen04005005506006507508009009501000110012001500160018001900200022003500
GeschlechtMWMWMWMMWWMMWMWMMMMM

Man hat zwei Stichproben vor sich, Stichprobe der Männer mit Werten und Stichprobe der Frauen mit Werten. Wir könnten nun prüfen, ob das Einkommen der Männer und Frauen gleich ist (zweiseitiger Test) oder das Einkommen der Frauen geringer (einseitiger Test). Da es unrealistisch ist anzunehmen, dass sich die Einkommen von Männer und Frauen nur um eine Verschiebung voneinander unterscheiden, nehmen wir die allgemeinste Perspektive an. Das heißt, wir testen

Zweiseitiger TestEinseitiger Test

Wir müssen z​udem annehmen, d​ass wenn d​ie Nullhypothese g​ilt die Einkommensverteilungen komplett gleich sind.

Zunächst wird aus beiden Zahlenreihen je eine Prüfgröße gebildet:

und sind dabei die Anzahlen der Werte pro Stichprobe, und sind die jeweiligen Summen aller Rangzahlen pro Stichprobe. (Sind mehrere Werte in beiden Datensätzen identisch, dann muss für ihre Ränge jeweils der Median bzw. das arithmetische Mittel eingetragen werden.) Für die folgenden Tests benötigt man das Minimum von und , also .

Für u​nser Beispiel ergibt s​ich (Index M = Männer, W = Frauen)

und .
und und
.

Bei korrekter Berechnung muss gelten bzw. . Die Testgröße wird nun mit den kritischen Wert(en) verglichen. Das Beispiel ist so gewählt, dass sowohl ein Vergleich mit den exakten kritischen Werten als auch mit den approximativen Werten möglich ist.

Exakte kritische Werte

Anhand der untenstehenden Tabelle ergibt sich mit und ein kritischer Wert von für ein Signifikanzniveau von . Abgelehnt wird die Nullhypothese, wenn ist; dies ist hier aber nicht der Fall.

Approximative kritische Werte

Da die Teststatistik approximativ normal verteilt ist, folgt dass die

verteilt ist. Für ein Signifikanzniveau von ergibt sich der Nichtablehnungsbereich der Nullhypothese im zweiseitigen Test durch das 2,5%- bzw. 97,5%-Quantil der Standardnormalverteilung mit . Es ergibt sich jedoch , d. h., der Prüfwert liegt innerhalb des Intervalls und die Nullhypothese kann nicht abgelehnt werden.

Exakte kritische Werte

Anhand der untenstehenden Tabelle ergibt sich mit und ein kritischer Wert von für ein Signifikanzniveau von (anderes Signifikanzniveau als beim zweiseitigen Test!). Abgelehnt wird die Nullhypothese, wenn ist (es ist das passende für das gewählte einseitige Testproblem zu betrachten); dies ist hier nicht der Fall.

Approximative kritische Werte

Für ein Signifikanzniveau von ergibt sich der kritische Wert als das 5%-Quantil der Standardnormalverteilung und der Nichtablehnungsbereich der Nullhypothese als . Es ergibt sich jedoch , d. h., die Nullhypothese kann nicht abgelehnt werden.

Tabelle der kritischen Werte der Mann-Whitney-U-Statistik

Die folgende Tabelle ist gültig für (zweiseitig) bzw. (einseitig) mit . Der Eintrag „-“ bedeutet, dass die Nullhypothese in jedem Fall zu dem gegebenen Signifikanzniveau nicht abgelehnt werden kann. Z. B. ist:

und

so dass 55 der geeignete kritische Wert für den einseitigen Test bei mit und ist.

12345678910111213141516171819202122232425262728293031323334353637383940
1--------------------------------------00
2------000011111222233333444455555666677
3--01122334455667788991010111112131314141515161617171818
4012344567891011111213141516171718192021222324242526272829303131
523567891112131415171819202223242527282930323334353738394041434445
65681011131416171921222425272930323335373840424345464850515355565859
78101214161820222426283032343638404244464850525456586062646668707274
8131517192224262931343638414345485053555760626567697274777981848689
9172023262831343739424548505356596264677073767881848789929598101103
1023262933363942454852555861646771747780838790939699103106109112115119
113033374044475155586265697376808387909498101105108112116119123127130134
1237414549535761656973778185899397101105109113117121125129133137141145149
1345505459636772768085899498102107111116120125129133138142147151156160165
1455596469747883889398102107112117122127131136141146151156161165170175180
1564707580859096101106111117122127132138143148153159164169174180185190196
167581869298103109115120126132137143149154160166171177183188194200206211
17879399105111117123129135141147154160166172178184190196202209215221227
1899106112119125132138145151158164171177184190197203210216223230236243
19113119126133140147154161168175182189196203210217224231238245252258
20127134141149156163171178186193200208215222230237245252259267274

Implementierung

In vielen Softwarepaketen i​st der Mann-Whitney-Wilcoxon-Test (der Hypothese d​er gleichen Verteilungen gegenüber geeigneten Alternativen) schlecht dokumentiert. Einige Pakete behandeln Bindungen falsch o​der dokumentieren asymptotische Techniken n​icht (z. B. Korrektur für Kontinuität). Bei e​iner Überprüfung i​m Jahr 2000 wurden einige d​er folgenden Pakete diskutiert:[10]

  • MATLAB hat in seinem Statistics Toolbox eine Rangsummentest (ranksum) ranksum Funktion.
  • R implementiert den Test in seinem „stats“ wilcox.test Paket.
  • SAS implementiert den Test in seinem PROC NPAR1WAY Verfahren.
  • Python (Programmiersprache) hat eine Implementierung dieses Tests über SciPy[11]
  • SigmaStat (SPSS Inc., Chicago, IL)
  • SYSTAT (SPSS Inc., Chicago, IL)
  • Java implementiert den Test über Apache Commons[12]
  • JMP (SAS Institute Inc., Cary, NC)
  • S-Plus (MathSoft, Inc., Seattle, WA)
  • STATISTICA (StatSoft, Inc., Tulsa, OK)
  • UNISTAT (Unistat Ltd, London)
  • SPSS (SPSS Inc, Chicago)
  • StatsDirect (StatsDirect Ltd, Manchester, UK) implementiert den test über Analysis_Nonparametric_Mann-Whitney.
  • Stata (Stata Corporation, College Station, TX) implementiert den Test in seinem ranksum Kommando.
  • StatXact (Cytel Software Corporation, Cambridge, Massachusetts).
  • PSPP implementiert den Test in seiner WILCOXON Funktion.

Alternativen

Falls die Annahme der Gleichheit der Populationsverteilungen unter der Nullhypothese nicht realistisch ist, sollte der Wilcoxon-Mann-Whitney Test nicht benutzt werden. In diesem Fall kann die Wahrscheinlichkeit für einen Fehler 1. Art selbst in sehr großen Stichproben stark erhöht sein[13]. Dieses Problem wurde durch die Entwicklung alternativer Tests behoben. Zwei Beispiele sind der Brunner-Munzel und der Fligner-Policello-Test[14]. Beide Tests sind approximativ exakte und konsistente Tests für vs , das heißt, sie testen die gleiche Hypothese wie der Wilcoxon-Mann-Whitney-Test, aber benötigen nicht die Annahme der Gleichheit der Verteilungen unter der Nullhypothese. Daher wird empfohlen den Brunner-Munzel Test anzuwenden, wenn die Annahme der Gleichheit der Populationsverteilungen unter der Nullhypothese nicht gemacht werden kann[13].

Literatur

  • Herbert Büning, Götz Trenkler: Nichtparametrische statistische Methoden. de Gruyter, 1998, ISBN 3-11-016351-9.
  • Sidney Siegel: Nichtparametrische statistische Methoden. 2. Auflage. Fachbuchhandlung für Psychologie, Eschborn bei Frankfurt am Main 1985, ISBN 3-88074-102-6.

Einzelnachweise

  1. Frank Wilcoxon: Individual Comparisons by Ranking Methods. In: Biometrics Bulletin. 1, 1945, S. 80–83, JSTOR 3001968.
  2. Henry Mann, Donald Whitney: On a test of whether one of two random variables is stochastically larger than the other. In: Annals of mathematical Statistics. 18, 1947, S. 50–60, doi:10.1214/aoms/1177730491.
  3. William H. Kruskal: Historical Notes on the Wilcoxon Unpaired Two-Sample Test. In: Journal of the American Statistical Association. Band 52, 1957, S. 356–360, JSTOR 2280906.
  4. Michael P. Fay, Michael A. Proschan: Wilcoxon-Mann-Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules. In: Statistics surveys. Band 4, 2010, ISSN 1935-7516, S. 1–39, doi:10.1214/09-SS051, PMID 20414472, PMC 2857732 (freier Volltext).
  5. George W. Divine, H. James Norton, Anna E. Barón, Elizabeth Juarez-Colunga: The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians. In: The American Statistician. Band 72, Nr. 3, 3. Juli 2018, ISSN 0003-1305, S. 278–286, doi:10.1080/00031305.2017.1305291.
  6. A. Löffler: Über eine Partition der natürlichen Zahlen und ihre Anwendung beim U-Test. In: Wiss. Z. Univ. Halle. Band XXXII, Heft 5 1983, S. 87–89. (lms.fu-berlin.de)
  7. B. Rönz, H. G. Strohe (Hrsg.): Lexikon Statistik. Gabler, Wiesbaden 1994, ISBN 3-409-19952-7.
  8. H. Rinne: Taschenbuch der Statistik. 3. Auflage. Verlag Harri Deutsch, 2003, S. 534.
  9. S. Kotz, C. B. Read, N. Balakrishnan: Encyclopedia of Statistical Sciences. Wiley, 2003, S. 208.
  10. Reinhard Bergmann, John Ludbrook, Will P.J.M. Spooren: Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages. In: The American Statistician. Band 54, Nr. 1, 2000, S. 72–77, doi:10.1080/00031305.2000.10474513, JSTOR:2685616 (englisch).
  11. scipy.stats.mannwhitneyu. In: SciPy v0.16.0 Reference Guide. The Scipy community. 24. Juli 2015. Abgerufen am 11. September 2015: „scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.“
  12. org.apache.commons.math3.stat.inference.MannWhitneyUTest.
  13. Julian D. Karch: Psychologists Should Use Brunner-Munzel’s Instead of Mann-Whitney’s U Test as the Default Nonparametric Procedure. In: Advances in Methods and Practices in Psychological Science. Band 4, Nr. 2, 1. April 2021, ISSN 2515-2459, S. 2515245921999602, doi:10.1177/2515245921999602.
  14. Arne C. Bathke, Frank Konietschke: Rank and Pseudo-Rank Procedures for Independent Observations in Factorial Designs : Using R and SAS. 1st ed. Cham 2018, ISBN 978-3-03002914-2.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.