Mokken-Analyse
Die Mokken-Analyse ist eine Methode zu einer statistischen Datenanalyse, die für eine Auswertung psychologischer Tests zu Hilfe genommen werden kann.
Benannt ist sie nach dem Niederländer Robert Jan Mokken (* 1929), der diese Methode 1971 erstmals beschrieben hat.
Grundlegendes
Als Alleinstellungsmerkmal der Mokken-Analyse versteht man die Eigenschaft ohne Parameter auszukommen, dies ermöglicht eine explorative Vorgehensweise ohne Einschränkungen. So muss keine Funktion der Item Characteristic Curve festgelegt werden, weiters muss keine Verteilung für die Schätzung der Parameter bestimmt werden. Besonders Verfahren der Item Response Theory ohne Parameter sind dazu geeignet, die verschiedenen Dimensionen des zugrundeliegenden Datenmaterials aufzuzeigen. Abhängig von der Anzahl der vorhandenen Dimensionen werden Items zu neuen Itemsets modelliert. Items, die nicht zur Erfassung der latenten Ausprägung dienen, werden entfernt. Es ist speziell hervorzuheben, dass ein Itemset ausschließlich einer Dimension zugehörig sein soll, diese Eigenschaft wurde bereits als Eindimensionalität beschrieben. So ist die Mokken-Analyse kein Skalierungsverfahren, welches auf die vorhandenen Abweichungen zwischen den empirischen und theoretischen Annahmen hinweist, sondern es steht die Überprüfung der Modellannahmen im Fokus. Das ursprüngliche Skalierungsverfahren nach Mokken enthält dichotome Items, später wurde es so weiterentwickelt, dass auch polytome Items analysiert werden können.
Sowohl das Rasch-Modell als auch die Mokken-Analyse basieren auf den Grundgedanken von Louis Guttman. Mokken (1971) übernimmt die bereits von Rasch (1960) angenommenen Grundsätze in seine Analyse. So gilt es, dass die Wahrscheinlichkeit einer korrekten Antwort, welche als 1 kodiert ist, für jede Person, sowie für jedes Item im jeweiligen Parameter beschrieben wird. Die Item Response Function wird auch als Item Characteristic Curve (ICC) oder Traceline bezeichnet. ICCs können modellabhängig unterschiedliche Verläufe annehmen. Die Mokken-Analyse macht es möglich, dass die ICC unterschiedliche Verläufe annehmen kann.
Die vier Grundannahmen der Mokken-Analyse:
- Eindimensionalität - Eindimensionalität liegt vor, wenn alle vorhandenen Items nach einer bestimmten Fähigkeit fragen und diese messen, ohne Einfluss einer weiteren Merkmalsaufprägung. Würde man in einer Testung mehrere Fähigkeiten einer Testperson erfragen, kann kein eindeutiger, von einer Fähigkeit abhängender, Wert ermittelt werden.
- Lokale stochastische Unabhängigkeit - zeichnet sich dadurch aus, dass die Beantwortung weiterer Items nicht von der Bearbeitung eines vorherigen oder später auftretenden Items abhängt. Die Wahrscheinlichkeit der Beantwortung des Items hängt lediglich von der gefragten Fähigkeit der teilnehmenden Person ab.
- Monotonie der ICCs - Trifft diese Eigenschaft zu, soll sich die charakterisierende grafische Umsetzung des Items analog zum Wert der Ausprägung des Testscores verhalten, so muss die Kurve ansteigen, wenn der erreichte Score der teilnehmenden Person einen höheren Wert im Vergleich zu einer anderen Testperson hat. Die ICC ist daher nie fallend, sondern immer steigend, abhängig vom Testscore.
- ICCs ohne Überschneidungen - Ist eine ICC überschneidungsfrei (d. h. die Kurven verlaufen parallel), so ist es möglich, die auftretenden Items nach ihrer Schwierigkeit zu reihen.
Modelle
Die Mokken-Analyse setzt sich aus zwei wichtigen Modellen zusammen: einerseits dem Modell der monotonen Homogenität, andererseits dem Modell der doppelten Monotonie.
Modell der monotonen Homogenität
Fasst man die ersten drei Annahmen Mokkens zusammen (Eindimensionalität, lokale stochastische Unabhängigkeit und Monotonie der ICCs), erklärt es das Modell der monotonen Homogenität, kurz MHM (Monotone Homogeneity Model). Der immer fortwährende Anstieg der ICCs stellt gleichbleibende Bedingungen her, sodass es für jede Testperson gleichermaßen möglich ist, das Item korrekt zu beantworten. Wenn es für eine Testperson v wahrscheinlicher ist, ein Item i eher zu beantworten im Vergleich zur Testperson w, wird die Testperson v jedes andere Item auch mit einer höheren Wahrscheinlichkeit eher beantworten als Testperson w. Kann einer Testperson a mit der zugehörigen Fähigkeit eine hohe Wahrscheinlichkeit zugeordnet werden, dass diese Item i löst, so haben ebenso andere Testpersonen eine höhere Wahrscheinlichkeit, dieses Item eher zu lösen als ein anderes. Trifft dies zu, bezeichnet man die vorhandene Skala als deterministisch kumulativ. Um einen Itemparameter als homogen bezeichnen zu können, müssen die Items eine bestimmte Ordnung aufweisen. Das Vorhandensein dieser Eigenschaft lässt sich auch grafisch darstellen, im Falle einer geltenden Homogenität kann keine Überschneidung in der ICC abgelesen werden. Die Funktion steigt also monoton. Betreffend der ICC wird dies in der konstant steigenden Funktion widergespiegelt.
Modell der doppelten Monotonie
Erweitert man das Modell der monotonen Homogenität um die Monotonie des Itemparameters, so erhält man das Modell der doppelten Monotonie, kurz DMM (Double Monotonicity Model). Dies hat überschneidungsfreie ICCs zur Folge. Die Erfüllung der doppelten Monotonie lässt sich mittels verschiedener Methoden testen. Da sich die doppelte Monotonie durch den monoton steigenden Itemparameter auszeichnet, folgt daraus, dass die Reihung der Schwierigkeiten für alle Testpersonen gleich sein muss. Dies kann neben der eigentlich vorgesehenen Population auch an anderen Gruppen getestet werden.
Homogenitätskoeffizient H
Der Homogenitätskoeffizient dient als mathematische Größe zur Feststellung der doppelten Monotonie, welche sich einerseits aus der monotonen Homogenität, andererseits aus dem homogenen Itemparameter zusammensetzt. Der von Mokken (1971) eingeführte Homogenitätskoeffizient basiert auf dem Homogenitätskoeffizienten von Loevinger. Die Homogenität bezogen auf drei Ausgangssituationen wird unterschieden:
- Hij steht für die Homogenität bezogen auf zwei Items
- Hi liefert einen Wert für die Beziehung zwischen einem Item und den restlichen zusammengefassten Items im Set
- H bezieht sich auf alle in der Vorgabe vorhandenen Items
Nimmt der Homogenitätskoeffizient H den Wert 0 an, so kann man von keiner vorhandenen Korrelation ausgehen. Erreicht H den Wert 1, spricht man von der perfekten Guttman-Skala. Mokken führt Richtwerte für die Einschätzung von H ein. Er bezeichnet eine Skala als schwach, wenn 0,3 ≤ H < 0,4 liegt. Ist der H Wert zwischen 0,4 und 0,5 spricht Mokken von einer mittleren Skala. Ist der Homogenitätskoeffizient größer als 0,5, geht er von einer starken Skala aus.
Parameterschätzung - Itemparameter und Personenparameter
Im Skalierungsmodell nach Mokken stehen zwei wesentliche Parameter im Vordergrund: Einerseits der Personenparameter, er beschreibt die Fähigkeit der Testperson. Andererseits der Itemparameter, welcher durch? repräsentiert wird, hierbei wird die Schwierigkeit des Items in Bezug auf die Testperson erklärt. Beide Parameter werden nicht durch einen numerischen Wert beschrieben, sondern durch eine Reihung von Testpersonen abhängig von ihrer latenten Fähigkeit, beziehungsweise eine Reihung der Items nach ihrer Schwierigkeit. Bei nichtparametrischen Modellen wird der Gesamtscore gleichgesetzt mit der Ausprägung der Person am latenten Kontinuum. Daraus folgt, dass es sich um eine ordinale Ordnung handelt. So ist die Reihung der Ausprägung der Merkmalsausprägung aussagekräftig.
Skalierungsverfahren nach Mokken
Ablauf der Auswahl eines Skalierungsverfahrens und die Abschätzung der Eignung des selbigen. So werden Hypothesen zu Sachverhalten erstellt, was das Festlegen der möglichen latenten und manifesten Variablen betrifft, sowie die Annahme, wie sich die gegebenen Variablen untereinander verhalten. Der erhobene Datensatz wird gesichtet und ein Skalierungsverfahren, in diesem Fall die Mokken-Analyse, ausgewählt. Weiters kommt es zur Erfassung der Validität: es wird überprüft, ob getätigte Annahmen inhaltlich logisch schlüssig sind. Der Algorithmus zur Analyse vorhandener Fehler wird als SCAMMO bezeichnet, dieser filtert vorhandene Skalen und exkludiert Items, die zu keiner Skala zugehörig sind. Wird eine Skala als robust bezeichnet, so kann bei dieser auch bei unterschiedlichen Gruppen von Testpersonen ein gleichwertiger Wert des Homogenitätskoeffizienten festgestellt werden. Die Testscores der Testpersonen werden errechnet, um daraus Skalen zu erstellen. Tritt der Fall auf, dass der Homogenitätskoeffizient Hij eines Items, welches noch nicht in einer Skala aufgenommen wurde, eine negative Korrelation zu einem Item in der Skala aufweist, wird dieses in jedem Fall, auch wenn es nur die Beziehung zu einem in der Skala befindlichen Item betrifft und die negative Korrelation eine minimale Aufprägung besitzt, nicht in die Skala aufgenommen. Die Achtsamkeit der Person, die die Skalierung durchführt, ist immer gefragt, dennoch analog zum Beispiel der geringen negativen Korrelation kann ein Item gering positiv korrelieren und einen Wert unter der Konstante c aufweisen. Auch hier muss entschieden werden, ob das Item einen Platz in der Skala erhalten soll oder ausgeschlossen werden soll.
Den Ablauf einer Skalenbildung aus einem bereits bestehenden Itemset beschreibt Mokken: er weist zu Beginn auf den notwendigen vorhandenen Wissensstand bezüglich des Zusammenspiels zwischen der erfragten Variable und den Items hin, es wird davon ausgegangen, dass in dem Itemset homogene Items vorliegen. Als Skala werden dichotom kodierte Items, die untereinander korrelieren verstanden, daher Hij > 0, also kann von Kovarianzen größer als 0 ausgegangen werden, und man kann sich bezüglich des Homogenitätskoeffizienten Hi und H sowie an dem Abbruchkriterium c orientieren, Hi, H ≥ c > 0. Der automatisiert ablaufende Algorithmus wird als ”Automated Item Selection Procedure“, kurz AISP, bezeichnet.
Mokken weist auf die Möglichkeit des fehlerhaften Hinzufügens eines Items mit einem geschätzten Hi-Wert aufgrund des wiederholenden Algorithmus unter dem Abbruchkriterium c hin, dies kann jedoch manuell nachträglich korrigiert werden. Es treten auch fehlerhafte Vorgänge des AISP auf, so kann der Wert von Hi größer als c sein, obwohl die Voraussetzung der Monotonie der ICC nicht gegeben ist. Dies tritt auf, wenn der Wert der Fähigkeit an den Stellen der ICC sich in die gleiche Richtung verändert. Weiters werden sehr flach verlaufende ICCs bei einem niedrigen Abbruchkriterium als monoton identifiziert. Ist der Wert von c hoch angesetzt, wird das Item nicht in die Skala aufgenommen.
Der Ablauf des Algorithmus der Mokken-Analyse, welcher eine Skala erstellt: eine Skala muss mindestens zwei Items enthalten, es wird ein geeignetes Item ausgewählt und weitere, je nach Eignung, hinzugefügt. Im initiierenden Schritt wird Hij für alle Items berechnet, dieser Homogenitätkoeffizient soll einerseits größer als 0 sein und andererseits größer als die festgelegte Konstante c. Das erste ausgewählte Item besitzt die höchste Ausprägung bezüglich Hij. Gibt es mehrere Items mit diesem höchsten Wert, so fällt die Entscheidung auf das Item, das zuerst gelistet ist. Gibt es neben dem Startitem ein Item, das negativ mit dem Startitem korreliert, kann dies in jedem Fall nicht in die entstehende Skala integriert werden. Nun werden auch die Homogenitätskoeffizienten H und Hi berechnet, diese müssen einen höheren Wert als 0 und c ausweisen, das Item mit dem höchsten Wert wird als nächstes zur Skala hinzugefügt. Falls mehrere Items eine gleich hohe Ausprägung von H und Hi ausweisen, wird das Item mit der höchsten Schwierigkeit gewählt. Der Autor weist auf die Problematik hin, dass Items in die Skala aufgenommen werden können, die niedrige Werte bezüglich der Homogenität aufweisen, er empfiehlt daher, die Werte von Hi zu überprüfen. Weiters lässt sich auf die Problematik des Capitalizing on Chance verweisen und auf die Möglichkeit, dass die gefundene Skala nicht unbedingt die optimale sein muss, da die gesamte Skala auf dem Startitem aufbaut, er gibt zu bedenken, dass dieses ausgetauscht werden könnte, um andere Kombinationen zu ermöglichen.
Kritische Beleuchtung der Mokken-Analyse
Jansen (1982) kritisierte die Mokken-Analyse elf Jahre nach der Publikation von Mokken (1971). Er hinterfragt die Verwendung des Homogenitätskoeffizienten als Kennwert für homogene Items und demonstriert in einem Beispiel Items, die keine Homogenität aufweisen. Diese Items wurden jedoch von der Mokken-Analyse als homogen erkannt. Hierbei handelt es sich um ein Beispiel von nicht parallel laufenden ICCs, im Falle eines parallelen Verlaufs, wie er im Rasch-Modell auftritt, ergibt sich die vorliegende Homogenität per se. Jansen hält fest: ”A set of perfectly homogeneous items can be judged as ’homogeneous’ or ’not homogeneous’ in SCAMMO depending on the minimal boundary for scalability and the distance between the item’ latent parameters“. Ist die Distanz zwischen den Schwierigkeiten des Items zu klein, kann der Homogenitätskoeffizient keinen Wert größer dem Abbruchkriterium annehmen und so werden eigentlich skalierbare Items als nicht in eine Skala integrierbar angesehen. Weiters teilt der Autor den Begriff der Homogenität in klassische und moderne Homogenität. Erstere bezeichnet die Homogenität als Zusammenhang, letztere geht auf die spezielle Ausprägung der Homogenität ein, um Items für eine Skala auszuwählen. Mit dieser Aufteilung ist es möglich Loevingers Homogenitätskoeffzient der modernen Kategorie zuzuweisen.
Sijtsma reagiert auf die Kritik 1984. Er bestätigt die logisch-mathematischen Ausführung von Jansen, ist jedoch nicht mit der direkten Übertragung der Erkenntnisse auf die Mokken-Analyse einverstanden. So stellt er richtig, dass der Homogenitätskoeffizient von Mokken verwendet wurde, um die Relation zwischen selbigem und der perfekten Skala nach Guttman herzustellen. Dies bezieht sich auch auf das Abbruchkriterium c, welches sich analog zum Homogenitätskoeffizienten auf die Skala von Guttman bezieht.
Jansen, Roskam und Van den Wollenberg (1984) publizieren kurze Zeit später den Artikel ”Discussion on the Usefulness of the Mokken Procedure for Nonparametric Scaling“. In dieser Veröffentlichung setzen sich die Autoren mit zwei grundsätzlichen Fragestellungen den H Koeffizienten betreffend im Kontext der Mokken-Analyse auseinander. Einerseits soll der Inhalt der Messung des Koeffizienten H untersucht werden, andererseits welche Beziehung der Homogenitätskoeffizient zum DMM von Mokken aufweist. Im ersten Schritt widerlegen die Autoren die von Sijtsma (1984) angenommene Möglichkeit, einen hohen Wert von H als Indikator für die Folgerung zu sehen, dass idente Gesamtscores von Testpersonen auf die deckungsgleiche Beantwortung derselben Items zurückzuführen sind. Diese Aussage untermauern die Autoren mit einem Beispiel, welches zwei Testpersonen umfasst. Sie halten fest, dass neben dem Koeffizienten H auch andere Bedingungen zutreffen müssen, um diese Folgerung als gültig erklären zu können. Weisen die Testpersonen ähnliche Ausprägungen der erfragten Fähigkeit auf, so wird auch der Personenparameter? analog dazu keine großen Abstände zeigen. Molenaar geht hierbei davon aus, dass der Homogenitätskoeffizient mit einem niedrigen Wert repräsentiert sein wird. Auch bei dieser Überlegung von Molenaar (1982) kontert Jansen et al. (1984), dass nicht ausschließlich die Ausprägung von H verantwortlich ist.
1986 reagiert Sijtsma mit einer Stellungnahme zu den Ausführungen von Jansen et al. (1984). Er stellt fest, dass das angeführte Beispiel zur Erklärung der hohen Ausprägung von H von Jansen et al. (1984) mit zwei Testpersonen und einem Item nicht als repräsentatives Beispiel und als Beleg für eine fälschliche Annahme gültig sein kann. Weiters weist er darauf hin, dass ”Coefficient H, however, does not express a probability, nor is it based on probabilities as defined by Jansen et al. (1984)“ (Sijtsma, 1986, S. 428). Roskam, Van den Wollenberg und Jansen veröffentlichen einen kritischen Artikel zur Mokken-Analyse 1983 innerhalb einer universitären Fachgruppe und publizieren die Inhalte 1986. Die Autoren weisen in ihrem Artikel darauf hin, dass der Homogenitätskoeffizient H nicht dafür geeignet ist, Aussagen bezüglich der Homogenität sowie der Holomorphie eines Datensets zu treffen. Außerdem halten sie fest, dass ”The Mokken scale […] appears to be a revival of the Guttman scale“. (Roskam et al. (1986), S. 277).
Diese Vorwürfe entkräften Mokken, Lewis und Sijtsma (1986) und kritisieren die voreingenommene Herangehensweise von Roskam et al. (1986), welche auf der Sympathie für das Rasch-Modell basiert. Sijtsma, Van Abswoude und Van der Ark (2004) wenden verschiedene nonparametrische Skalierungsmethoden der IRT auf ein Datenset an, um die Verfahren zu vergleichen, dabei erkennen die Autoren, dass c mit dem statischen Wert von 0.3 – wie ihn auch Mokken (1971, S. 153) empfiehlt. Bei der Anwendung des Skalierungsverfahrens nach Mokken mit anderen Werten für das Abbruchkriterium wurden korrekte Skalen erstellt.
Meijer, Smits und Timmerman (2012) bauen auf diese Erkenntnis auf und stellen fest, dass die Mokken-Analyse die empirisch gefundene Datenstruktur oftmals nicht in der Erstellung der Skalen adäquat abbildet, dies hängt von dem zugrunde liegenden Aufbau des Datenmaterials ab. A priori kann oft nicht geklärt werden, ob die Daten zur Analyse mit der Mokkenskalierung geeignet sind, daher schlagen die Autoren vor, das Abbruchkriterium c zu variieren und so die Möglichkeit der korrekten Abbildung zu vergrößern. Um diese Methoden anwenden zu können, müssen zwei Bedingungen gegeben sein: ”[…] factors are not strongly correlated and the items do not differ substan- tially in the item strength.“[1] Die Autoren betonen vielversprechende Ergebnisse bei der Durchführung mit unterschiedlichen Abbruchkriterien, merken jedoch auch an, dass weitere Anwendungen an verschiedenstem Datenmaterial ausstehen.
Literatur
- J. Rost: Testtheorie - Testkonstruktion. Hans Huber, Bern 1996.
- B. T. Hemker, K. Sijtsma: A Practical Comparison Between the Weighted and the Unweighted Scalability Coefficients of the Mokken Model. In: Kwantitatieve Methode, 1993, 14, S. 59–73.
- Klaas Sijtsma: New Developments in Psychometrics. Springer, New York 2003.
- J. Gerich: Nichtparametrische Skalierung nach Mokken - Beiträge zur qualitativen Analyse quantitativer Daten. Trauner, Linz 2001.
- P. G. M. Van der Heijden, S. Van Buuren, M. Fekkes, J. Radder, E. Verrips (2003). Unidimensionality and Reliability under Mokken Scaling of the Dutch Language Version of the SF-36. In: Quality of Life Research, 12, S. 189–198.
- G. Rasch: Probabilistic Models for Some Intelligence and Attainment Tests. University Press, Chicago 1980.
- R. J. Mokken: A Theory and Procedure of Scale Analysis: With Applications in Political Research. Walter de Gruyter, Berlin 1971.
- K. Sijtsma, I. W. Molenaar: Introduction to Nonparametric Item Response Theory. SAGE Publications, London 2002.
- W. H. Van Schuur: Mokken Scale Analysis: Between the Guttman Scale and Parametric Item Response Theory. In: Political Analysis, 2003, 11, S. 139–163.
- W. Meredith: Some Results Based On A General Stochastic Model For Mental Tests. In: Psychometrika, 1965, 30, S. 419–440.
- K. Sijtsma: Methodology Review: Nonparametric IRT Approaches to the Analysis of Dichotomous Item Scores. In: Applied Psychological Measurement, 1998, 22, S. 3–31.
- J. Loevinger: The Technic of Homogeneous Tests Compared With Some Aspects Of “Scale Analysis” and Factor Analysis. In: Psychological Bulletin, 1948, 45, S. 507–529.
- P. G. W. Jansen: Homogenitätsmessung mit Hilfe des Koeffizienten H von Loevinger: eine kritische Diskussion. In: Psychologische Beiträge, 1982, 24, S. 96–105.
- K. Sijtsma: Useful Nonparametric Scaling: A Reply to Jansen. In: Psychologische Beiträge, 1984, 26, S. 423–437.
- P. G. W. Jansen, E. E. Ch. I. Roskam, A. L. Van den Wollenberg: Discussion on the Usefulness of Mokken Procedure for Nonparametric Scaling. In: Psychologische Beiträge, 1984, 26, S. 722–735.
Einzelnachweise
- Meijer, Smits, Timmerman, 2012, S. 536