Intraklassen-Korrelation
Die Intraklassen-Korrelation ist ein parametrisches statistisches Verfahren zur Quantifizierung der Übereinstimmung (Interrater-Reliabilität) zwischen mehreren Beurteilern (Ratern) in Bezug auf mehrere Beobachtungsobjekte. Das dazugehörige Maß, der Intraklassen-Korrelationskoeffizient (IKK oder ICC, Asendorpf & Wallbott 1979, Shrout & Fleiss 1979, McGraw & Wong 1996, Wirtz & Caspar 2002) setzt intervallskalierte Daten voraus und wird in der Regel berechnet, wenn mehr als zwei Beobachter vorhanden sind oder/und mehrere Beobachtungszeitpunkte miteinander verglichen werden sollen.
Zur Bestimmung der Interrater-Reliabilität wird die Varianz zwischen verschiedenen Ratings in Bezug auf dasselbe Messobjekt (= Beobachtungsgegenstand, Fall, Person bzw. Merkmalsträger usw.) mit der über alle Ratings und Messobjekte entstandenen Varianz verglichen.
Von einer reliablen Beobachtung kann ausgegangen werden, wenn die Unterschiede zwischen den Messobjekten relativ groß sind (was auf systematische Unterschiede zwischen den beobachteten Fällen hinweist) und gleichzeitig die Varianz zwischen den Beobachtern in Bezug auf die Messobjekte klein. Bei großer Urteilskonkordanz (also geringer Varianz zwischen den Einschätzungswerten) ist der ICC hoch.
Wie bei anderen Korrelationskoeffizienten kann der ICC Werte zwischen −1,0 und +1,0 annehmen. Da Reliabilitätsmaße definitionsgemäß auf einen Wertebereich von 0 bis 1 beschränkt sind, indizieren negative ICCs eine Reliabilität von 0 (Wirtz & Caspar [2002, S. 234]). Im Streudiagramm für die beiden Messwerte bedeutet der Intraklassenkorrelationskoeffizient ICC die Abweichung der Werte von der Winkelhalbierenden.
Arten des ICC
Es lassen sich bis zu sechs verschiedene Arten des ICC unterscheiden (Shrout & Fleiss 1979), je nachdem ob alle Rater alle oder verschiedene Fälle einschätzen oder ob die Rater zufällig aus einer größeren Menge von Ratern ausgewählt wurden oder nicht. Außerdem macht es einen Unterschied, ob die Einzelwerte der Rater miteinander verglichen werden oder es (z. B. um die Stabilität zu erhöhen) um gemittelte Einschätzungen einer Ratergruppe handelt.
Arten und Auswahl des ICC | ||||||
---|---|---|---|---|---|---|
Frage 1 | Wird jeder Fall von allen Ratern eingeschätzt? | |||||
Nein, | Ja | |||||
Frage 2 | die Rater wurden zufällig ausgewählt. | Wurden die Rater zufällig ausgewählt? | ||||
Ja | Nein | |||||
Frage 3 Sind Ratingrohwerte einzelner Rater oder Mittelwerte k verschiedener Rater Datengrundlage? | Einzelwert | Mittelwert | Einzelwert | Mittelwert | Einzelwert | Mittelwert |
ICC-Typ (Shrout & Fleiss) | ICC(1,1) | ICC(1,k) | ICC(2,1) | ICC(2,k) | ICC(3,1) | ICC(3,k) |
ICC-Typ (McGraw & Wong) | ICC(1) | ICC(k) | ICC(A,1) | ICC(A,k) | ICC(C,1) | ICC(C,k) |
SPSS-Modell | one-way random | two-way random | two-way mixed | |||
single measure | average measure | single measure | average measure | single measure | average measure | |
Eine weitere Unterscheidung, die SPSS beim two-way Modell benötigt, ist, ob die Schätzung justiert oder unjustiert erfolgen soll. Justiert und unjustiert bezieht sich darauf, ob Mittelwertsunterschiede zwischen den Ratern (z. B. ein strenger vs. ein milder Rater) im Modell aus der Fehlervarianz herausgerechnet werden oder, wie beim unjustierten Modell, als Teil der Fehlervarianz erhalten bleiben (Wirtz & Caspar 2002). SPSS bezeichnet das justierte Modell als Consistency und das unjustierte als Absolute Agreement. Das unjustierte Modell entspricht der strengeren Prüfung.
Andere Bezeichnungen für die unterschiedlichen Arten des ICC gehen auf Bartko (1976) zurück. Er bezeichnet das ICC(1,1) als ICC(1) und das ICC(1,k) als ICC(2) (siehe dazu Bliese 2000).
Berechnung
Das Grundprinzip der Berechnung (d. h. das mathematische Modell) des ICC entspricht dem einer Varianzanalyse; auch hier geht es um die Zerlegung von Varianzbestandteilen und deren Verhältnis. Wenn
- die Anzahl der Rater ist,
- die Anzahl der Messobjekte (Fälle),
- die Varianz zwischen den Fällen (= Messobjekten, Personen) (mit ),
- die Varianz innerhalb der Fälle (mit ),
- die Varianz zwischen den Ratern (mit ) und
- die Restvarianz (mit ),
so gilt:
.
Literatur
- Asendorpf, J. & Wallbott, H. G. (1979): Maße der Beobachterübereinstimmung: Ein systematischer Vergleich. In: Zeitschrift für Sozialpsychologie, 10, 243–252.
- Bartko, J.J. (1976). On various intraclass correlation reliability coefficients. In: Psychological Bulletin, 83, 762–765.
- Bliese, P.D. (2000). Within-group agreement, non-independence, and reliability: Implications for data aggregation and analysis. In: K. J. Klein & S.W. Kozlowski (Eds.), Multilevel theory, research, and methods in organizations (pp. 349–381). San Francisco, CA: Jossey-Bass.
- Fleiss, J. L. and Cohen, J. (1973): The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. In: Educational and Psychological Measurement 33, 613–619.
- Müller, R. & Büttner, P. (1994): A critical discussion of intraclass correlation coefficients. In: Statistics in Medicine, 13, 2465–2476.
- McGraw, K. O., & Wong, S. P. (1996): Forming inferences about some intraclass correlation coefficients. In: Psychological Methods, 1, 30–46.
- Shrout, P. E. & Fleiss, J. L. (1979): Intraclass correlation: Uses in assessing rater reliability. In: Psychological Bulletin, 86, 420–428.
- Wirtz, M. & Caspar, F. (2002): Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe.