Reliabilität

Die Reliabilität (lat. reliabilitas „Zuverlässigkeit“) i​st ein Maß für d​ie formale Genauigkeit bzw. Verlässlichkeit wissenschaftlicher Messungen. Sie i​st derjenige Anteil a​n der Varianz, d​er durch tatsächliche Unterschiede i​m zu messenden Merkmal u​nd nicht d​urch Messfehler erklärt werden kann. Hochreliable Ergebnisse müssen weitgehend f​rei von Zufallsfehlern sein, d. h. b​ei Wiederholung d​er Messung u​nter gleichen Rahmenbedingungen würde d​as gleiche Messergebnis erzielt werden (Reproduzierbarkeit v​on Ergebnissen u​nter gleichen Bedingungen).

Die Reliabilität stellt n​eben der Validität u​nd der Objektivität e​ines der d​rei wichtigsten Gütekriterien für empirische Untersuchungen dar. Hohe Reliabilität i​st grundsätzlich e​ine Voraussetzung für h​ohe Validität, w​obei eine z​u hohe Reliabilität z​u Lasten d​er Validität g​ehen kann (Reliabilitäts-Validitäts-Dilemma).

Reliabilität umfasst d​rei Aspekte:

  • Stabilität (Gleichheit bzw. Ähnlichkeit der Messergebnisse bei Anwendung zu unterschiedlichen Zeitpunkten)
  • Konsistenz (Ausmaß, nach dem alle Items, die in einem Test zu einem Merkmal zusammengefasst werden, dasselbe Merkmal messen)
  • Äquivalenz (Gleichwertigkeit von Messungen)

In d​er psychologischen Diagnostik w​ird sie z​u den Hauptgütekriterien v​on psychologischen Tests gerechnet. Sie i​st einer v​on mehreren Anhaltspunkten, w​ie genau e​in Persönlichkeits- o​der Verhaltensmerkmal gemessen wird.

Typen

Die Reliabilität k​ann mit verschiedenen Methoden geschätzt werden. Je n​ach Methode w​ird von verschiedenen Reliabilitätstypen gesprochen.

Paralleltest-Reliabilität
Denselben Versuchspersonen werden zwei einander stark ähnelnde Tests (entweder unmittelbar hintereinander oder zeitlich versetzt) dargeboten. Die Paralleltest-Reliabilität wird im Paralleltest-Verfahren bestimmt. Sie gibt an, ob ein vergleichbares Messverfahren identische Ergebnisse liefert. Anstelle gleichwertiger Testverfahren können auch Parallelformen des Tests verwendet werden (zum Beispiel dürften die Aufgaben und gleichermaßen dazu geeignet sein, die Fähigkeit zur einfachen Addition zu messen).
Split-Half-Reliabilität/Testhalbierungsmethode
Bei der Split-Half-Reliabilität wird der Test in zwei Hälften unterteilt, jede Hälfte ist ein Paralleltest zur anderen Hälfte. Bei hinreichend großer Ergebnismenge sollten die Mittelwerte und weitere statistische Kenngrößen gleich sein. Die Zuteilung der einzelnen Items zu den Testhälften erfolgt üblicherweise nach der Odd-Even-Methode, d. h. Items mit ungerader (odd) Laufnummer kommen in die eine, Items mit gerader (even) Laufnummer in die andere Testhälfte. Da man, mathematisch gesehen, in diesem Fall jedoch eigentlich nur die Reliabilität des „halben“ Tests erhält und die Split-Half-Reliabilität die tatsächliche Reliabilität unterschätzt, muss das ursprüngliche Ergebnis mit der Spearman-Brown-Korrektur korrigiert werden. Die Testhalbierungsmethode führt bei Tests mit Geschwindigkeitskomponente (Speed-Test) zu einem verzerrten Reliabilitätskoeffizienten (künstlich erhöht oder verringert).
Retest-Reliabilität
Die Retest-Reliabilität (auch: Re-Test-Reliabilität[1]) ist die Reliabilität bei einer Messwiederholung: Der gleiche Test wird den Versuchspersonen zu verschiedenen Zeitpunkten dargeboten. Die Ergebnisse der ersten und zweiten Messung werden korreliert. Beim Test-Retest-Verfahren wird geprüft, ob eine Wiederholung der Messung bei Konstanz der zu messenden Eigenschaft die gleichen Messwerte liefert. Die Retest-Reliabilität gibt den Grad der Übereinstimmung an. Für viele Tests ist eine Wiederholung entsprechend dem Test-Retest-Verfahren nur theoretisch möglich, da die mit dem Test einhergehenden Erinnerungs-, Lern- oder Übungseffekte das Ergebnis beeinflussen und eine „Scheinreliabilität“ vortäuschen können. So besteht etwa bei mathematischen Aufgaben die Möglichkeit, dass der Proband sich an die Lösung aus dem ersten Test erinnert. Das Zeitintervall zwischen den Messungen muss also groß genug sein, um Gedächtniseffekte auszuschließen, gleichzeitig aber kurz genug, um Merkmalskonstanz zu gewährleisten. Mit der Retest-Reliabilität können keine systematischen, versuchsbedingten Fehler entdeckt werden.
Interne Konsistenz
Die interne Konsistenz ist ein Maß dafür, wie die Items einer Skala miteinander zusammenhängen. Interne Konsistenz stellt gewissermaßen einen Umweg dar, die Messgenauigkeit eines Instruments zu erheben, wenn kein Retest oder Paralleltest zur Reliabilitätsbestimmung zur Verfügung steht. Es erfolgt die Reliabilitätsmessung also intern, wobei jedes Item gewissermaßen als Paralleltest behandelt und mit jedem anderen Item korreliert wird (Interkorrelationsmatrix). Die Güte eines Items kann hierbei ermittelt werden, indem die interne Konsistenz berechnet wird, wenn das Item nicht in der Skala enthalten wäre. Eine gebräuchliche Kenngröße für die interne Konsistenz kann bei dichotomen Items mit der Kuder-Richardson-Formel berechnet werden. Für Items einer Intervallskala ist je nach Messmodell eine Kenngröße durch tau-äquivalente Reliabilität (= „Cronbachs Alpha“) oder kongenerische Reliabilität gegeben, alternativ auch McDonalds Omega.[2]
Interrater-Reliabilität
Die zum gleichen Zeitpunkt oder in Bezug auf dieselben Testobjekte ermittelte Übereinstimmung zwischen Beurteilern/Beobachtern bezeichnet man als Interrater-Reliabilität. Weitere gängige Werte sind der Übereinstimmungskoeffizient nach Holsti und Cohens Kappa.

Verbesserungsmöglichkeiten

  • Die Reliabilität der Tests kann durch Verlängerung des Tests mithilfe vergleichbarer Items verbessert werden, weil mit der Länge des Tests die Messgenauigkeit steigt.
  • Die Objektivität ist eine notwendige Bedingung für die Reliabilität. Entsprechend kann eine Objektivitätsverbesserung die Reliabilität des Messinstruments erhöhen.
  • Beim Formulieren der Items sollte Itemhomogenität angestrebt werden. Items sind homogen, wenn sie sich gegenseitig beinhalten. Das bedeutet, dass Versuchspersonen, die das extreme Item bejahen, auch das schwächer formulierte Item bejahen bzw. ein negativ gepoltes Item verneinen.
  • Wenig trennscharfe Items sollten ausgeschlossen werden. Ein Item, das gut zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt, trägt zur Messgenauigkeit des Tests bei.

Siehe auch

Literatur

  • Joachim Krauth: Testkonstruktion und Testtheorie. Psychologie Verlags Union, Weinheim 1995, ISBN 3-621-27286-0
  • G. A. Lienert: Testaufbau und Testanalyse. 4. Auflage. Psychologie Verlags Union, Weinheim 1989
  • G. Lienert, A. Raatz: Testanalyse und Testkonstruktion. Beltz, Weinheim 2001
  • M. Wirtz, F. Caspar: Beurteilerübereinstimmung und Beurteilerreliabilität. Hogrefe, Göttingen 2002
  • M. Bühner: Einführung in die Test- und Fragebogenkonstruktion. Pearson Studium, München 2006
Wiktionary: Reliabilität – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. Christian Becker-Carus, Mike Wendt: Allgemeine Psychologie. Eine Einführung. 2. Auflage. Springer Verlag, Berlin, Heidelberg 2017, ISBN 978-3-662-53006-1, S. 21.
  2. William Revelle, Richard E. Zinbarg: Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma In: Psychometrika. 2009, Vol. 74, No. 1, S. 145–154, doi:10.1007/s11336-008-9102-z.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.