Matching (Statistik)
Matching bzw. deutsch paarweise Zuordnung bezeichnet in der Statistik Methoden, mit denen ähnliche Beobachtungen in zwei oder mehr Datensätzen verbunden werden. Mit Matching-Methoden wird anhand gemeinsamer Merkmale den Beobachtungen aus einem Datensatz eine oder mehrere ähnliche Beobachtungen aus den anderen Datensätzen zugeordnet. Damit wird eine gemeinsame Analyse der Daten möglich, obwohl es vermutlich keinen Fall gibt, der in beiden Datensätzen tatsächlich vorkommt. In der Medizinstatistik wird Matching beim Design von Beobachtungsstudien angewandt.
Beschreibung
Gegeben sind beispielsweise zwei Datensätze, die Ergebnisse einer Befragung zur Einkommenssituation und die einer anderen Befragung zu Lebensbedingungen. Die Befragten in beiden Datensätzen sind zwar verschieden, aber bei beiden Befragungen sind gemeinsame Merkmale (zum Beispiel Geschlecht, Altersgruppe, Wohnort usw.) erfasst worden. Mit Matching-Methoden wird nun den Beobachtungen aus einem Datensatz eine oder mehrere ähnliche Beobachtungen aus dem anderen Datensatz anhand dieser gemeinsamen Merkmale zugeordnet. Damit wird eine gemeinsame Analyse von Einkommenssituation und Lebensbedingungen möglich, obwohl es vermutlich keine Befragten gibt, die an beiden Befragungen teilgenommen haben. Die Qualität der Analyse von Einkommenssituation und Lebensbedingungen hängt stark von der Qualität des Matchings ab.
Matching-Verfahren
Spezielle Matching-Verfahren sind:
Anwendungen
In der Medizinstatistik wird Matching beim Design von Beobachtungsstudien angewandt. Bei Fall-Kontroll-Studien können Fälle und Kontrollen so gewählt werden, dass sie in Bezug auf bestimmte Kriterien (zum Beispiel Geschlecht, sozioökonomischer Status, Altersgruppe) übereinstimmen.[7] Dies ist auf individueller Ebene (für jeden Fall wird eine in dem/den gewählten Kriterien übereinstimmende Kontrolle ausgesucht) oder als Gruppen-Matching (englisch frequency matching) möglich. Beim Gruppen-Matching wird die Zusammensetzung aller Kontrollen entsprechend der Zusammensetzung der Fälle gewählt. Wenn beispielsweise die Gruppe der Fälle zu 80 % aus Frauen besteht, wird die Kontrollgruppe mit einem ähnlichen Prozentsatz an Frauen zusammengestellt.[7]
Bei individuell gematchten Fall-Kontroll-Studien, die mittels logistischer Regression analysiert werden, sollte eine Sonderform dieser Methode (konditionale logistische Regression) angewandt werden. Wenn individuell nach mehreren Faktoren gematcht wird, besteht die Gefahr, dass für Fälle keine Kontrollen gefunden werden, die entsprechend der Matching-Kriterien übereinstimmen.
Siehe auch
Literatur
- Susanne Rässler: Statistical Matching: A Frequentist Theory, Practical Applications and Alternative Bayesian Approaches. Springer, 2008, ISBN 978-0-387-95516-2.
Einzelnachweise
- Deborah N. Peikes, Lorenzo Moreno, Sean Michael Orzol: Propensity score matching. In: The American Statistician, 62.3, 2008.
- Rajeev H. Dehejia, Sadek Wahba: Propensity score-matching methods for nonexperimental causal studies. In: Review of Economics and statistics, 84.1, 2002, S. 151–161.
- Marco Caliendo, Sabine Kopeinig: Some practical guidance for the implementation of propensity score matching. In: Journal of economic surveys, 22.1, 2008, S. 31–72.
- Donald B. Rubin, Neal Thomas: Combining propensity score matching with additional adjustments for prognostic covariates. In: Journal of the American Statistical Association, 95.450, 2000, S. 573–585.
- Christian Erzberger, Gerald Prein: Optimal-Matching-Technik: Ein Analyseverfahren zur Vergleichbarkeit und Ordnung individuell differenter Lebensverläufe. 1997.
- Andrew Abbott, Angela Tsay: Sequence analysis and optimal matching methods in sociology review and prospect. In: Sociological methods & research, 29.1, 2000, S. 3–33.
- Christel Weiß: Basiswissen Medizinische Statistik. 5. Auflage. 2010