Zensierte Daten
In der Statistik und dort insbesondere in der medizinischen Statistik sind zensierte Daten eine Form von Daten, bei denen nicht alle Werte einer statistischen Variablen bekannt sind.
Geschichte
Daniel Bernoulli befasste sich bereits im Jahre 1766 mit dem Problem der zensierten Daten, als er versuchte, die Wirksamkeit der Pockenimpfung durch Kuhpocken nachzuweisen.[1]
Arten zensierter Daten
Rechtszensierte Daten
Ist das Ereignis bis zum Ende des Experiments nicht beobachtet worden, nennt man die Daten rechts zensiert.
Man kann drei Haupttypen der rechts zensierten Daten definieren:
Typ I: In Experimenten mit festem Start- und Endpunkt werden alle Beobachtungen am Ende des Experiments zensiert, falls bei diesem Versuchsobjekt das Ereignis noch nicht eingetreten ist. Das heißt beim Typ I sind alle zensierten Beobachtungen gleich der Länge des Experiments.
Typ II: In Experimenten, in welchen der Endpunkt durch das Erreichen einer bestimmten Anzahl von Ereignissen festgelegt ist, spricht man vom Typ II.
Typ III: Sind die Start- und Endpunkte der Versuchsobjekte im Experiment nicht festgelegt, befinden sich aber innerhalb des durch das Experiment beschriebenen Zeitraums, so spricht man vom Typ III. Beobachtungen werden zensiert, wenn man den Endpunkt nicht kennt oder das Ereignis zum letzten bekannten Zeitpunkt noch nicht eingetreten ist.
Links zensierte und intervall-zensierte Daten
- Ist das Ereignis an einem unbekannten Zeitpunkt in der Vergangenheit bereits eingetreten, spricht man von links zensierten Daten.
- Tritt das Ereignis unbeobachtet zwischen zwei Zeitpunkten a und b auf, so spricht man von intervall-zensierten Daten.
Nichtinformatives Zensieren
Nichtinformatives Zensieren (auch zufälliges Zensieren genannt) ist, wenn jeder Patient eine Zensierungszeit hat, die statistisch unabhängig von seiner Überlebenszeit ist. Der beobachtete Wert ist das Minimum der Zensierungs- und Überlebenszeiten . Patienten, deren Überlebenszeit länger ist als ihre Zensierungszeit, werden rechtszensiert.
Beispiele und Anwendungen
Einfaches Beispiel in einem Fragebogen ist die Frage nach dem Alter. Wird unter oder über einem bestimmten Alter nicht das genaue Alter, sondern lediglich „jünger als… Jahre“ oder „älter als … Jahre“ abgefragt, spricht man von zensierten Daten.
Zensierte Daten werden beispielsweise verwendet, wenn der Zeitpunkt des Eintretens eines bestimmten Ereignisses beobachtet werden soll (engl.: time-to-event), da das betreffende Ereignis beispielsweise vor Beginn der Beobachtung schon eingetreten sein kann oder bis zum Ende des Experiments noch nicht eingetreten ist.
Umgang mit zensierten Daten
Um Schlüsse aus einer Stichprobe mit zensierten Daten ziehen zu können, gibt es grundsätzlich zwei Möglichkeiten:
- Fehlende Werte: die Datensätze werden weggelassen und als fehlende Werte behandelt
- Schätzung: die Daten zum Ereignis, das nicht beobachtet wurde, werden geschätzt, üblicherweise durch eine Regression auf die beobachteten Werte.
- Ein spezielles Verfahren für zensierte Daten ist das Tobit-Modell.
Siehe auch
Literatur
- Elisa T. Lee, John Wenyu Wang: Statistical Methods for Survival Data Analysis. 3. Auflage, John Wiley & Sons, 2003, ISBN 0-471-36997-7.
Einzelnachweise
- L. Bradley: Smallpox Inoculation: An Eighteenth Century Mathematical Controversy. Nottingham 1971.