Deutsches Referenzkorpus
Das Deutsche Referenzkorpus (kurz DeReKo) ist ein elektronisches Archiv von deutschsprachigen Textkorpora geschriebener Sprache, das seit 1964 existiert und vom Institut für Deutsche Sprache (IDS) in Mannheim gepflegt und kontinuierlich ausgebaut wird. Mit derzeit über 50 Milliarden Wörtern (Stand: September 2021) ist DeReKo die weltweit größte Sammlung elektronischer Korpora der deutschen Gegenwartssprache, die für wissenschaftliche Zwecke bestimmt ist.[1] Über die kostenfreie Webanwendung COSMAS II ist DeReKo für angemeldete Benutzer öffentlich zugänglich.[2]
Alternative Bezeichnungen
Auf das Deutsche Referenzkorpus wird oft auch unter anderen Bezeichnungen verwiesen, u. a. sind dies die Bezeichnungen Mannheimer Korpora, IDS-Korpora, COSMAS-Korpora, Archiv der Korpora geschriebener Gegenwartssprache am IDS. Die Bezeichnung Deutsches Referenzkorpus (DeReKo) wurde ursprünglich nur für einen Teil des heutigen Archivs verwendet, der zwischen 1999 und 2002 in einem gleichnamigen Projekt aufgebaut wurde, an dem mehrere Institutionen beteiligt waren. Seit 2004 ist sie die offizielle Bezeichnung für das gesamte Korpusarchiv.
Konzeption und Zusammensetzung
Das Deutsche Referenzkorpus enthält belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie diverse weitere Textsorten. Die Texte decken den Zeitraum vom 18. Jahrhundert[3] bis in die Gegenwart ab.
Im Gegensatz zu einigen anderen bekannten Korpora und Korpusarchiven (wie etwa das DWDS-Kernkorpus oder das British National Corpus) ist das Deutsche Referenzkorpus jedoch ausdrücklich nicht als ein ausgewogenes Korpus konzipiert: So sind die Texte weder nach bestimmten vorgegebenen Prozentanteilen auf die einzelnen Textsorten verteilt noch gleichmäßig über den abgedeckten Zeitraum verteilt.
Diese Konzeption folgt der Tatsache, dass grundsätzlich nur in Bezug auf einen festen Sprachausschnitt (d. h. eine feste Grundgesamtheit) beurteilt werden kann, ob ein Korpus eine ausgewogene oder sogar repräsentative Stichprobe darstellt. Unterschiedliche sprachwissenschaftliche Fragestellungen können sich aber auf sehr unterschiedliche Sprachausschnitte beziehen – insofern ist das Deutsche Referenzkorpus als eine Art Ur-Stichprobe zum Gebrauch der deutschen Schriftsprache konzipiert, aus der je nach Fragestellung und zugehöriger Grundgesamtheit gezielt eine ausgewogene Stichprobe zusammengestellt werden kann. Ein solches aus Texten eines bestehenden Korpusarchivs zusammengestelltes Korpus wird auch als ein virtuelles Korpus bezeichnet.
Zugang
Wegen urheber- und lizenzrechtlicher Bestimmungen darf das DeReKo-Archiv nicht kopiert und insbesondere auch nicht zum Download angeboten werden. Es ist über die Schnittstelle COSMAS II recherchierbar und analysierbar, wobei sich Nutzer namentlich registrieren und zu einer rein wissenschaftlichen und nicht kommerziellen Nutzung verpflichten müssen. COSMAS II bietet Nutzern u. a. die Möglichkeit, aus dem Deutschen Referenzkorpus gezielt ein zu ihrer Fragestellung passendes virtuelles Korpus zusammenzustellen und zu verwenden.
Derzeit sind weltweit rund 37.000 Nutzer aus 110 Ländern für COSMAS II registriert und können in DeReKo wissenschaftliche Recherchen und Analysen durchführen.[4]
Literatur
- Kupietz, Marc / Belica, Cyril / Keibel, Holger / Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research (PDF; 727 kB). In: Calzolari, N. et al. (eds.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), S. 1848–1854.
- Kupietz, Marc / Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research (PDF; 488 kB). In: Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), S. 53–59.
Weblinks
- Ausbau und Pflege der Korpora geschriebener Gegenwartssprache – Das Deutsche Referenzkorpus – DeReKo, Beschreibung beim Institut für Deutsche Sprache
- COSMAS II – Recherche- und Analysesystem zum Deutschen Referenzkorpus und anderen schriftsprachlichen Korpora
Einzelnachweise
- Das Deutsche Referenzkorpus – DeReKo. Ausbau und Pflege der Korpora geschriebener Gegenwartssprache. In: Digitale Sprachwissenschaft. Institut für Deutsche Sprache, März 2019, abgerufen am 3. Mai 2019.
- COSMAS II – Anmeldung, Institut für Deutsche Sprache, Abruf 16. November 2018
- Textorganisation unter COSMAS II - Archive. Abgerufen am 6. Januar 2022.
- COSMAS II – Übersicht über das Portal, Institut für Deutsche Sprache, Abruf 16. November 2018