Kookkurrenz
Kookkurrenz bezeichnet in der Allgemeinen Linguistik das gemeinsame Auftreten zweier lexikalischer Einheiten (z. B. Wörter) in einer übergeordneten Einheit, wie in einem Satz oder einem Dokument. Es besteht die Annahme, dass diese zwei Terme voneinander abhängig sind, wenn sie auffällig häufig gemeinsam auftreten. Statistische Tests liefern Maße für die vermutete Abhängigkeit, wie zum Beispiel diverse Varianten der Transinformation oder Likelihood-Quotienten-Tests. Dies kann sowohl grammatische als auch semantische Ursachen haben.
Wenn eine grammatikalische oder semantische Abhängigkeit zweier häufig gemeinsam auftretender Begriffe erwiesenermaßen vorliegt, spricht man von Kollokation.[1]
Beide Begriffe haben große Bedeutung in der Informationsrückgewinnung.
Beispiele für Kookkurrenzen
- Ich sitze in der Bank und ich gehe zur Bank und ich sitze auf der Bank bringt die Verben sitzen und gehen nicht zufällig mit dem Objekt Bank in einen Zusammenhang. Nur im zweiten Beispielsatz besteht weiterhin eine Mehrdeutigkeit. Die Doppeldeutigkeit wird durch das Verb nicht aufgelöst, da es sich immer noch um eine Sitzbank oder um ein Gebäude handeln kann. Jedoch hängt sitzen nicht von Bank ab, es könnte auch ein Stuhl sein – doch ist die Wahrscheinlichkeit, auf einer Bank zu sitzen größer, als eben auf einer Leine zu sitzen oder die Bank zu kochen.
- Redewendungen sind dagegen feste Kookkurrenzen, da es sich um starre Ausdrücke handelt, wie zum Beispiel: es regnet Bindfäden.
- Auch ist die Erwartungswahrscheinlichkeit sehr hoch, wenn ein wenn in einem Satz vorkommt, dass ein dann folgt, um einen Kausalzusammenhang mit Vorbedingung und Schlussfolgerung auszudrücken. Wie man hier sieht, müssen die existentiell miteinander verbundenen Begriffe nicht hintereinander stehen, sie stehen jedoch logisch in einer Folge.
Satz- und Nachbarschaftskookkurrenz
In der Praxis des Text Mining unterscheidet man zwischen Satzkookkurrenz (lexikalische Einheiten treten gemeinsam in einem Satz auf) und Nachbarschaftskookkurrenz (lexikalische Einheiten stehen unmittelbar nebeneinander). Denkbar wäre auch die Betrachtung in größeren Textzusammenhängen (Absatz- oder Dokument-Kookkurrenz), in der Praxis werden diese aber nicht zuletzt wegen des hohen Rechenaufwandes bei der maschinellen Verarbeitung nicht betrachtet.
Weblinks
Einzelnachweise
- Bußmann, Hadumod: Lexikon der Sprachwissenschaft. Kröner, Stuttgart 2002.