Morphologische Analyse (Computerlinguistik)
Unter morphologischer Analyse versteht man in der Computerlinguistik ein Verfahren, welches die morphologischen, syntaktischen und evtl. semantischen Eigenschaften von Wörtern ermittelt. Im Einzelnen können morphologische Analyseverfahren die folgenden Teilaufgaben lösen:
- Segmentierung, d. h. Aufteilung von komplexen Wörtern in freie und gebundene Morpheme. Zu letzteren zählen Präfixe und Suffixe.
- Lemmatisierung: Zurückführung eines einfachen oder komplexen Wortes auf sein Lemma und Ermittlung seiner syntaktischen Eigenschaften. Beispiel: Das Wort "Häusern" wird auf sein Lemma "Haus" mit den Eigenschaften {Nomen, Plural, Dativ} reduziert.
- Ermittlung der Wortstruktur; diese wird oft in Zusammenhang mit einer wortsemantischen Analyse bestimmt.
Probleme
- Regelmäßige und unregelmäßige Allomorphie
- Regelmäßige Allomorphie ist beispielsweise das Einfügen von e bei Verbformen mit bestimmten Stämmen, beispielsweise "rechnen" - "rechnest", aber "lieben" - "liebst". Dazu zählt auch die Umlautung von Vokalen bei Pluralnomen ("Wald" - "Wälder") oder bei Komparativ- und Superlativformen von Adjektiven ("rot" - "röter").
- Unregelmäßige Allomorphie besteht beispielsweise beim Ablaut ("singen" - "sang" - "gesungen") bzw. bei Stammänderungen ("denken" - "gedacht").
- Unbeschränkte Derivation und Komposition: Im Deutschen kann man fast beliebig lange Wörter durch Komposition und Derivation bilden, beispielsweise "Grundstückverkehrsgenehmigungszuständigkeitsübertragungsverordnung" oder "Ururururgroßvater". Da es beliebig viele solche Wörter gibt, reicht ein statisches Lexikon, in dem alle Wortformen verzeichnet sind, nicht aus. Vielmehr muss das Wort aktiv in seine Teile segmentiert werden, um so unter Ausnutzung wortsyntaktischer Regularitäten (im Deutschen steht beispielsweise der die grundlegenden Eigenschaften bestimmende Teil ganz rechts) die Worteigenschaften zu ermitteln.
Verfahren
Die meisten Verfahren zur morphologischen Analyse basieren auf endlichen Automaten, genauer endlichen Transduktoren. Das verwendete theoretische Modell ist meist das sog. Two-Level-Modell (Koskeniemi), bei dem quasi-kontextsensitive Regeln zwischen der lexikalischen Form eines Morphems und seiner Oberflächenform (Morph) vermitteln. Eine solche Regel für das Deutsche könnte z. B. folgendermaßen aussehen:
- ε → e / (ppn|chn|tm|d|tt){VERBSTEM} _ (n|t|st){VERBFLEX}
Diese Regel erlaubt die Ersetzung des leeren Wortes durch e (effektiv also ein Einfügen von e) nach einem Verbstamm auf ppn, chn, tm, d oder tt ("wappnen", "rechnen", "atmen", "gründen", "retten") vor den verbalen Flexiven n, t oder st. Beispiel: "rechn" + "n" → "rechnen".
Siehe auch
Literatur
- K.-U. Carstensen et al. (2004): Computerlinguistik und Sprachtechnologie. Kapitel 3.1, 3.2.
- D. Jurafsky & J.H. Martin (2000): Speech and Language Processing. Prentice Hall.