Part-of-speech-Tagging
Unter Part-of-speech-Tagging (POS-Tagging) versteht man die Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten (englisch part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (z. B. angrenzende Adjektive oder Nomen) berücksichtigt.
Verfahren
Die Erfassung und Kennzeichnung der Wortarten wurde ursprünglich manuell durchgeführt, im Laufe der Zeit wurde das Verfahren zunehmend durch die Computerlinguistik automatisiert. Die verwendeten Verfahren können in überwachtes maschinelles Lernen und unüberwachtes maschinelles Lernen unterteilt werden. Beim überwachten Lernen werden z. B. Hidden Markov Models oder Eric Brills Verfahren oder Entscheidungsbäume (nach Helmut Schmid) verwendet, und alle Wortart-Tags stammen aus einem vordefinierten so genannten Tagset. POS-Tagging ist sprachabhängig. Für das Deutsche wird oft das Stuttgart-Tübingen-Tagset (STTS)[1] verwendet. Beim unüberwachten Lernen steht das Tagset nicht vorher fest, sondern es entsteht durch ein stochastisches Verfahren.
Prinzip
Der Satz Petra liest einen langen Roman. wird mit dem Stuttgart-Tübingen-Tagset (kurz: STTS) wie folgt getaggt:
- Petra/NE liest/VVFIN einen/ART langen/ADJA Roman/NN ./$.
Hinter jedem Wort bzw. Satzzeichen steht das Tag nach einem Schrägstrich. Um das Wort einen im gegebenen Kontext richtig zu taggen, muss man es von den Formen des gleich lautenden Verbs unterscheiden; diese würden mit VVINF (für den Infinitiv) bzw. VVFIN (für die finite Form) getaggt.
Beim überwachten Lernen wird das Tag für einen mit Hilfe des Kontextes ausgewählt: Aus einem bereits getaggten Textkorpus wurden vorher z. B. die Wahrscheinlichkeiten für die Tag-Folgen VVFIN-ART, VVFIN-VVINF und VVFIN-VVFIN berechnet (so genanntes Training des Taggers). Da VVFIN-ART deutlich häufiger ist als die anderen beiden Folgen, wird einen in diesem Satz als ART getaggt. (Die häufige Folge kann lesen wird nicht mit VVFIN-VVINF, sondern mit VMFIN-VVINF getaggt.)
Beim unüberwachten Lernen gibt es kein vorheriges Training, sondern aus den zu taggenden Sätzen selbst wird errechnet, dass z. B. einen häufig nach liest oder lese steht, aber auch häufig am Satzende. Den dagegen steht häufig nach liest oder lese, aber nie oder selten am Satzende. Lesen steht häufig am Satzende und nie nach liest oder lese. Deswegen erzeugt der Tagger eine Wortart, zu der z. B. den gehört, und eine andere, die lesen enthält. Einen gehört zu beiden Wortarten. Dass es im gegebenen Satz wie den getaggt werden sollte, ergibt sich nach derselben Argumentation wie für den Tagger, der mittels überwachtem Lernen trainiert wurde.
Software
Software im Bereich Computerlinguistik (NLP) ist häufig in der Lage, ein POS-Tagging automatisiert durchzuführen. Die auf den Bildungsbereich ausgerichtete Software NLTK kann standardmäßig englischsprachige Texte mit dem Tagset Penn Treebank versehen. Zusätzlich ist ein individuell gestaltetes Training mit Hilfe passender Textkorpora möglich.[2]
POS-Tagging ist sprachabhängig. Pro Sprache können ein oder mehrere Tagsets existieren. Für deutsche Texte wird von der Open-Source-Software OpenNLP der Tagset STTS benutzt, für englische Texte der Tagset Penn Treebank.[3] Der für 14 europäische Sprachen[4] entwickelte PAROLE TagSet[5] wird ebenfalls unterstützt. OpenNLP verfügt über eine Auswahl von bereits trainierten Modellen für diese verschiedenen Sprachen (Deutsch, Englisch, Spanisch, Portugiesisch, Dänisch usw.).[6][7] Mit Hilfe dieser Modelle kann dann ein Textkorpus in einer dieser Sprachen automatisch mit den entsprechenden Tags versehen werden.
TreeTagger ist ein von Helmut Schmid am Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart entwickeltes Werkzeug.[8] Mit ihm können Texte aus ca. 16 verschiedenen Sprachen automatisch mit POS-Tags versehen werden.[9] TreeTagger ist das in der Forschung wohl am häufigsten benutzte sprachunabhängige Werkzeug in diesem Bereich.[10]
Literatur
- Eric Brill: A simple rule-based part-of-speech tagger. In Proceedings of the 3rd Conference on Applied Natural Language Processing (ANLP-92). S. 152-155, 1992.
- Eugene Charniak: Statistical Techniques for Natural Language Parsing. In: AI Magazine 18(4): S. 33-44, 1997.
- Hans van Halteren, Jakub Zavrel, Walter Daelemans: Improving Accuracy in Word Class Tagging through the Combination of Machine Learning Systems.. In: Computational Linguistics 27(2), S. 199-229, 2001 (PDF 2,26 MB; 2,4 MB).
- Helmut Schmid: Probabilistic part-of-speech tagging using decision trees. In Proceedings of the International Conference on New Methods in Language Processing 1994.
Einzelnachweise
- STTS (HU Berlin)
- Complete guide for training your own POS tagger with NLTK & Scikit-Learn. In: NLP-FOR-HACKERS. 21. August 2016, abgerufen am 9. Februar 2019 (amerikanisches Englisch).
- Mitchell P. Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz: Building a large annotated corpus of English: the Penn Treebank. University of Pennsylvania, abgerufen am 9. Februar 2019 (englisch).
- CORDIS | European Commission. In: Language Engineering. Abgerufen am 9. Februar 2019 (englisch).
- Two-level Morphology Irish Tags. School of Computer Science and Statistics - Trinity College Dublin, abgerufen am 9. Februar 2019.
- Apache Stanbol - OpenNLP POS Tagging Engine. Abgerufen am 9. Februar 2019 (englisch).
- OpenNLP Tools Models. Abgerufen am 9. Februar 2019 (englisch).
- Helmut Schmid's Homepage. In: Centrum für Informations- und Sprachverarbeitung. Ludwig-Maximilians-Universität München, abgerufen am 10. Februar 2019 (englisch).
- TreeTagger - a language independent part-of-speech tagger | Institut für Maschinelle Sprachverarbeitung | Universität Stuttgart. Abgerufen am 10. Februar 2019 (englisch).
- Imad Zeroual, Abdelhak Lakhouaja: MulTed: A multilingual aligned and tagged parallel corpus. In: Applied Computing and Informatics. 14. Dezember 2018, ISSN 2210-8327, doi:10.1016/j.aci.2018.12.003 (englisch, sciencedirect.com [abgerufen am 10. Februar 2019]).