Text Engineering Software Laboratory

Tesla
Basisdaten
Entwickler	Universität zu Köln
Betriebssystem	plattformunabhängig
Programmiersprache	Java
Kategorie	Natural language processing
Lizenz	Eclipse Public License
	tesla.spinfo.uni-koeln.de

Tesla (Text Engineering Software Laboratory, deutsch Labor zur Verarbeitung von Texten) ist eine Software, mit der reproduzierbare Experimente auf textuellen Daten durchgeführt werden können. Als textuelle Daten gelten dabei alle Arten von Daten, die sich durch eine Sequenz diskreter Einheiten darstellen lassen.

Tesla wird seit 2005 am Institut für Linguistik der Universität zu Köln (Abteilung Sprachliche Informationsverarbeitung) entwickelt und stellt eine Software-Umgebung für Wissenschaftler, die mit Texten arbeiten, zur Verfügung.

Der konzeptuelle Schwerpunkt des Frameworks liegt dabei auf experimenteller Daten- und Verfahrensanalyse; so werden Wissenschaftler dabei unterstützt,

unterschiedliche Arten von Texten (bspw. natürlichsprachliche Texte oder DNA-Transkriptionen) als Grundlage ihrer Experimente auszuwählen,

etablierte ebenso wie neu entwickelte Verfahren auf diesen Texten anzuwenden und

die Experimente in einer Form zu dokumentieren, mit der sie nachvollzogen und wiederholt werden können.

Tesla ist als Komponentensystem in Java implementiert, das auf Basis einer Client-Server-Architektur realisiert wurde. Über den Eclipse-basierten Client kann der Nutzer Texte verwalten und Experimente entwerfen. Experimente bestehen aus dem zu analysierenden Ausgangsmaterial (einzelne Texte oder Textsammlungen) und Komponenten, die bestimmte Aufgaben der Textprozessierung (bspw. Tokenisierung, Part-of-speech-Tagging oder Sequenzalignment) übernehmen. Die Komponenten sind miteinander kombinierbar, wenn ihre Schnittstellen aufeinander abgestimmt sind. Schnittstellen der Komponenten sind die von ihnen erzeugten Ergebnisse, die als Annotationen mit den Rohdaten (Texte) verknüpft werden. Im Unterschied zu vergleichbaren Systemen wie UIMA sind die Ein- und Ausgabeschnittstellen von Tesla-Komponenten kaum restringiert, wodurch eine fein granulierte Komponenten-Kapselung ermöglicht wird, und es bspw. auch möglich ist, komplexe Datentypen (wie Graphen oder hochdimensionale Vektoren) als Annotationen zu verwenden.

Screenshot des Tesla-Clients mit geöffnetem graphischen Experiment-Editor

Literatur

Jürgen Hermes, Stephan Schwiebert: "Classification of text processing components: The Tesla Role System." In: Fink, Lausen, Seidel und Ultsch: "Advances in Data Analysis, Data Handling and Business Intelligence", Springer Verlag 2010 Abstract
Jürgen Hermes: "Textprozessierung: Design und Applikation." Dissertationsschrift, Universität zu Köln. PDF-Dokument
Stephan Schwiebert: "Tesla. Ein virtuelles Labor für experimentelle Computer- und Korpuslinguistik." Dissertationsschrift, Universität zu Köln. PDF-Dokument

Weblinks

Offizielle Website

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.