Semantische Suche
Die semantische Suche ist eine Suchmethode, in der die Bedeutung einer Suchanfrage (im Internet oder in einem digitalen Text-Archiv) in den Mittelpunkt gestellt wird.
Durch die Verwendung von Hintergrundwissen wird bei einer semantischen Suchmaschine die inhaltliche Bedeutung von Texten und Suchanfragen berücksichtigt. Es wird nicht nur nach Wörtern im Text, wie bei Keyword-basierten Suchmaschinen, gesucht. Dadurch kann eine Suchanfrage präziser erfasst und mit den inhaltlich relevanten Texten in Verbindung gebracht werden. Somit werden inhaltlich korrekte Suchergebnisse bereitgestellt. Semantische Suche imitiert gewissermaßen das menschliche Gehirn, indem Wissen und Assoziationen zur Suche genutzt werden.
Hintergrundwissen
Das Hintergrundwissen – in Form von Thesauri, semantischen Netzen und Ontologien – das bei der semantischen Suche verwendet wird, bildet das Wissen einer bestimmten Domäne ab. Je nach Einsatzgebiet werden Konzepte sowie relevante Beziehungen zwischen Konzepten festgehalten. Die Abbildung von Konzepten und deren Beziehungen ermöglicht Verfahren zur Spezialisierung – also dem Eingrenzen der Suchergebnisse – und der Generalisierung – dem Verallgemeinern – einer Suchanfrage. Beziehungen selbst können von einfacher Natur – in Form von „A-ist-ein-B“ – sein; sie können jedoch auch komplexere Zusammenhänge – wie „A-kennt-B“ oder „A-aktiviert-B“ – abbilden. In der Informatik und speziell in der Bioinformatik, haben sich die Datenformate OWL und RDF bzw. RDFs zur Speicherung von Hintergrundwissen in Ontologien etabliert.
Um Ontologien möglichst effizient erstellen zu können, haben die Stanford University das Tool Protégé sowie die University of California, Berkeley, OBO-Edit entwickelt. Es existieren neben diesen beiden Werkzeugen noch eine Vielzahl anderer derartiger Softwaresysteme.
Eine derzeitige Herausforderung stellt die automatisierte Erstellung von Ontologien dar. Hierzu werden verschiedene Ansätze verfolgt, die von einer manuellen Bearbeitung bis zu semi-automatischen Prozessen reichen. Bei der semi-automatischen Erstellung einer Ontologie wird ein automatisierter Prozess durchlaufen, der Vorschläge von Konzepten und deren Vernetzung erzeugt, welche anschließend durch einen Domain-Experten begutachtet und freigegeben werden müssen.
Im Unterschied zu einer semantischen Suche im Internet muss eine semantische Suche in einem Extranet oder Intranet nur begrenzte Anwendungsbereiche und damit Begriffsinterpretationen abdecken. Sie stellt damit eine von einer Internet-Suche grundsätzlich unterschiedliche Suchanwendung dar.[1]
Annotation zwischen Text und Hintergrundwissen
Einen wichtigen Aspekt der semantischen Suche stellen die Verfahren zur Annotation dar. Der Annotator verknüpft Textdaten aus Dokumenten oder Datenbanken mit relevanten Entitäten des Hintergrundwissens, also der Ontologie. Zur Annotation werden Verfahren des Textminings eingesetzt, um Inhalte semantisch korrekt lesen und einordnen zu können. Heutige hochtrainierte Algorithmen erreichen eine Kombination von Genauigkeit und Vollständigkeit, das so genannte F-Maß, von über 90 Prozent. Das F-Maß ist die Kennzahl, in der die Genauigkeit und die Trefferquote gleichermaßen bewertet wird. Am eingesetzten Annotator richtet sich auch der technische Erfolg einer semantischen Suchmaschine aus.
Aspekte der semantischen Suche
Die Qualität der semantischen Suche wird vor allem durch zwei Faktoren bestimmt. Das Einbeziehen von Synonymen bei der Suchanfrage ist für die Vollständigkeit der Suchergebnisse wichtig. Im Hintergrundwissen sind dafür alle bekannten Synonyme eines Begriffes hinterlegt. Verwendet der Nutzer einen dieser Suchbegriffe in einer Anfrage, werden zugleich alle verwandten Synonyme in die Suchanfrage einbezogen. Somit ist es beispielsweise möglich, bei der Suche nach „Programmierer“ auch jene Dokumente zu finden, in denen die Qualifikation mit dem Synonym „Softwareentwickler“ festgehalten wird.
Die Unterscheidung von Homonymen (z. B. Jaguar (Automarke) gegenüber Jaguar (Tier)) in den Suchergebnissen steigert die Qualität der gefundenen Suchergebnisse. Die mittels Disambiguierung, der Auflösung von Mehrdeutigkeiten, gefundenen und falsch zugeordneten Suchergebnisse werden automatisch entfernt. Hierbei werden u. a. statistische Verfahren, Textmining und Natural Language Processing verwendet, um den Kontext eines Dokumentes zu erkennen und somit auf die richtige oder falsche Zuordnung des Themengebietes schließen zu können. Stimmt in diesem Fall der Kontext des Dokuments, in dem die Suchanfrage gefunden wurde, wird dieses als richtiges Suchergebnis klassifiziert. Im Umkehrschluss werden Dokumente mit falschem Kontext von den Suchergebnissen ausgeschlossen.
Der dritte und wichtigste Aspekt der semantischen Suche ist die Anwendung vorhandenen Hintergrundwissens. Sucht man nach einem Begriff wie z. B. Herzkrankheiten, werden andere für das Gebiet relevante Begriffe wie z. B. die Koronarerkrankung „Angina Pectoris“ mit berücksichtigt, da das Konzept „in der Nähe“ von Herzkrankheiten im Hintergrundwissen abgebildet ist. Zum Beispiel erlaubt das Netzwerk MeSH (medical subject headings) mit ca. 80.000 Konzepten dieses Vorgehen in der biomedizinischen Domäne. Die wissenschaftliche biomedizinische Suchmaschine[2] zeigt die Möglichkeiten der semantischen Suche in diesem Gebiet.
Die Darstellung der Suchergebnisse, die normalerweise wesentlich umfangreicher als bei einer Stichwortsuche sind, in einer benutzerfreundlichen Form ist eine schwierige, aber lösbare Aufgabe.
Siehe auch
Literatur
- Thomas Cloer: Google hat neue Technik in seine Internet-Suche integriert, die besser "verstehen" soll, was den Nutzer wirklich interessiert. In: Computerwoche.5.03.2009.
- Thomas Hoppe: Semantische Suche. Grundlagen und Methoden semantischer Suche von Textdokumenten. Mit Beiträgen von Bernhard G. Humm, Springer Vieweg 2020, ISBN 978-3-658-30426-3
Einzelnachweise
- Thomas Hoppe: Semantische Suche. Grundlagen und Methoden semantischer Suche von Textdokumenten. Springer Vieweg, Wiesbaden 2020, ISBN 978-3-658-30426-3, S. Vorwort VIII.
- www.GoPubMed.org (Memento des Originals vom 18. Juli 2009 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.