Klassifizierung
Klassifizierung (von lat. classis, ‚Klasse‘, und facere, ‚machen‘) nennt man das Zusammenfassen von Objekten zu Klassen (Gruppen, Mengen, Kategorien), welche zusammen eine Klassifikation bilden.
Eine Klassifizierung erfordert entweder die Abstraktion oder aber die Bildung einer mehrschichtigen Struktur: eines Komplexes (siehe Komplexität). – In der Semiotik heißen diese beiden Methoden „klassenbildende“ bzw. „komplexbildende Superierung“.
Klassifizierung kommt in allen Bereichen des Denkens vor; in der Philosophie, Psychologie, Ethnologie und anderen anthropologischen Wissenschaften wird jedoch stattdessen die Bezeichnung „Kategorisierung“ benutzt. Damit wird die elementare Fähigkeit benannt, unterschiedliche Entitäten (Gegenstände, Lebewesen, Vorgänge, Abstrakta) intuitiv zu sortieren und entsprechenden Sammelbegriffen (Kategorien) unterzuordnen.
„Klassifizierung“ steht hingegen eher für die bewusst geplante Ordnung von Wissen im Rahmen einer konkreten Betrachtung nach objektivierbaren, einheitlichen Kriterien (häufig in Mathematik, Naturwissenschaft und Technik).[1]
Da erst die Klassifizierung realer Informationen eine geordnete Verarbeitung ermöglicht, ist die Klassifizierung ebenso zentraler Bestandteil vieler Anwendungen der Informatik z. B. in der Mustererkennung.
Bei einer Klassifizierung kann es durch Fehler in der Vorgehensweise und/oder Eigenheiten der einzuordnenden Objekte zu Fehlentscheidungen, sog. Fehl- oder Falschklassifikationen, kommen. Um anzugeben, wie sicher man sich bei einer Zuordnung ist, empfiehlt es sich daher, jeder Entscheidung eine Angabe über ihre Zuverlässigkeit beizufügen.
Begriffsabgrenzung
Dieser Abschnitt gibt einen artikelübergreifenden Überblick über die wichtigsten mit der Klassifizierung verbundenen Begriffe.
Die Fachbegriffe der Klassifizierung werden oft ungenau oder sogar falsch verwendet, obwohl die meisten eine klar festgelegte Bedeutung haben. Die sprachliche Verwirrung wird noch dadurch vergrößert, dass manche Konzepte mehrere Namen tragen:
- Klassifizierung: Vorgang der Erstellung der Klassengrenzen
- Klasse oder Kategorie: Eine Klasse fasst Dinge zusammen, die einer Reihe von Bedingungen genügen. In einer Klasse werden im Allgemeinen Dinge zusammengefasst, die in ihren Merkmalen gleich oder ähnlich sind.
- Klassengrenzen, Entscheidungsgrenzen: Um zu entscheiden, in welche Klasse ein Objekt gehört, werden zwischen den Klassen Klassengrenzen – seltener auch Entscheidungsgrenzen genannt – gezogen. Ein Objekt gehört zu einer Klasse, wenn es innerhalb ihrer Klassengrenzen liegt.
- Klassifikation, Klassensystem, Systematik: Die Gesamtheit aller Klassen bildet eine Klassifikation, auch Klassensystem oder Systematik genannt. Häufig verwendete, spezielle Klassifikationen tragen oft eigene Namen: Thesaurus, Ontologie, Verzeichnis, Taxonomie, Typologie. Die Klassifikation ist das Endprodukt einer Klassifizierung; meist wird jedoch nicht unterschieden und Klassifizierung und Klassifikation gleichbedeutend verwendet.
- Klassierung: Während bei der Klassifizierung die Klassengrenzen erst erstellt werden, ordnet die Klassierung Objekte in ein bereits bestehendes Klassensystem ein. Die Unterscheidung zwischen Klassierung und Klassifizierung ist eher theoretisch; die deutsche Umgangssprache und andere Sprachen fassen beide Vorgehensweisen unter dem Begriff Klassifizierung zusammen.[2]
- Kategorisierung: Klassifizierung und Kategorisierung sind im Grunde genommen dasselbe, unter „Klassifizierung“ fasst man jedoch Mathematik und Technik, unter „Kategorisierung“ Psychologie und Bedeutung zusammen. Kategorisierung kann darüber hinaus das Festlegen der Klassen umfassen.
- Klassifikator, Klassifizierer: Klassifikator nennt man die Instanz, die eine Klassifizierung oder Klassierung vornimmt.
- Klassifikationsverfahren: Das Klassifikationsverfahren bestimmt die Vorgehensweise des Klassifikators. Oft wird nicht zwischen Klassifikator und Klassifikationsverfahren unterschieden.
- Beurteilung eines Klassifikators: Die Güte der Klassierung durch einen Klassifikator oder ein Klassifikationsverfahren kann mit statistischen Mitteln beurteilt werden.
- Klassifizierung, Kategorisierung
- Klassifikation, Klassensystem, Systematik
- Klassierung
- Klassengrenzen, Entscheidungsgrenzen
- Beurteilung einer Klassierung
Bedeutung
Klassifizierung ist ein fundamentaler und allgemeingültiger Vorgang, auf dem zahllose komplexere Prozesse aufbauen. Bereits einfachste Organismen können Außenweltreize in Klassen wie „gefährlich“ und „ungefährlich“ oder „essbar“ und „nicht essbar“ einteilen und Wichtiges von Unwichtigem unterscheiden. Bei Lebewesen mit Nervensystem wird eine erste Klassifizierung bereits vom Neuron geleistet, das „entscheidet“, ob ein Reiz unterschwellig ist und ignoriert wird, oder überschwellig ist und weiterverarbeitet wird.
Menschen klassifizieren gehörte Töne zu Wörtern, gesehene Formen zu Buchstaben und Symbolen; Klassifizierung ist die Grundlage jedweder Verständigung. Die Fähigkeit des Klassifizierens gilt als Voraussetzung der Begriffsbildung und damit letztendlich der Intelligenz. Der Artikel Kategorisierung (Kognitionswissenschaft) geht näher auf diesen Bedeutungskomplex der Klassifizierung ein.
Automatische Klassifizierung kommt in vielen Techniken zum Einsatz. So bewerten beispielsweise Klassifikatoren Produkte auf Fließbändern als „akzeptabel“ oder „mangelhaft“ oder computertomografische Aufnahmen als „Tumor“ oder „unbedenklich“. Auch für die Künstliche Intelligenz ist Klassifizierung von zentralem Interesse.
Der fundamentale philosophische Gegenbegriff zur Klassifizierungslogik oder Subsumtionslogik besteht im Verfahren der dialektischen Logik.
Vorgehensweise
Man unterscheidet Top-down und Bottom-up-Vorgehensweisen.
Top down
Beim Top-down-Vorgehen setzt sich der Prozess der Klassifizierung aus drei Einzelschritten zusammen:
- Klassen vorgeben
- Merkmale auswählen
- Klassengrenzen ziehen
Typisch für die Klassifizierung ist, dass eine feste Anzahl von Zielklassen vorgegeben wird und es nur noch darauf ankommt, deren Grenzen zu bestimmen. Für die Bestimmung von Anzahl und Art der Klassen ist die Kategoriebildung zuständig.
Die Auswahl aussagekräftiger Merkmale ist für eine erfolgreiche Klassifizierung essentiell, da mit einer steigenden Anzahl von Merkmalen die Anzahl benötigter Beobachtungen exponentiell wächst. In der Praxis ist die Zahl der Beobachtungen aber fest, wodurch, ab einem bestimmten Punkt, die Güte des Klassifikators mit zusätzlichen Merkmalen wieder abnimmt (siehe auch Überanpassung).
Zur Klassifikation ist es daher wichtig, entscheidende Merkmale zu bestimmen. Hierzu werden verschiedene Verfahren eingesetzt:
- Ranking von Merkmalen
- durch Bestimmen der Korrelation
- mit Hilfe der Informationstheorie
- Merkmalsauswahlverfahren
- Filter
- Wrapper
- Hauptkomponentenanalyse (PCA)
Die Verfahren sind dabei unterschiedlich komplex und liefern je nach Anwendung befriedigende Ergebnisse, unter Umständen muss die Auswahl der Merkmale erneut durchgeführt werden, wenn die Auswahl nicht geeignet getroffen wurde. Auch weniger wichtige Merkmale können dabei, in Zusammenhang mit einigen anderen Merkmalen, für die Klassifikation eine entscheidende Rolle spielen, so dass auch nicht zu wenige Merkmale ausgewählt werden dürfen.
Ebenso entscheidend ist die Wahl des passenden Klassifikationsverfahrens und eines effizienten Klassifikators.
Bottom up
Dieses Verfahren wird oft unbewusst geleistet, so beim ersten Spracherwerb mit seinen Begriffsbildungen. Wilhelm Kamlah formuliert:
„Die Sprache sucht sich also einerseits der Welt und ihrer sich aufdrängenden Gliederung anzupassen, indem sie andererseits der Welt eine Gliederung erst gibt … Daß es aber überhaupt eine uns schon vertraute Welt gibt, in der das immer neue Einzelne doch zumeist als Fall des schon bekannten Allgemeinen begegnet, erklärt sich nicht aus der Sprache, sondern daraus, daß in der Welt selbst die Wiederkehr von Gleichem stattfindet …“
Schwierigkeiten
Folgende Schwierigkeiten können beim Klassifizieren auftreten:
Unsaubere Kriterien
Werden die Bedingungen, wann ein Objekt zu einer Klasse gehört und wann nicht, nicht deutlich vorgegeben, so wird es schwierig bis unmöglich, ein Objekt zu klassieren. Dies passiert im Alltagsgebrauch der Klassifizierung recht häufig: Welche Kriterien unterscheiden gut und böse? Welche Bedingungen unterscheiden Rockmusik von Jazz? Für eine zweifelsfreie Klassifizierung werden klar formulierte und objektiv messbare Kriterien benötigt. Um eine klare Formulierung zu erreichen, wird für gewöhnlich die Mathematik bemüht.
Falsche Merkmale
Es ist nur dann möglich, Objekte in Klassen einzuordnen, wenn die betrachteten Merkmale tatsächlich eine Unterscheidung der Klassen ermöglichen. So ist es beispielsweise nicht möglich, Lebewesen anhand ihrer Haarfarbe in die Klassen Mensch und Affe einzuordnen; die Haarfarbe hat im Allgemeinen keinerlei Aussagekraft über die Klassenzugehörigkeit eines Lebewesens.
Fließende Übergänge
Fließende Übergänge zwischen Klassen widersprechen dem Gedanken der scharfen Klassengrenzen. So sind etwa die Klassengrenzen der Klasse rot im Farbenspektrum sehr schwer festzulegen. Um eine Klassifizierung zu ermöglichen kann eine scharfe Trennlinie künstlich eingeführt werden. Stattdessen kann auch, durch die Verwendung der Fuzzylogik, auf diesen unscharfen Mengen operiert und eine scharfe Entscheidung durch die Defuzzifizierung getroffen werden. Für fließende Übergänge im Bereich der Sprache vgl. Unschärfe (Sprache).
Nichttrennbarkeit
Nichttrennbarkeit tritt vor allem auf, wenn zu wenige oder nichtssagende Merkmale betrachtet werden. Die Objekte erscheinen aus diesem Blickwinkel bunt durcheinander gemischt und eine klare Trennung scheint unmöglich. Möchte man etwa anhand der Farbe, der Größe und des Gewichts Äpfel von Orangen unterscheiden, so könnten sich viele Äpfel und Orangen in diesen Merkmalen so ähnlich sein, dass eine eindeutige Trennung nahezu unmöglich ist. Obwohl die Merkmale aussagekräftig gewählt sind, bleibt eine Grauzone, in der die Entscheidung unsicher ist.
Ausreißer
Unvorhersehbare Messfehler oder ungewöhnlich ausgeprägte Einzelexemplare können dazu führen, dass ein Objekt falsch klassifiziert wird.
Restobjekte
Am Ende der Klassifizierung kann eine Gruppe von Restobjekten übrig bleiben, die in keine der bestehenden Klassen passt und für die sich auch ohne weiteres keine neue Klasse schaffen lässt, die nicht das gesamte Klassifikationssystem inkohärent machen würde. Für diese Objekte muss dann eine unbefriedigende Residualkategorie eingerichtet werden.
Vertrauenswürdigkeit einer Entscheidung (Konfidenz)
Selbst wenn alle Merkmale eines Objektes bekannt sind, kann es unter Umständen falsch klassifiziert werden (außer man betrachtet die Klassenzugehörigkeit selbst als Merkmal). So würde man beispielsweise für gewöhnlich eine Haselnuss als ungefährlich klassifizieren, obwohl sie Allergiker töten kann und, aus einer Schleuder geschossen, zu einem gefährlichen Geschoss wird. Andererseits wird nicht jede Röntgenaufnahme korrekt als krank oder nicht-krank klassifiziert, denn unter Umständen lässt der Bildinhalt gar keinen Rückschluss auf die Klassenzugehörigkeit zu. Wird eine Entscheidung erzwungen – und dies ist für gewöhnlich bei der Klassifizierung der Fall – so kann die Einordnung durch solche Effekte fragwürdig bis falsch werden.
Daher geben moderne Klassifizierer zusätzlich zu jeder Entscheidung einen Wert aus, der die Vertrauenswürdigkeit (Konfidenz) der getroffenen Entscheidung angibt. Dieses Maß wird gemeinhin Zuverlässigkeitsinformation genannt. Eine große, rote Tomate würde als „reif“ mit hoher Zuverlässigkeit klassifiziert werden, eine mittelgroße rote Tomate mit einigen grünen Stellen ebenfalls als „reif“, jedoch mit niedrigerer Zuverlässigkeit. Die Angabe der Zuverlässigkeit einer Entscheidung bietet Vorteile bei der auf die Klassifizierung folgende Verarbeitung. Ein „unsicher“ als essbar erkannter Pilz wird nicht gegessen, ein „sicher“ als essbar erkannter hingegen schon.
In Szenarien, in denen eine falsche Klassierung schwerwiegendere Nachteile bringt als gar keine, kann es darüber hinaus sinnvoll sein, eine zusätzliche Klasse „nicht klassifizierbar“ einzuführen.
Klassifikationsdarstellungen
Siehe auch
Weblinks
Einzelnachweise
- Hans Uszkoreit, Brigitte Jörg: Informationswissenschaft und Informationssysteme. Vorlesungsskript, Fachrichtung Allgemeine Linguistik, Universität des Saarlandes.
- Hardwin Jungclaussen: Kausale Informatik: Einführung in die Lehre vom aktiven sprachlichen Modellieren durch Mensch und Computer. Springer Fachmedien Wiesbaden, 2001, ISBN 978-3-322-81220-9, S. 57 (Digitalisat auf Google Books).