Iterative Dichotomiser 3
Iterative Dichotomiser 3 (ID3) ist ein Algorithmus, der zur Entscheidungsfindung dient. Er wird bei Entscheidungsbäumen eingesetzt. Der australische Forscher J. Ross Quinlan publizierte diesen Algorithmus erstmals im Jahr 1986.[1] ID3 war in seinen ersten Jahren sehr einflussreich. Er findet auch heute noch in einigen Produkten Verwendung. ID3 gilt als Vorgänger des C4.5-Algorithmus.
ID3 wird verwendet, wenn bei großer Datenmenge viele verschiedene Attribute von Bedeutung sind und deshalb ein Entscheidungsbaum ohne große Berechnungen generiert werden soll. Somit entstehen meist einfache Entscheidungsbäume. Es kann aber nicht garantiert werden, dass keine besseren Bäume möglich wären.
Die Basisstruktur von ID3 ist iterativ. Es werden zu jedem noch nicht benutzten Attribut Entropien bezüglich der Trainingsmenge berechnet. Das Attribut mit dem höchsten Informationsgewinn (englisch: information gain) bzw. der kleinsten Entropie, wird gewählt und daraus ein neuer Baum-Knoten generiert. Das Verfahren terminiert, wenn alle Trainingsinstanzen klassifiziert wurden, d. h. wenn jedem Blattknoten eine Klassifikation zugeordnet ist.
Algorithmus
Wenn alle Elemente aus (Daten) zu einer Klasse gehören
- Dann
- // Erzeuge ein Blatt //
- Konstruiere ein Blatt mit der Klasse als Bezeichner
- // Erzeuge ein Blatt //
- Sonst
- // Erzeuge rekursiv einen Teilbaum //
- Wähle das „informativste“ Merkmal
- Beginn: Für_alle vorkommenden Werte von Merkmal
- Konstruiere alle Teilbäume rekursiv mit den entsprechenden Teilmengen als Daten
- Ende: Für_alle
- Konstruiere einen Baumknoten mit Bezeichner und hänge alle erzeugten Teilbäume an
- // Erzeuge rekursiv einen Teilbaum //
- Ende Sonst
Auswahl der Attribute (Merkmale)
Für die Bildung der Teilbäume wird jeweils entsprechend der Informationstheorie das informativste Attribut ausgewählt.
Sei die Menge der Trainingsbeispiele mit ihrer jeweiligen Klassifizierung, das zu prüfende Attribut aus der Menge der verfügbaren Attribute, die Menge der möglichen Attributwerte von und die Untermenge von , für die das Attribut den Wert annimmt. Der Informationsgewinn, der durch Auswahl des Attributs erzielt wird, errechnet sich dann als Differenz der Entropie von und der erwarteten/durchschnittlichen Entropie von bei Fixierung von :
.
Schließlich wählt man ein Attribut mit dem größtmöglichen Gewinn aus der Menge als das nächste Attribut.
Diese Wahl führt zur Bevorzugung von Attributen mit vielen Wahlmöglichkeiten und damit zu einem breiten Baum. Um dem entgegenzuwirken kann eine Normalisierung über die Anzahl der Wahlmöglichkeiten durchgeführt werden.
Einzelnachweise
- J. Ross Quinlan: Induction of Decision Trees. In: Machine Learning. Band 1, Nr. 1, März 1986, S. 81–106, doi:10.1007/BF00116251.