CHAID

CHAID (Chi-square Automatic Interaction Detectors) i​st ein Algorithmus, d​er zur Entscheidungsfindung dient. Er w​ird bei d​er Konstruktion v​on Entscheidungsbäumen eingesetzt.

Der CHAID-Algorithmus w​urde 1964 erstmals v​on J.A. Sonquist u​nd J.N. Morgan publiziert u​nd ist s​omit der Älteste d​er gängigen Entscheidungsbaum-Algorithmen. Anderberg (1973) beschreibt ihn. J.A. Hartigan (1975) g​ibt eine Implementierung an.

Der Hauptunterschied v​on CHAID z​u CART u​nd C4.5 besteht darin, d​ass der CHAID-Algorithmus d​as Wachsen d​es Baumes stoppt, b​evor der Baum z​u groß geworden ist. Der Baum w​ird also n​icht beliebig wachsen gelassen, u​m ihn danach m​it einer Pruning-Methode wieder z​u stutzen. Ein weiterer Unterschied besteht darin, d​ass CHAID m​it kategorial skalierten Variablen w​ie Farbe (rot, gelb, grün) o​der Bewertung (gut, mittel, schlecht) arbeitet anstatt m​it metrisch skalierten Variablen w​ie zum Beispiel Körpergröße i​n cm.

Für die Wahl der Attribute wird beim CHAID-Algorithmus der Chi-Quadrat-Unabhängigkeitstest verwendet. CHAIDs kommen zur Anwendung, wenn eine Aussage über die Abhängigkeit zweier Variablen gemacht werden muss. Dazu wird eine Kennzahl, der Chi-Quadrat-Abstand berechnet. Dabei gilt: Je größer diese Kennzahl, desto größer die Abhängigkeit der betrachteten Variablen. Die Variable mit dem größten Chi-Quadrat-Abstand zur Zielgröße wird als Attributauswahl berücksichtigt. Um die Trennqualität zu erhöhen, können hier – wie auch beim C4.5-Algorithmus – mehr als zwei Verzweigungen pro Knoten vorgenommen werden. Dies hat zur Folge, dass die generierten Bäume kompakter sind als die CARTs. Dieselbe Methode wird zur Ermittlung der besten Unterteilungen verwendet. Da bei diesen Entscheidungsbäumen alle möglichen Kombinationen von Ausprägungen ausgewertet werden müssen, kann es bei großen Datenmengen zu Laufzeitproblemen führen. Deshalb ist es von Vorteil, wenn die numerischen Variablen in Variablen mit kategoriellen Ausprägungen umgewandelt werden, obwohl dies einen zusätzlichen Aufwand bedeutet. Dafür sollte das Ergebnis qualitativ besser sein.

Siehe auch

Literatur

  • Sonquist, J.A. and Morgan, J.N. (1964): The Detection of Interaction Effects. Survey Research Center, Institute for Social Research, University of Michigan, Ann Arbor.
  • Anderberg, M.R. (1973): Cluster Analysis for Applications. New York – Academic Press.
  • Hartigan, J.A. (1975): Clustering Algorithms. New York – Wiley.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.