CHAID vs CRT (o CART)

23

Estoy ejecutando una clasificación de árbol de decisión usando SPSS en un conjunto de datos con alrededor de 20 predictores (categórico con pocas categorías). CHAID (detección de interacción automática de chi-cuadrado) y CRT / CART (árboles de clasificación y regresión) me están dando diferentes árboles. ¿Alguien puede explicar los méritos relativos de CHAID vs CRT? ¿Cuáles son las implicaciones de usar un método sobre el otro?

Placidia
fuente

Respuestas:

23

Enumeraré algunas propiedades y luego le daré mi valoración de lo que vale:

  • CHAID usa divisiones de múltiples vías por defecto (las divisiones de múltiples vías significan que el nodo actual se divide en más de dos nodos). Esto puede o no ser deseado (puede conducir a mejores segmentos o una interpretación más fácil). Sin embargo, lo que definitivamente hace es reducir el tamaño de la muestra en los nodos y, por lo tanto, generar árboles menos profundos. Cuando se usa con fines de segmentación, esto puede ser contraproducente pronto, ya que CHAID necesita una muestra de gran tamaño para funcionar bien. CART realiza divisiones binarias (cada nodo se divide en dos nodos secundarios) de forma predeterminada.
  • CHAID está destinado a trabajar con objetivos categóricos / discretizados (XAID fue para regresión, pero tal vez se han fusionado desde entonces). CART definitivamente puede hacer regresión y clasificación.
  • CHAID utiliza una idea previa a la poda . Un nodo solo se divide si se cumple un criterio de significación. Esto se relaciona con el problema anterior de necesitar grandes tamaños de muestra ya que la prueba Chi-Square tiene solo poca potencia en muestras pequeñas (que efectivamente se reduce aún más por una corrección de Bonferroni para múltiples pruebas). CART, por otro lado, crece un árbol grande y luego poda el árbol nuevamente a una versión más pequeña.
  • Por lo tanto, CHAID intenta evitar el sobreajuste desde el principio (solo se divide si hay una asociación significativa), mientras que CART puede sobreajustar fácilmente a menos que el árbol se pode . Por otro lado, esto permite que CART funcione mejor que CHAID dentro y fuera de la muestra (para una combinación de parámetros de ajuste dada).
  • La diferencia más importante en mi opinión es que la selección de variables divididas y puntos divididos en CHAID se confunde menos fuertemente que en CART . Esto es en gran medida irrelevante cuando los árboles se usan para la predicción, pero es un problema importante cuando los árboles se usan para la interpretación: se dice que un árbol que tiene esas dos partes del algoritmo muy confundidas está "sesgado en la selección de variables" (un nombre desafortunado) . Esto significa que la selección de variables divididas prefiere variables con muchas divisiones posibles (por ejemplo, predictores métricos). CART está muy "sesgado" en ese sentido, CHAID no tanto.
  • Con las divisiones sustitutas, CART sabe cómo manejar los valores perdidos (las divisiones sustitutas significan que con los valores perdidos (NA) para las variables predictoras, el algoritmo usa otras variables predictoras que no son tan "buenas" como la variable dividida primaria pero imitan las divisiones producidas por la primaria disidente). CHAID no tiene tal cosa afaik.

Entonces, dependiendo de para qué lo necesite, sugeriría usar CHAID si la muestra es de algún tamaño y los aspectos de interpretación son más importantes. Además, si se desean divisiones de vías múltiples o árboles más pequeños, CHAID es mejor. CART, por otro lado, es una máquina de predicción que funciona bien, por lo que si la predicción es su objetivo, iría por CART.

Momo
fuente
1
(+1) Buena vista general. ¿Podría explicar qué son las "divisiones de múltiples vías" y las "divisiones sustitutas"? ¿Son divisiones de múltiples vías si las divisiones no son dicotómicas?
COOLSerdash
1
@Momo: Muchas gracias por la respuesta actualizada. Con respecto a las divisiones de múltiples vías, he encontrado la siguiente declaración interesante de Hastie et al. (2013) Los elementos del aprendizaje estadístico : "Si bien [...] estas [divisiones múltiples] a veces pueden ser útiles, no es una buena estrategia general. [...] Dado que las divisiones múltiples pueden lograrse mediante una serie de binarios divisiones, estos últimos son los preferidos ". Me pregunto si esto es realmente tan definitivo como dicen (no tengo mucha experiencia con el aprendizaje automático) pero, por otro lado, su libro se considera una referencia.
COOLSerdash
Sí, una serie de divisiones binarias puede ser lo mismo que las divisiones de múltiples vías. También pueden ser diferentes. Tiendo a estar de acuerdo con la declaración. Otra cosa a tener en cuenta es que buscar puntos de división con una búsqueda exhaustiva es algorítmicamente más simple y más rápido para las divisiones binarias de un nodo dado.
Momo
Muy completa respuesta. Utilicé CHAID en una investigación con más de 100.000 bases de datos. En este nivel, la clasificación es muy precisa, pero recomiendo intentarlo varias veces con diferentes números de particiones y los niveles menos profundos del árbol (el software SPSS permite determinar estos parámetros previamente). Esto se debe a que CHAID genera árboles de clasificación con varios grupos (multisplit) y mucho peor si la base de datos es grande. El árbol final podría ser enorme. Finalmente, no olvide usar el "control interno" de la división de muestra de la base de datos. Consulte también el Manual de árboles de clasificación de SPSS disponible en goo
user35523
¿Qué hay de QUEST?
Madhu Sareen
8

Todos los métodos de un solo árbol implican una asombrosa cantidad de comparaciones múltiples que aportan una gran inestabilidad al resultado. Es por eso que para lograr una discriminación predictiva satisfactoria es necesaria alguna forma de promediación de árboles (embolsado, aumento, bosques aleatorios) (excepto que se pierde la ventaja de los árboles: la interpretabilidad). La simplicidad de los árboles individuales es en gran medida una ilusión. Son simples porque están equivocados en el sentido de que entrenar el árbol en múltiples subconjuntos grandes de datos revelará un gran desacuerdo entre las estructuras de los árboles.

No he visto ninguna metodología CHAID reciente, pero CHAID en su encarnación original fue un gran ejercicio para la sobreinterpretación de datos.

Frank Harrell
fuente