Árbol de decisión con variable de entrada continua

8

Se sabe que al construir un árbol de decisión, dividimos la variable de entrada exhaustivamente y encontramos la "mejor" división por enfoque de prueba estadística o enfoque de función de impureza.

Mi pregunta es cuando usamos una variable continua como la variable de entrada (solo unos pocos valores duplicados), el número de divisiones posibles podría ser muy grande, para encontrar la 'mejor' división llevará mucho tiempo. ¿Cómo trataría el científico de datos?

He leído algunos materiales que la gente haría una agrupación de niveles de la entrada para limitar las posibles divisiones. ( ejemplo ) Sin embargo, no explican cómo se hace. ¿En qué nos basamos para agrupar una variable univariante? ¿Hay algún recurso para obtener más detalles o alguien puede explicarlo en detalle?

¡Gracias!

pe-perry
fuente
No hay un algoritmo para entrenar un bosque aleatorio, sino muchos. Por ejemplo ID3, C4.5, CART, CHAID o MARS. La respuesta a su pregunta depende en gran medida del algoritmo utilizado ...
MaxBenChrist
@MaxBenChrist ¿Le importaría elegir uno o dos de ellos, por ejemplo, CART para explicar cómo se agrupan las variables de entrada? ¡Gracias!
pe-perry
Los algoritmos se dividirían por intervalos / intervalos y encontrarían el punto que da los resultados más codiciosos.
HelloWorld

Respuestas:

11

El método común es verificar solo ciertos contenedores como punto de división / umbral. Creo que a esto se refiere el autor de la presentación que publicaste. Digamos que tiene una variable aleatoria de entrada continuaX con las 10 muestras

[1,3,4,6,2,5,18,10, -3, -5]

Probablemente no verifique cada valor de Xde los 10 valores observados como punto de división. En su lugar, por ejemplo, calcularía simplemente verificar el cuantil del 20%, 40%, 60%, 80% de sus datos. Entonces pides tus datos

[-5, -3,1,2,3,4,5,6,10,18]

y "agrupe" sus datos en contenedores

[-5, -3], [1,2], [3,4], [5,6], [10,18]

Entonces, solo tendría que verificar -1,2.5,4.5 y 8 como posible punto de división (interpola linealmente entre los contenedores)

El siguiente documento compara tres reglas sobre cómo elegir los puntos de división para probar. Creo que es lo que estás buscando.

@article {chickeringefficient, title = {Determinación eficiente de puntos de división dinámicos en un árbol de decisión}, autor = {Chickering, David Maxwell y Meek, Christopher y Rounthwaite, Robert}}

MaxBenChrist
fuente