¿Cómo se elige un punto de división para las variables continuas en los árboles de decisión?

14

Tengo dos preguntas relacionadas con los árboles de decisión:

  1. Si tenemos un atributo continuo, ¿cómo elegimos el valor de división?

    Ejemplo: Edad = (20,29,50,40 ....)

  2. Imaginemos que tenemos una variable continua que tienen valores de R . ¿Cómo puedo escribir un algoritmo que encuentre el punto de división v , para que cuando separemos f por v , tengamos una ganancia mínima para f > v ?FRvFvF>v

BELRALMIA WALID
fuente

Respuestas:

18

(20,29,40,50)(24,5,34,5,45) evalúan los , y cualquier división que proporcione la mejor ganancia de información (o cualquier métrica que esté usando) en los datos de entrenamiento se usa.

Puede ahorrar algo de tiempo de cómputo al verificar solo los puntos divididos que se encuentran entre ejemplos de diferentes clases, porque solo estas divisiones pueden ser óptimas para obtener información.

Timleathart
fuente
@timleathart el OP espera ser "alimentado con cuchara" la implementación en R. Me pregunto qué ha intentado el OP hasta ahora con referencia a la implementación de R. ¿Qué tal "mostrar algo de esfuerzo", OP?
mnm
@timleathart pero normalmente para un atributo f elegimos la división v que da la mayor ganancia de información para f> v, pero aquí mira la pregunta que pidieron una ganancia mínima.
WALID BELRHALMIA
@timleathart, ¿Puedes explicar más? Necesito conocer la mejor forma optimizada de identificar tales divisiones y verificar la ganancia de información. Digamos que una variable tiene mucha variación y otra es casi constante. ¿Cuántas divisiones de este tipo deberían estar allí?
Arpit Sisodia
@timeleathart, extendiendo su respuesta, esta división no se optimizará cuando los valores sean (20,21,22,23, 45,67,80). ¿No se puede usar la iteración mínima a máxima aquí? Por favor
corrígeme
¡Esto aclara mis confusiones!
Jinhua Wang el