¿Árbol de decisión o regresión logística?

14

Estoy trabajando en un problema de clasificación. Tengo un conjunto de datos que contiene el mismo número de variables categóricas y variables continuas. ¿Cómo sabré qué técnica usar? entre un árbol de decisión y una regresión logística?

¿Es correcto suponer que la regresión logística será más adecuada para la variable continua y el árbol de decisión será más adecuado para la variable continua + categórica?

Arun
fuente
¿Puedes agregar más detalles como el número de filas, el número de columnas (también cuántos categórico / continuo)?
Nitesh
Hola @Nitesh, tengo 32 variables de entrada + 1 variable de destino. Los registros están cerca de 2.5 lakh para datos de entrenamiento y dicen alrededor de 1 lakh de datos de prueba. Los datos de prueba son datos fuera de tiempo.
Arun

Respuestas:

22

Larga historia corta : haz lo que @untitledprogrammer dijo, prueba ambos modelos y realiza una validación cruzada para ayudar a elegir uno.

Tanto los árboles de decisión (dependiendo de la implementación, por ejemplo, C4.5) como la regresión logística deberían ser capaces de manejar datos continuos y categóricos perfectamente. Para la regresión logística, querrás codificar de forma ficticia tus variables categóricas .

Como mencionó @untitledprogrammer, es difícil saber a priori qué técnica se basará mejor simplemente en los tipos de características que tiene, continuas o no. Realmente depende de su problema específico y de los datos que tenga. (Consulte el teorema del almuerzo gratuito )

Sin embargo, debe tener en cuenta que un modelo de regresión logística está buscando un único límite de decisión lineal en su espacio de características, mientras que un árbol de decisión esencialmente está dividiendo su espacio de características en medios espacios utilizando límites de decisión lineales alineados con ejes . El efecto neto es que tiene un límite de decisión no lineal, posiblemente más de uno.

Esto es bueno cuando sus puntos de datos no se separan fácilmente por un solo hiperplano, pero por otro lado, los árboles de decisiones son tan flexibles que pueden ser propensos a un sobreajuste. Para combatir esto, puedes intentar la poda. La regresión logística tiende a ser menos susceptible (¡pero no inmune!) Al sobreajuste.

Por último, otra cosa a tener en cuenta es que los árboles de decisión pueden tener en cuenta automáticamente las interacciones entre variables, por ejemplo, si tiene dos características independientes e . Con la regresión logística, tendrá que agregar manualmente esos términos de interacción usted mismo.XyXy

Entonces tienes que preguntarte:

  • ¿Qué tipo de límite de decisión tiene más sentido en su problema particular?
  • ¿Cómo quieres equilibrar el sesgo y la varianza?
  • ¿Hay interacciones entre mis características?

Por supuesto, siempre es una buena idea probar ambos modelos y hacer una validación cruzada. Esto lo ayudará a descubrir cuál es más probable que tenga un mejor error de generalización.

Victor Ma
fuente
Exactamente @Victor.
sin título
@Victor Muchas gracias por una explicación muy detallada.
Arun
6

Intente usar tanto la regresión como los árboles de decisión. Compare la eficiencia de cada técnica utilizando una validación cruzada de 10 veces. Apéguese al que tiene mayor eficiencia. Sería difícil juzgar qué método sería mejor con solo saber que su conjunto de datos es continuo o categórico.

programador sin título
fuente
1

Realmente depende de la estructura de la distribución subyacente de sus datos. Si tiene buenas razones para creer que los datos se aproximan a una distribución de Bernoulli, la regresión logística multinomial funcionará bien y le dará resultados interpretables. Sin embargo, si existen estructuras no lineales en la distribución subyacente, debe considerar seriamente un método no paramétrico.

Si bien podría usar un árbol de decisión como su método no paramétrico, también podría considerar la posibilidad de generar un bosque aleatorio; esto esencialmente genera una gran cantidad de árboles de decisión individuales a partir de subconjuntos de datos y la clasificación final es el voto aglomerado de todos los árboles . Un bosque aleatorio ayuda a darle una idea de la participación que cada variable predictiva contribuye a la respuesta.

Otro factor a tener en cuenta es la interpretabilidad. Si solo está tratando de clasificar datos, entonces probablemente no le interesen las relaciones subyacentes entre las variables explicativas y de respuesta. Sin embargo, si está interesado en la interpretación, una regresión logística multinomial es mucho más fácil de interpretar, los métodos paramétricos en general, porque hacen suposiciones sobre la distribución subyacente, le dicen relaciones más intuitivamente interpretables.

Theresa Barton
fuente
0

Para usar el Árbol de decisión, debe transformar la variable continua en categórica.

Una cosa más, la regresión logística se usa generalmente para predecir el resultado de acuerdo con la probabilidad.

Chong Zheng
fuente