¿Cómo combinar resultados de regresión logística y bosque aleatorio?

12

Soy nuevo en el aprendizaje automático. Apliqué regresión logística y bosque aleatorio en un mismo conjunto de datos. Entonces obtengo importancia variable (coeficiente absoluto para regresión logística e importancia variable para bosque aleatorio). Estoy pensando en combinar los dos para obtener una importancia variable final. ¿Alguien puede compartir su experiencia? He comprobado el ensacado, el refuerzo, el modelado de conjunto, pero no son lo que necesito. Son más de combinar información para el mismo modelo a través de réplicas. Lo que estoy buscando es combinar el resultado de múltiples modelos.

usuario1946504
fuente
55
El modelado de conjunto también puede combinar modelos. Examine la votación por mayoría, por ejemplo. Ver también, apilamiento.
Pat
44
En realidad, usar el tamaño de los coeficientes no es una buena manera de determinar la "importancia variable" en la regresión logística. Incluso si observa los coeficientes estandarizados, ese no es un buen método. ¿Por qué? Recuerde que los coeficientes son solo estimaciones y que hay un error asociado con ellos. Elegir los coeficientes por tamaño significa que elige aquellos para los cuales sobrestimó el tamaño del coeficiente y elimina aquellos para los que subestimó el tamaño del coeficiente.
user765195

Respuestas:

12

Probablemente depende de para qué desea utilizar las importancias variables. ¿Se utilizará como criterio para la selección de características para un tercer modelo de clasificación? En ese caso, podría intentar calcular un promedio ponderado de las importancias variables (tal vez después de normalizar cada vector de importancia variable individual a la longitud de la unidad) para varios valores y el peso promedio y luego recoger el valor que produce el mejor puntaje de validación cruzada para el final modelo.

En cuanto a la combinación del resultado del modelo de regresión logística y el modelo de bosque aleatorio (sin considerar las variables de importancia), la siguiente publicación de blog es muy informativa y demuestra que un promedio simple de la salida es un método de conjunto simple pero muy efectivo para modelos de regresión.

ogrisel
fuente
1
Gracias por su respuesta. El blog que mencionaste es un estudio realmente interesante. Creo que tengo la idea. La única preocupación es su fórmula de entropía cruzada. Parece diferente con el que encontré en línea. Su uso: cross.entropy <- función (objetivo, predicho) {predicho = pmax (1e-10, pmin (1-1e-10, pronosticado)) - suma (objetivo * log (predicho) + (1 - objetivo) * log (1 - predicho))}
usuario1946504
2
y cuando apliqué la misma idea a mi propio conjunto de datos, utilicé el error de clasificación errónea como criterio, la trama no es nada similar. El bosque aleatorio resulta mucho mejor que la regresión logística. error de clasificación errónea de RF es 0.2, para LR es 0.4. Al mismo tiempo, AUC para RF es 0.8, para LR es 0.73.
user1946504
5

(Comentando la respuesta y comentarios anteriores)

¡Gracias por leer el blog!

La función de error de entropía cruzada tiene una pequeña trampa, truncando los valores pronosticados a [1e-10, 1-1e-10] como una forma barata y fácil de evitar errores en las funciones de registro. De lo contrario, esta es la fórmula estándar.

Para el conjunto de datos, es muy posible tener conjuntos de datos donde un bosque aleatorio es muy superior a un registro. reg. y el registro reg. no agrega nada al conjunto. Asegúrese, por supuesto, de que está utilizando datos de retención: un bosque aleatorio casi siempre tendrá resultados superiores en los datos de entrenamiento debido a que tiene parámetros mucho más efectivos.

OverKAnalytics
fuente