Soy nuevo en el aprendizaje automático. Apliqué regresión logística y bosque aleatorio en un mismo conjunto de datos. Entonces obtengo importancia variable (coeficiente absoluto para regresión logística e importancia variable para bosque aleatorio). Estoy pensando en combinar los dos para obtener una importancia variable final. ¿Alguien puede compartir su experiencia? He comprobado el ensacado, el refuerzo, el modelado de conjunto, pero no son lo que necesito. Son más de combinar información para el mismo modelo a través de réplicas. Lo que estoy buscando es combinar el resultado de múltiples modelos.
machine-learning
logistic
random-forest
usuario1946504
fuente
fuente
Respuestas:
Probablemente depende de para qué desea utilizar las importancias variables. ¿Se utilizará como criterio para la selección de características para un tercer modelo de clasificación? En ese caso, podría intentar calcular un promedio ponderado de las importancias variables (tal vez después de normalizar cada vector de importancia variable individual a la longitud de la unidad) para varios valores y el peso promedio y luego recoger el valor que produce el mejor puntaje de validación cruzada para el final modelo.
En cuanto a la combinación del resultado del modelo de regresión logística y el modelo de bosque aleatorio (sin considerar las variables de importancia), la siguiente publicación de blog es muy informativa y demuestra que un promedio simple de la salida es un método de conjunto simple pero muy efectivo para modelos de regresión.
fuente
(Comentando la respuesta y comentarios anteriores)
¡Gracias por leer el blog!
La función de error de entropía cruzada tiene una pequeña trampa, truncando los valores pronosticados a [1e-10, 1-1e-10] como una forma barata y fácil de evitar errores en las funciones de registro. De lo contrario, esta es la fórmula estándar.
Para el conjunto de datos, es muy posible tener conjuntos de datos donde un bosque aleatorio es muy superior a un registro. reg. y el registro reg. no agrega nada al conjunto. Asegúrese, por supuesto, de que está utilizando datos de retención: un bosque aleatorio casi siempre tendrá resultados superiores en los datos de entrenamiento debido a que tiene parámetros mucho más efectivos.
fuente