Tengo una pregunta sobre la selección del modelo y el rendimiento del modelo en regresión logística. Tengo tres modelos que se basan en tres hipótesis diferentes. Los primeros dos modelos (vamos a nombrarlos z y x) solo tienen una variable explicativa en cada modelo, y el tercero (vamos a llamarlo w) es más complicado. Estoy usando AIC para la selección de variables para el modelo w y luego AIC para comparar cuál de los tres modelos que explican mejor la variable dependiente. Descubrí que el modelo w tiene el AIC más bajo y ahora quiero hacer algunas estadísticas de rendimiento en ese modelo para tener una idea sobre el poder predictivo del modelo. Como todo lo que sé es que este modelo es mejor que los otros dos, pero no lo bueno que es.
Dado que he usado todos los datos para aprender el modelo (para poder comparar los tres modelos), ¿cómo hago con el rendimiento del modelo? Por lo que he reunido, no puedo simplemente hacer una validación cruzada de k-fold en el modelo final que obtuve de la selección del modelo usando AIC, pero necesito comenzar desde el principio con todas las variables explicativas incluidas, ¿es correcto? Creo que es el modelo final que he elegido con AIC que quiero saber qué tan bien funciona, pero me doy cuenta de que he entrenado en todos los datos para que el modelo pueda estar sesgado. Entonces, si debo comenzar desde el principio con todas las variables explicativas en todos los pliegues, obtendré diferentes modelos finales para algunos pliegues, ¿puedo elegir el modelo del pliegue que proporcionó el mejor poder predictivo y aplicarlo al conjunto de datos completo para comparar AIC con los otros dos modelos (z y x)? ¿O cómo funciona?
La segunda parte de mi pregunta es una pregunta básica sobre sobre-parametrización. Tengo 156 puntos de datos, 52 son 1's, el resto son 0's. Tengo 14 variables explicativas para elegir para el modelo w, me doy cuenta de que no puedo incluir todas debido a una sobre parametrización, he leído que solo debe usar el 10% del grupo de la variable dependiente con la menor cantidad de observaciones que Solo serían 5 para mí. Estoy tratando de responder una pregunta en ecología, ¿está bien seleccionar las variables iniciales que creo que explican la mejor dependencia simplemente basada en la ecología? ¿O cómo elijo las variables explicativas iniciales? No se siente bien excluir por completo algunas variables.
Entonces realmente tengo tres preguntas:
- ¿Podría estar bien probar el rendimiento en un modelo capacitado en el conjunto de datos completo con validación cruzada?
- Si no, ¿cómo elijo el modelo final al hacer la validación cruzada?
- ¿Cómo elijo las variables de inicio para que quiera sobre-parametrizar?
Perdón por mis preguntas desordenadas y mi ignorancia. Sé que se han hecho preguntas similares, pero todavía me siento un poco confundido. Agradezco cualquier pensamiento y sugerencia.
Para responder "¿Podría estar bien probar el rendimiento en un modelo capacitado en el conjunto de datos completo con validación cruzada?" NO, no creo que esto esté bien. Debe ajustar los 3 modelos al mismo subconjunto de su conjunto de datos. Luego haga la validación cruzada para ver cuál es mejor.
fuente
Yo creo que no. Quizás un mejor método sería evaluar cada uno de los tres modelos utilizando validación cruzada repetida. Dado que ha elegido sus funciones basándose en el conocimiento previo, no necesita preocuparse por la selección de funciones. Este método le permite evaluar el rendimiento del modelo.
Una vez que haya evaluado el rendimiento de su modelo utilizando la validación cruzada repetida, puede entrenar el modelo final utilizando todos los datos disponibles.
Si entiendo correctamente: según lo sugerido por un colaborador anterior, puede agregar sus funciones en función del conocimiento previo del área o bien debe realizar la selección de funciones dentro de la validación cruzada para evitar el sobreajuste. Este mismo procedimiento de selección de características se aplicaría a todos los datos al entrenar el modelo final. No puede usar este modelo para informar el rendimiento generalizado del modelo, esto debe provenir de la estimación de validación cruzada.
fuente