Estoy ajustando una regresión logística paso a paso en un conjunto de datos en SPSS. En el procedimiento, estoy ajustando mi modelo a un subconjunto aleatorio que es de aprox. 60% de la muestra total, lo que equivale a unos 330 casos.
Lo que me parece interesante es que cada vez que vuelvo a muestrear mis datos, aparecen y aparecen diferentes variables en el modelo final. Algunos predictores siempre están presentes en el modelo final, pero otros aparecen y desaparecen según la muestra.
Mi pregunta es esta ¿Cuál es la mejor manera de manejar esto? Esperaba ver la convergencia de las variables predictoras, pero ese no es el caso. Algunos modelos tienen un sentido mucho más intuitivo desde una vista operativa (y serían más fáciles de explicar a los tomadores de decisiones), y otros se ajustan un poco mejor a los datos.
En resumen, dado que las variables se barajan, ¿cómo recomendaría abordar mi situación?
Muchas gracias de antemano.
fuente
Una pregunta importante es "¿por qué quieres un modelo con la menor cantidad posible de variables?". Si desea tener la menor cantidad posible de variables para minimizar el costo de la recopilación de datos para el uso operativo de su modelo, las respuestas dadas por whuber y mbq son un excelente comienzo.
Si el rendimiento predictivo es lo que es realmente importante, entonces probablemente sea mejor no hacer ninguna selección de características y utilizar la regresión logística regularizada (cf. regresión de cresta). De hecho, si el rendimiento predictivo fuera lo más importante, utilizaría la regresión logística regularizada en bolsas como una especie de estrategia de "cinturón y frenillos" para evitar el ajuste excesivo de un pequeño conjunto de datos. Millar en su libro sobre selección de subconjuntos en regresión da más o menos ese consejo en el apéndice, y he encontrado que es un excelente consejo para problemas con muchas características y no muchas observaciones.
Si la comprensión de los datos es importante, entonces no hay necesidad de que el modelo utilizado para comprender los datos sea el mismo que se utilizó para hacer predicciones. En ese caso, volvería a muestrear los datos muchas veces y miraría los patrones de las variables seleccionadas en las muestras para encontrar qué variables son informativas (como sugiere mbq, si la selección de características es inestable, una sola muestra no dará la imagen completa), pero todavía usaría el conjunto de modelo de regresión logística regularizado en bolsas para las predicciones.
fuente
En general, hay dos problemas de selección de funciones:
La convergencia de la selección de predictores está en un dominio del problema más relevante, lo cual es extremadamente difícil y, por lo tanto, requiere herramientas mucho más poderosas que la regresión logística, los cálculos pesados y un tratamiento muy cuidadoso.
Pero parece que estás haciendo el primer problema, así que no debes preocuparte por esto. Por lo general, puedo responder la respuesta de Whuber, pero no estoy de acuerdo con la afirmación de que debe abandonar el muestreo; aquí no será un método para estabilizar la selección de funciones, pero, sin embargo, será una simulación para estimar el rendimiento de una selección de funciones acopladas + entrenamiento , por lo que le dará una idea confidencial de su precisión.
fuente
Puede echar un vistazo al artículo Selección de estabilidad de Meinshausen y Buhlmann en JR Statist. Soc B (2010) 72 Parte 4, y la discusión posterior. Consideran lo que sucede cuando divide repetidamente su conjunto de puntos de datos al azar en dos mitades y busca características en cada mitad. Al suponer que lo que ve en una mitad es independiente de lo que ve en la otra mitad coincidente, puede probar los límites en el número esperado de variables seleccionadas falsamente.
fuente
¡No lo uses paso a paso! Ver mi papel
fuente