Regresión logística y muestreo paso a paso

13

Estoy ajustando una regresión logística paso a paso en un conjunto de datos en SPSS. En el procedimiento, estoy ajustando mi modelo a un subconjunto aleatorio que es de aprox. 60% de la muestra total, lo que equivale a unos 330 casos.

Lo que me parece interesante es que cada vez que vuelvo a muestrear mis datos, aparecen y aparecen diferentes variables en el modelo final. Algunos predictores siempre están presentes en el modelo final, pero otros aparecen y desaparecen según la muestra.

Mi pregunta es esta ¿Cuál es la mejor manera de manejar esto? Esperaba ver la convergencia de las variables predictoras, pero ese no es el caso. Algunos modelos tienen un sentido mucho más intuitivo desde una vista operativa (y serían más fáciles de explicar a los tomadores de decisiones), y otros se ajustan un poco mejor a los datos.

En resumen, dado que las variables se barajan, ¿cómo recomendaría abordar mi situación?

Muchas gracias de antemano.

Btibert3
fuente

Respuestas:

16

Si va a utilizar un procedimiento paso a paso, no vuelva a muestrear. Crea una submuestra aleatoria de una vez por todas. Realice su análisis al respecto. Valide los resultados contra los datos retenidos. Es probable que la mayoría de las variables "significativas" resulten no ser significativas.

( Edición 12/2015: de hecho, puede ir más allá de un enfoque tan simple al volver a muestrear, repetir el procedimiento paso a paso y volver a validar: esto lo llevará a una forma de validación cruzada. Pero en tal caso, métodos de variables más sofisticados selección, como la regresión de cresta, el lazo y la red elástica, probablemente sean preferibles a la regresión por pasos).

Concéntrese en las variables que tienen sentido, no en aquellas que se ajustan un poco mejor a los datos. Si tiene más de un puñado de variables para 330 registros, tiene un gran riesgo de sobreajuste en primer lugar. Considere utilizar criterios de entrada y salida bastante severos para la regresión gradual. Baselo en AIC o lugar de umbrales para pruebas F o pruebas t .CpFt

(Supongo que ya ha llevado a cabo el análisis y la exploración para identificar nuevas expresiones apropiadas de las variables independientes, que ha identificado interacciones probables y que ha establecido que realmente existe una relación aproximadamente lineal entre el logit de la variable dependiente y los regresores. Si no, haga este trabajo preliminar esencial y solo luego regrese a la regresión gradual.)

Tenga cuidado al seguir los consejos genéricos que acabo de dar, por cierto :-). Su enfoque debe depender del propósito del análisis (predicción, extrapolación, comprensión científica, toma de decisiones), así como de la naturaleza de los datos, el número de variables, etc.

whuber
fuente
2
+1 para resaltar la importancia de la interpretación del modelo. No agregaré nada sobre el enfoque de ML no informado (o métodos de conjunto) con esquemas de validación cruzada más complejos, porque creo que ya dijo lo que realmente importa aquí: (1) la selección de características a través del remuestreo es difícilmente interpretable de forma aislada (es decir, comparando un resultado después del otro), y (2) todo depende de si estamos buscando un modelo predictivo o explicativo.
chl
Gracias por tu perspicacia. He realizado algunas pruebas previas para reducir mi espacio de búsqueda y simplemente quiero encontrar el mejor modelo de predicción con la menor cantidad de variables. Solo estoy agregando 7 predictores al modelo, lo que, según tengo entendido, debería estar bien. Entiendo la idea de seguir con una muestra, pero por otro lado, mi modelo era fundamentalmente diferente y muestra que los resultados dependen completamente de la muestra, lo que me hizo hacer una pausa.
Btibert3
@ Btibert3 Derecha: cuando los resultados varían entre subconjuntos aleatorios de sus datos, puede tomar eso como evidencia de que las variables independientes no son predictores fuertes o consistentes de la variable independiente.
whuber
12

Una pregunta importante es "¿por qué quieres un modelo con la menor cantidad posible de variables?". Si desea tener la menor cantidad posible de variables para minimizar el costo de la recopilación de datos para el uso operativo de su modelo, las respuestas dadas por whuber y mbq son un excelente comienzo.

Si el rendimiento predictivo es lo que es realmente importante, entonces probablemente sea mejor no hacer ninguna selección de características y utilizar la regresión logística regularizada (cf. regresión de cresta). De hecho, si el rendimiento predictivo fuera lo más importante, utilizaría la regresión logística regularizada en bolsas como una especie de estrategia de "cinturón y frenillos" para evitar el ajuste excesivo de un pequeño conjunto de datos. Millar en su libro sobre selección de subconjuntos en regresión da más o menos ese consejo en el apéndice, y he encontrado que es un excelente consejo para problemas con muchas características y no muchas observaciones.

Si la comprensión de los datos es importante, entonces no hay necesidad de que el modelo utilizado para comprender los datos sea el mismo que se utilizó para hacer predicciones. En ese caso, volvería a muestrear los datos muchas veces y miraría los patrones de las variables seleccionadas en las muestras para encontrar qué variables son informativas (como sugiere mbq, si la selección de características es inestable, una sola muestra no dará la imagen completa), pero todavía usaría el conjunto de modelo de regresión logística regularizado en bolsas para las predicciones.

Dikran Marsupial
fuente
1
+1 para el puntero a la regresión logística regularizada. Sin embargo, no está claro cómo uno podría "mirar los patrones" formalmente al volver a muestrear los "datos muchas veces". Eso suena mucho a espiar datos y, por lo tanto, parece probable que provoque frustración y error.
whuber
55
La selección de funciones cuando la selección es inestable siempre será una receta para la frustración y el error. El uso de una sola muestra reduce la frustración, pero aumenta la probabilidad de error, ya que lo alienta a hacer inferencias sobre las características relevantes para el problema en función de lo que funciona mejor en la muestra particular que mira, que es una forma de exceso. adecuado. El nuevo muestreo le da una idea de la incertidumbre en la selección de características, que a menudo es igual de importante. En este caso, no debemos sacar conclusiones sólidas sobre las características relevantes, ya que no hay suficientes datos.
Dikran Marsupial
Buen punto; Odio cuando las personas solo cuentan la media de un nuevo muestreo, es un desperdicio.
10

En general, hay dos problemas de selección de funciones:

  • mínimo óptimo , donde busca el conjunto más pequeño de variables que le dan el menor error
  • todo relevante , donde busca todas las variables relevantes en un problema

La convergencia de la selección de predictores está en un dominio del problema más relevante, lo cual es extremadamente difícil y, por lo tanto, requiere herramientas mucho más poderosas que la regresión logística, los cálculos pesados ​​y un tratamiento muy cuidadoso.

Pero parece que estás haciendo el primer problema, así que no debes preocuparte por esto. Por lo general, puedo responder la respuesta de Whuber, pero no estoy de acuerdo con la afirmación de que debe abandonar el muestreo; aquí no será un método para estabilizar la selección de funciones, pero, sin embargo, será una simulación para estimar el rendimiento de una selección de funciones acopladas + entrenamiento , por lo que le dará una idea confidencial de su precisión.


fuente
+1 Me preocupa que muchos muestreos solo sean confusos y engañosos. El muestreo de una manera controlada, mediante validación cruzada o una muestra de reserva para verificación, obviamente no es problemático.
whuber
6

Puede echar un vistazo al artículo Selección de estabilidad de Meinshausen y Buhlmann en JR Statist. Soc B (2010) 72 Parte 4, y la discusión posterior. Consideran lo que sucede cuando divide repetidamente su conjunto de puntos de datos al azar en dos mitades y busca características en cada mitad. Al suponer que lo que ve en una mitad es independiente de lo que ve en la otra mitad coincidente, puede probar los límites en el número esperado de variables seleccionadas falsamente.

mcdowella
fuente
2

¡No lo uses paso a paso! Ver mi papel

Peter Flom - Restablece a Monica
fuente