Aunque los méritos de la selección de modelos por pasos se han discutido anteriormente, no me queda claro qué es exactamente " selección de modelos por pasos " o " regresión por pasos ". Pensé que lo entendía, pero ya no estoy tan seguro.
Entiendo que estos dos términos son sinónimos (al menos en un contexto de regresión), y que se refieren a la selección del mejor conjunto de variables predictoras en un modelo "óptimo" o "mejor" , dados los datos. (Puede encontrar la página de Wikipedia aquí y otra descripción general potencialmente útil aquí ).
Según varios subprocesos anteriores (por ejemplo, aquí: Algoritmos para la selección automática de modelos ), parece que la selección de modelos por pasos se considera un pecado capital. Y, sin embargo, parece ser utilizado todo el tiempo, incluso por lo que parecen ser estadísticos muy respetados. ¿O estoy mezclando la terminología?
Mis preguntas principales son:
Por "selección de modelo por pasos" o "regresión por pasos", nos referimos a:
A ) ¿hacer pruebas de hipótesis secuenciales como pruebas de razón de probabilidad o mirar valores p? (Aquí hay una publicación relacionada: ¿Por qué los valores p son engañosos después de realizar una selección por pasos? ) ¿Es esto lo que significa y por qué es malo?
O
B ) ¿también consideramos que la selección basada en AIC (o criterio de información similar) es igualmente mala? De la respuesta en Algoritmos para la selección automática de modelos , parece que esto también es criticado. Por otro lado, Whittingham et al. (2006; pdf ) 1 parece sugerir que la selección de variables basada en el enfoque de la información teórica (IT) es diferente de la selección por pasos (y parece ser un enfoque válido) ...?Y esta es la fuente de toda mi confusión.
Para el seguimiento, si la selección basada en AIC cae dentro de "paso a paso" y se considera inapropiada, entonces aquí hay preguntas adicionales:
Si este enfoque es incorrecto, ¿por qué se enseña en libros de texto, cursos universitarios, etc.? ¿Está todo mal?
¿Cuáles son buenas alternativas para seleccionar qué variables deben permanecer en el modelo? He encontrado recomendaciones para usar conjuntos de datos de validación cruzada y pruebas de capacitación, y LASSO.
Creo que todos pueden estar de acuerdo en que arrojar indiscriminadamente todas las variables posibles en un modelo y luego hacer una selección por pasos es problemático. Por supuesto, un juicio sensato debería guiar lo que entra inicialmente. Pero, ¿qué sucede si ya comenzamos con un número limitado de posibles variables predictoras basadas en algún conocimiento (digamos biológico), y todos estos predictores podrían estar explicando nuestra respuesta? ¿Seguiría siendo defectuoso este enfoque de selección de modelo? También reconozco que la selección del "mejor" modelo podría no ser apropiada si los valores de AIC entre los diferentes modelos son muy similares (y la inferencia multimodelo puede aplicarse en tales casos). Pero, ¿sigue siendo problemático el problema subyacente del uso de la selección por pasos basada en AIC?
Si estamos buscando ver qué variables parecen explicar la respuesta y de qué manera, ¿por qué este enfoque es incorrecto, ya que sabemos que "todos los modelos están equivocados, pero algunos son útiles"?
1. Whittingham, MJ, Stephens, PA, Bradbury, RB y Freckleton, RP (2006). ¿Por qué todavía utilizamos modelos paso a paso en ecología y comportamiento? Journal of Animal Ecology, 75, págs. 1182–1189.
Respuestas:
1) La razón por la que está confundido es que el término "paso a paso" se usa de manera inconsistente. A veces significa procedimientos bastante específicos en los quepags -los valores de los coeficientes de regresión, calculados de manera ordinaria, se utilizan para determinar qué covariables se agregan o eliminan de un modelo, y este proceso se repite varias veces. Puede referirse a (a) una variación particular de este procedimiento en el que las variables pueden agregarse o eliminarse en cualquier paso (creo que esto es lo que SPSS llama "paso a paso"), o puede referirse a (b) esta variación junto con otras variaciones tales como solo agregar variables o solo eliminar variables. En términos más generales, "paso a paso" se puede utilizar para referirse a (c) cualquier procedimiento en el que se agregan o eliminan características de un modelo de acuerdo con algún valor que se calcula cada vez que se agrega o elimina una característica (o conjunto de características).
Estas diferentes estrategias han sido criticadas por varias razones. Yo diría que la mayoría de las críticas son sobre (b), la parte clave de esa crítica es quepags -los valores están mal equipados para la selección de características (las pruebas de significación aquí realmente prueban algo muy diferente de "¿debería incluir esta variable en el modelo?"), y los estadísticos más serios lo recomiendan en todas las circunstancias. (c) es más controvertido.
2) Porque la educación estadística es realmente mala. Para dar solo un ejemplo: por lo que puedo deducir de mi propia educación, aparentemente se considera una parte clave de la educación estadística para estudiantes de psicología para decirles a los estudiantes que usen la corrección de Bessel para obtener estimaciones imparciales de la población SD. Es cierto que la corrección de Bessel hace que la estimación de la varianza sea imparcial, pero es fácil demostrar que la estimación de la SD todavía está sesgada. Mejor aún, la corrección de Bessel puede aumentar el MSE de estas estimaciones.
3) La selección de variables es prácticamente un campo en sí misma. La validación cruzada y las divisiones de prueba de tren son formas de evaluar un modelo, posiblemente después de la selección de características; ellos mismos no proporcionan sugerencias sobre qué funciones usar. El lazo es a menudo una buena opción. Así son los mejores subconjuntos.
4) En mi opinión, todavía no tiene sentido usar (b), especialmente cuando podrías hacer algo más en (c), como usar AIC. No tengo objeciones a la selección gradual basada en AIC, pero tenga en cuenta que será sensible a la muestra (en particular, a medida que las muestras crecen arbitrariamente grandes, AIC, como el lazo, siempre elige el modelo más complejo), así que no Presente la selección del modelo en sí como si fuera una conclusión generalizable.
Finalmente, si desea observar los efectos de todas las variables, debe incluir todas las variables, y si su muestra es demasiado pequeña para eso, necesita una muestra más grande. Recuerde, las hipótesis nulas nunca son ciertas en la vida real. No habrá un montón de variables que estén asociadas con un resultado y un montón de otras variables que no lo estén . Cada variable se asociará con el resultado: las preguntas son en qué grado, en qué dirección, en qué interacciones con otras variables, etc.
fuente
En cuanto a stepwise vs. AIC
Paso a paso es un término que describe la forma en que se construye una secuencia de modelos y posiblemente la forma en que se selecciona un modelo dentro de la secuencia.
Mientras tanto,
AIC se puede aplicar para seleccionar un modelo de un grupo de candidatos. Puede usarse como criterio de selección en la selección por pasos, pero no solo.
Entonces, paso a paso y AIC son dos aspectos diferentes de la selección del modelo que se pueden usar juntos o por separado, y dependiendo de eso y de otras consideraciones puede o no ser apropiado.
fuente