Por lo que entiendo, la selección de variables basada en valores p (al menos en el contexto de regresión) es altamente defectuosa. Parece que la selección variable basada en AIC (o similar) también se considera defectuosa por algunos, por razones similares, aunque esto parece un poco confuso (por ejemplo, vea mi pregunta y algunos enlaces sobre este tema aquí: ¿Qué es exactamente la "selección de modelo por pasos"? )
Pero supongamos que elige uno de estos dos métodos para elegir el mejor conjunto de predictores en su modelo.
Burnham y Anderson 2002 (Selección de modelos e inferencia multimodelo: un enfoque teórico de la información práctica, página 83) afirman que no se debe mezclar la selección de variables basada en AIC con la basada en pruebas de hipótesis : "Las pruebas de hipótesis nulas y los enfoques teóricos de la información deberían no se usan juntos; son paradigmas de análisis muy diferentes ".
Por otro lado, Zuur et al. 2009 (Modelos de efectos mixtos con extensiones en ecología con R, página 541) parecen recomendar el uso de AIC para encontrar primero el modelo óptimo y luego realizar un "ajuste fino" mediante pruebas de hipótesis : "La desventaja es que el AIC puede ser conservador , y es posible que deba aplicar algunos ajustes (mediante el uso de pruebas de hipótesis del enfoque uno) una vez que el AIC haya seleccionado un modelo óptimo ".
Puedes ver cómo esto deja al lector de ambos libros confundido sobre qué enfoque seguir.
1) ¿Son estos simplemente "campos" diferentes de pensamiento estadístico y un tema de desacuerdo entre los estadísticos? ¿Es uno de estos enfoques simplemente "desactualizado" ahora, pero se consideró apropiado al momento de escribir? ¿O simplemente uno está equivocado desde el principio?
2) ¿Habría un escenario en el que este enfoque sería apropiado? Por ejemplo, vengo de un entorno biológico, donde a menudo intento determinar qué variables, si las hay, parecen afectar o impulsar mi respuesta. A menudo tengo varias variables explicativas candidatas y estoy tratando de encontrar cuáles son "importantes" (en términos relativos). Además, tenga en cuenta que el conjunto de variables predictoras candidatas ya se reduce a las que se considera que tienen cierta relevancia biológica, pero esto aún puede incluir 5-20 predictores candidatos.
Respuestas:
Una respuesta corta
El enfoque de hacer una selección o ajuste de modelo basado en datos , luego usar métodos inferenciales estándar en el modelo seleccionado / ajustado (à la Zuur et al. , Y muchos otros ecologistas respetados como Crawley), siempre dará resultados demasiado optimistas : una confianza demasiado limitada intervalos (cobertura deficiente), valores p demasiado pequeños (error alto tipo I). Esto se debe a que los métodos inferenciales estándar suponen que el modelo se especifica a priori ; No toman en cuenta el proceso de ajuste del modelo.
Esta es la razón por la cual los investigadores como Frank Harrell ( Estrategias de modelado de regresión ) desaprueban enérgicamente las técnicas de selección basadas en datos como la regresión por pasos, y advierten que se debe reducir la complejidad del modelo ("reducción de dimensiones", por ejemplo, calcular un PCA de las variables predictoras y seleccionando los primeros ejes PCA como predictores) mirando solo las variables predictoras.
Si está interesado solo en encontrar el mejor modelo predictivo (y no está interesado en ningún tipo de estimación confiable de la incertidumbre de su predicción, que cae en el ámbito de la inferencia), entonces el ajuste del modelo basado en datos está bien (aunque la selección por pasos rara vez es la mejor opción disponible); Los algoritmos de aprendizaje automático / aprendizaje estadístico realizan muchos ajustes para tratar de obtener el mejor modelo predictivo. El error de "prueba" o "fuera de muestra" debe evaluarse en una muestra separada y retenida, o cualquier método de ajuste debe integrarse en un procedimiento de validación cruzada.
Parece haber habido una evolución histórica en las opiniones sobre este tema; muchos libros de texto estadísticos clásicos, especialmente aquellos que se centran en la regresión, presentan enfoques escalonados seguidos de procedimientos inferenciales estándar sin tener en cuenta los efectos de la selección del modelo [cita necesaria ...]
Hay muchas formas de cuantificar la importancia variable, y no todas caen en la trampa de la selección posterior a la variable.
fuente
Vengo de un entorno biológico y soy bioestadista contratado, trabajando en un hospital universitario. Leí mucho sobre esto, especialmente recientemente, incluidas especialmente las opiniones de Harrell sobre el www, y su libro Estrategias de modelado de regresión. Ya no lo cito, sino que habla por experiencia: está muy relacionado con el campo, creo que este es el primer nivel que debe tenerse en cuenta. El segundo nivel sería obtener un buen enfoque racional, lo que significa que sus predictores deben ser significativos para expresar lo que desea predecir, por experiencia científica. Tercero sería dar cuenta de las interacciones, lo cual es súper crucial, y puede abordarse mediante el enfoque estadístico adoptado o la percepción. Solo el cuarto es el método elegido, en mi caso con datos hospitalarios, que a menudo tiene aproximadamente x * 10 ^ 3 puntos de datos y x * 10 ^ 1 observaciones en, por ejemplo,
fuente