Equivalencia de AIC y valores p en la selección del modelo

9

En un comentario a la respuesta a esta pregunta , se afirmó que usar AIC en la selección del modelo era equivalente a usar un valor p de 0.154.

Lo probé en R, donde utilicé un algoritmo de selección de subconjuntos "hacia atrás" para descartar variables de una especificación completa. Primero, arrojando secuencialmente la variable con el valor p más alto y deteniéndose cuando todos los valores p están por debajo de 0.154 y, en segundo lugar, descartando la variable que resulta en el AIC más bajo cuando se elimina hasta que no se pueda mejorar.

Resultó que dan aproximadamente los mismos resultados cuando uso un valor p de 0.154 como umbral.

¿Es esto realmente cierto? Si es así, ¿alguien sabe por qué o puede referirse a una fuente que lo explique?

PD: No puedo pedirle a la persona que comente o escriba un comentario, porque acabo de registrarme. Soy consciente de que este no es el enfoque más adecuado para la selección e inferencia de modelos, etc.

Niels
fuente
(1) Modelado pronóstico con análisis de regresión logística: una comparación de métodos de selección y estimación en pequeños conjuntos de datos. Statistics in Medicine, 19, 1059-1079 (2) verdadero para variables con df1, basado en la definición aic. Pero podría ser menor si sus grados de libertad de las variables son más altos
Charles

Respuestas:

13

La selección de variables realizada mediante pruebas estadísticas o AIC es muy problemática. Si usa pruebas , AIC usa un límite de = 2.0 que corresponde a . AIC cuando se usa en variables individuales no hace nada nuevo; solo usa un más razonable que 0.05. Un más razonable (menos perturbador de inferencia) es 0.5.χ2χ2α=0,157αα

Frank Harrell
fuente
Pasé tanto tiempo construyendo mi respuesta (ahora eliminada) que ni siquiera vi que ésta se había publicado mientras tanto. Hubiera votado este en su lugar.
Glen_b -Reinstalar a Monica