Por qué aplicar la selección de modelos usando AIC me da valores p no significativos para las variables

14

Tengo algunas preguntas sobre el AIC y espero que me puedan ayudar. Apliqué la selección del modelo (hacia atrás o hacia adelante) según el AIC en mis datos. Y algunas de las variables seleccionadas terminaron con valores p> 0.05. Sé que la gente dice que deberíamos seleccionar modelos basados ​​en el AIC en lugar del valor p, por lo que parece que el AIC y el valor p son dos conceptos diferentes. ¿Alguien podría decirme cuál es la diferencia? Lo que entiendo hasta ahora es que:

  1. Para la selección hacia atrás usando el AIC, supongamos que tenemos 3 variables (var1, var2, var3) y el AIC de este modelo es AIC *. Si excluir cualquiera de estas tres variables no terminara con un AIC que es significativamente menor que el AIC * (en términos de distribución ch-cuadrado con df = 1), entonces diríamos que estas tres variables son los resultados finales.

  2. Un valor p significativo para una variable (por ejemplo, var1) en un modelo de tres variables significa que el tamaño del efecto estandarizado de esa variable es significativamente diferente de 0 (según Wald, o prueba t).

¿Cuál es la diferencia fundamental entre estos dos métodos? ¿Cómo lo interpreto si hay algunas variables que tienen valores p no significativos en mi mejor modelo (obtenido a través del AIC)?

tiantianchen
fuente

Respuestas:

13

AIC y sus variantes están más cerca de las variaciones en en los valores p de cada regresor. Más precisamente, son versiones penalizadas de la probabilidad logarítmica.R2

No quieres probar las diferencias de AIC usando chi-cuadrado. Puede probar las diferencias de la probabilidad logarítmica utilizando chi-cuadrado (si los modelos están anidados). Para AIC, menor es mejor (en la mayoría de las implementaciones, de todos modos). No se necesitan más ajustes.

Realmente desea evitar los métodos automatizados de selección de modelos, si es posible. Si debe usar uno, pruebe LASSO o LAR.

Peter Flom - Restablece a Monica
fuente
2
Gracias por la respuesta. Sí, tiene usted razón. AIC no aplica ninguna prueba, en su lugar, proporciona una medida simple de qué tan bueno se ajusta el modelo a la muestra y si el modelo también puede mantenerse simple, al agregar la probabilidad de loglitud -2 * con 2 * número_de_parámetros. ¿Quizás esto explica por qué las variables con valores p no significativos se mantuvieron en el modelo seleccionado?
tiantianchen
¿Qué modelo deberíamos elegir si tenemos dos modelos con AIC casi idénticos, pero en uno tenemos términos más significativos que en el otro?
Agus Camacho
Lo que quieras.
Peter Flom - Restablece a Monica
11

De hecho, el uso de AIC para la selección escalonada de una sola variable a la vez es (al menos asintóticamente) equivalente a la selección escalonada utilizando un punto de corte para valores p de aproximadamente el 15,7%. (Esto es bastante simple de mostrar: el AIC para el modelo más grande será más pequeño si reduce la probabilidad logarítmica en más de la penalización por el parámetro adicional de 2; esto corresponde a elegir el modelo más grande si el valor p en un Wald chi-square es más pequeño que el área de la cola de un más allá de 2 ... que es 15.7%)χ12

Por lo tanto, no es sorprendente si lo compara con el uso de un valor de corte más pequeño para los valores de p que a veces incluye variables con valores de p más altos que ese valor de corte.

Glen_b -Reinstate a Monica
fuente
¿me puede indicar una url o referencia para la conexión entre AIC y los valores p a través de Wal chi-square? Gracias.
meh
Esto es relativamente fácil de mostrar usando el valor de 2 como valor crítico, que corresponde a un umbral de valor p de 15.73% (cuando los grados de libertad de la prueba son 1, como es el caso en la selección por pasos usando regresión lineal modelos y variables continuas). Esto se puede calcular como 1-chi2cdf (2,1).
George
@aginensky No he visto una referencia real, aunque la conexión es sencilla. Me imagino que puedo googlear uno, espera.
Glen_b -Reinstate Monica el
@aginensky Lindsey, JK & Jones, B. (1998) Elegir entre modelos lineales generalizados aplicados a datos médicos. Estadísticas en medicina , 17, 59-68. ... vea la mitad de la página 62. Habría más.
Glen_b -Reinstala a Mónica el
@ Glen_b- gracias, nunca había visto algo así antes.
meh
9

Tenga en cuenta que ni los valores p ni AIC se diseñaron para la selección del modelo por pasos, de hecho, los supuestos subyacentes a ambos (pero diferentes supuestos) se violan después del primer paso en una regresión por pasos. Como mencionó @PeterFlom, LASSO y / o LAR son mejores alternativas si siente la necesidad de una selección de modelo automatizada. Esos métodos tiran de las estimaciones que son grandes por casualidad (lo que recompensa por azar) hacia 0 y, por lo tanto, tienden a ser menos sesgadas que por etapas (y el sesgo restante tiende a ser más conservador).

Un gran problema con AIC que a menudo se pasa por alto es el tamaño de la diferencia en los valores de AIC, es muy común ver que "menos es mejor" y detenerse allí (y los procedimientos automatizados solo enfatizan esto). Si está comparando 2 modelos y tienen valores de AIC muy diferentes, existe una clara preferencia por el modelo con el AIC más bajo, pero a menudo tendremos 2 (o más) modelos con valores de AIC cercanos entre sí, en este caso usando solo el modelo con el valor AIC más bajo se perderá información valiosa (e inferir cosas sobre términos que están en este modelo o no, pero que difieren en otros modelos similares no tendrá sentido o peor). La información de fuera de los datos en sí (como cuán difícil / costoso) es recopilar el conjunto de variables predictoras) puede hacer que un modelo con AIC ligeramente más alto sea más deseable de usar sin mucha pérdida de calidad. Otro enfoque es usar un promedio ponderado de los modelos similares (esto probablemente dará como resultado predicciones finales similares a los métodos penalizados como la regresión de crestas o el lazo, pero el proceso de pensamiento que conduce al modelo podría ayudar a comprender).

Greg Snow
fuente
Gracias @GregSnow por tu respuesta. ¿Puedo preguntar cuáles son los supuestos (diferentes) para el valor p y la selección del modelo basado en AIC? ¿Aplicar una dirección bidireccional (hacia adelante / hacia atrás) o probar un subconjunto completo resolverá más o menos el problema de encontrar el modelo óptimo local de simple uso de una selección progresiva hacia adelante o hacia atrás? (aunque el problema del sobreajuste siempre existe en el método AIC / p-value y LASSO y / o LAR es una mejor opción)
tiantianchen
Dado que ni los valores p ni el AIC se diseñaron para la selección del modelo, no tienen supuestos para la selección del modelo. Ambos fueron diseñados para hacer una comparación única, piense en cuántas comparaciones tienen lugar en una regresión gradual, ¿realmente cree que se toma el "mejor" paso cada vez?
Greg Snow
@GregSnow. Mi referencia para aprender AIC fue esta: stat.cmu.edu/~larry/=stat705/Lecture16.pdf, que parece poner a AIC en el negocio de selección de modelos. Además, cuando vi que AIC se usaba en modelos arima de series de tiempo, siempre se usaba para la selección de modelos.
meh
@aginensky, Sí, AIC (y otros) se utilizan para la selección del modelo. Eso no significa que AIC fue designado para la selección del modelo, o que incluso es apropiado para la selección del modelo, o que la selección automática del modelo responde una pregunta significativa. He usado un destornillador como martillo antes, eso no significa que sea una buena idea en general.
Greg Snow
"Este documento describe cómo el problema de la selección del modelo estadístico puede manejarse sistemáticamente utilizando un criterio de información (AIC) introducido por el autor en 1971" de Akaike, "Una nueva mirada a la identificación del modelo estadístico". Entonces, incluso si AIC es un martillo utilizado en un problema que se soluciona mejor con un destornillador, fue la opinión del diseñador de este martillo, que un martillo era la forma correcta de resolver este problema. Correcta o incorrectamente, AIC fue diseñado para la selección del modelo. Estaría encantado de ver una vista diferente de AIC. Siéntase libre de responder esto, pero ya terminé.
meh
1

Mi experiencia con el AIC es que si las variables parecen no significativas, pero aún aparecen en el modelo con el AIC más pequeño, resultan ser posibles factores de confusión.

Te sugiero que compruebes si hay confusión. La eliminación de tales variables no significativas debería cambiar el magnetismo de algunos coeficientes estimados restantes en más del 25%.

Adiaba
fuente
Explique cómo OP "puede verificar si hay confusión".
Jim
0

Creo que la mejor selección de modelos es mediante el uso del paquete MuMIn. Este será un resultado único y no tiene que buscar los valores de AIC más bajos. Ejemplo:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]
Ravi Mohan Tiwari
fuente
2
Decir qué código puede usar no responde realmente a la pregunta a menos que pueda explicar cómo eso aborda la pregunta estadísticamente. En cualquier caso, nada en la pregunta es específico de un software en particular.
Nick Cox