Tengo algunas preguntas sobre el AIC y espero que me puedan ayudar. Apliqué la selección del modelo (hacia atrás o hacia adelante) según el AIC en mis datos. Y algunas de las variables seleccionadas terminaron con valores p> 0.05. Sé que la gente dice que deberíamos seleccionar modelos basados en el AIC en lugar del valor p, por lo que parece que el AIC y el valor p son dos conceptos diferentes. ¿Alguien podría decirme cuál es la diferencia? Lo que entiendo hasta ahora es que:
Para la selección hacia atrás usando el AIC, supongamos que tenemos 3 variables (var1, var2, var3) y el AIC de este modelo es AIC *. Si excluir cualquiera de estas tres variables no terminara con un AIC que es significativamente menor que el AIC * (en términos de distribución ch-cuadrado con df = 1), entonces diríamos que estas tres variables son los resultados finales.
Un valor p significativo para una variable (por ejemplo, var1) en un modelo de tres variables significa que el tamaño del efecto estandarizado de esa variable es significativamente diferente de 0 (según Wald, o prueba t).
¿Cuál es la diferencia fundamental entre estos dos métodos? ¿Cómo lo interpreto si hay algunas variables que tienen valores p no significativos en mi mejor modelo (obtenido a través del AIC)?
fuente
De hecho, el uso de AIC para la selección escalonada de una sola variable a la vez es (al menos asintóticamente) equivalente a la selección escalonada utilizando un punto de corte para valores p de aproximadamente el 15,7%. (Esto es bastante simple de mostrar: el AIC para el modelo más grande será más pequeño si reduce la probabilidad logarítmica en más de la penalización por el parámetro adicional de 2; esto corresponde a elegir el modelo más grande si el valor p en un Wald chi-square es más pequeño que el área de la cola de un más allá de 2 ... que es 15.7%)χ21
Por lo tanto, no es sorprendente si lo compara con el uso de un valor de corte más pequeño para los valores de p que a veces incluye variables con valores de p más altos que ese valor de corte.
fuente
Tenga en cuenta que ni los valores p ni AIC se diseñaron para la selección del modelo por pasos, de hecho, los supuestos subyacentes a ambos (pero diferentes supuestos) se violan después del primer paso en una regresión por pasos. Como mencionó @PeterFlom, LASSO y / o LAR son mejores alternativas si siente la necesidad de una selección de modelo automatizada. Esos métodos tiran de las estimaciones que son grandes por casualidad (lo que recompensa por azar) hacia 0 y, por lo tanto, tienden a ser menos sesgadas que por etapas (y el sesgo restante tiende a ser más conservador).
Un gran problema con AIC que a menudo se pasa por alto es el tamaño de la diferencia en los valores de AIC, es muy común ver que "menos es mejor" y detenerse allí (y los procedimientos automatizados solo enfatizan esto). Si está comparando 2 modelos y tienen valores de AIC muy diferentes, existe una clara preferencia por el modelo con el AIC más bajo, pero a menudo tendremos 2 (o más) modelos con valores de AIC cercanos entre sí, en este caso usando solo el modelo con el valor AIC más bajo se perderá información valiosa (e inferir cosas sobre términos que están en este modelo o no, pero que difieren en otros modelos similares no tendrá sentido o peor). La información de fuera de los datos en sí (como cuán difícil / costoso) es recopilar el conjunto de variables predictoras) puede hacer que un modelo con AIC ligeramente más alto sea más deseable de usar sin mucha pérdida de calidad. Otro enfoque es usar un promedio ponderado de los modelos similares (esto probablemente dará como resultado predicciones finales similares a los métodos penalizados como la regresión de crestas o el lazo, pero el proceso de pensamiento que conduce al modelo podría ayudar a comprender).
fuente
Mi experiencia con el AIC es que si las variables parecen no significativas, pero aún aparecen en el modelo con el AIC más pequeño, resultan ser posibles factores de confusión.
Te sugiero que compruebes si hay confusión. La eliminación de tales variables no significativas debería cambiar el magnetismo de algunos coeficientes estimados restantes en más del 25%.
fuente
Creo que la mejor selección de modelos es mediante el uso del paquete MuMIn. Este será un resultado único y no tiene que buscar los valores de AIC más bajos. Ejemplo:
fuente