AIC o valor p: ¿cuál elegir para la selección del modelo?

22

Soy nuevo en esta cosa R pero no estoy seguro de qué modelo seleccionar.

  1. Hice una regresión progresiva hacia adelante seleccionando cada variable en función del AIC más bajo. Se me ocurrieron 3 modelos que no estoy seguro de cuál es el "mejor".

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Me inclino por el Modelo # 3 porque tiene el AIC más bajo (escuché que el negativo está bien) y los valores p aún son bastante bajos.

    Ejecuté 8 variables como predictores de Hatchling Mass y descubrí que estas tres variables son los mejores predictores.

  2. Mi próximo paso adelante elijo el Modelo 2 porque, aunque el AIC era ligeramente mayor, los valores de p eran todos más pequeños. ¿Estás de acuerdo en que esto es lo mejor?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

¡Gracias!

Mel
fuente
¿Podría decirnos la diferencia entre (1) y (2)? Claramente, algo cambió, porque el Modelo 3 en (1) y el Modelo 2 en (2) son nominalmente idénticos, pero los valores p y AIC difieren.
whuber
2
Esta pregunta se ha vuelto a publicar dos veces, lo que significa que no solo tenemos que cerrarlas, sino también las respuestas asociadas que ya se le proporcionaron. ¿Podría registrar su cuenta (consulte las preguntas frecuentes ) y prestar atención a la política de publicación de StackExchange en el futuro? Gracias.
chl
@whuber, me temo que no entiendo tu pregunta por completo. Probablemente sea mi falta de comprensión estadística. Pero para tratar de aclarar. El modelo 1 tiene 4 variables, el modelo 2 tiene 3 variables y el modelo 3 tiene 2 variables. Las variables están en el mismo orden en cada modelo (es decir, variable uno = temp en cada modelo). Creo que @GaBorgulya y @djma respondieron mi pregunta perfectamente. La variable 4 está correlacionada con la variable 3. AH-HA! Tiene sentido. muchas gracias!
MEL
He convertido tu respuesta al comentario anterior. Si cree que una de las respuestas actuales le ayudó o respondió a su pregunta, no olvide aceptarla, como le recordó amablemente @richiemorrisroe. Por cierto, es bueno verte registrado tu cuenta.
chl

Respuestas:

23

AIC es una medida de bondad de ajuste que favorece un error residual más pequeño en el modelo, pero penaliza por incluir predictores adicionales y ayuda a evitar el sobreajuste. En su segundo conjunto de modelos, el modelo 1 (el que tiene el AIC más bajo) puede funcionar mejor cuando se usa para la predicción fuera de su conjunto de datos. Una posible explicación de por qué agregar Var4 al modelo 2 da como resultado un AIC más bajo, pero valores de p más altos es que Var4 está algo correlacionado con Var1, 2 y 3. La interpretación del modelo 2 es, por lo tanto, más fácil.

GaBorgulya
fuente
31

Mirar los valores p individuales puede ser engañoso. Si tiene variables que son colineales (tienen alta correlación), obtendrá valores p grandes. Esto no significa que las variables sean inútiles.

Como regla general, seleccionar su modelo con los criterios AIC es mejor que mirar los valores p.

Una razón por la que uno no puede seleccionar el modelo con el AIC más bajo es cuando su relación de variable a punto de datos es grande.

Tenga en cuenta que la selección del modelo y la precisión de la predicción son problemas algo distintos. Si su objetivo es obtener predicciones precisas, sugeriría validar de forma cruzada su modelo separando sus datos en un conjunto de entrenamiento y prueba.

Un artículo sobre selección variable: Conjuntos estocásticos escalonados para selección variable

djma
fuente
44
Si su objetivo es la precisión de la predicción, desea utilizar AIC (ya que minimiza la divergencia KL esperada entre el modelo ajustado y la verdad). Si desea un procedimiento de selección de modelo consistente (fijo p, creciendo n), puede usar, digamos, BIC en su lugar. El uso de valores p en la regresión gradual para seleccionar hipótesis es definitivamente no recomendado.
emakalic
8
0,154El |tEl |>Iniciar sesión(norte)
-3

AIC está motivado por la estimación del error de generalización (como el CP de Mallow, BIC, ...). Si desea el modelo para las predicciones, mejor utilice uno de estos criterios. Si desea que su modelo explique un fenómeno, use valores p.

Además, mira aquí .

JohnRos
fuente