Soy nuevo en esta cosa R pero no estoy seguro de qué modelo seleccionar.
Hice una regresión progresiva hacia adelante seleccionando cada variable en función del AIC más bajo. Se me ocurrieron 3 modelos que no estoy seguro de cuál es el "mejor".
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
Me inclino por el Modelo # 3 porque tiene el AIC más bajo (escuché que el negativo está bien) y los valores p aún son bastante bajos.
Ejecuté 8 variables como predictores de Hatchling Mass y descubrí que estas tres variables son los mejores predictores.
Mi próximo paso adelante elijo el Modelo 2 porque, aunque el AIC era ligeramente mayor, los valores de p eran todos más pequeños. ¿Estás de acuerdo en que esto es lo mejor?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
¡Gracias!
Respuestas:
AIC es una medida de bondad de ajuste que favorece un error residual más pequeño en el modelo, pero penaliza por incluir predictores adicionales y ayuda a evitar el sobreajuste. En su segundo conjunto de modelos, el modelo 1 (el que tiene el AIC más bajo) puede funcionar mejor cuando se usa para la predicción fuera de su conjunto de datos. Una posible explicación de por qué agregar Var4 al modelo 2 da como resultado un AIC más bajo, pero valores de p más altos es que Var4 está algo correlacionado con Var1, 2 y 3. La interpretación del modelo 2 es, por lo tanto, más fácil.
fuente
Mirar los valores p individuales puede ser engañoso. Si tiene variables que son colineales (tienen alta correlación), obtendrá valores p grandes. Esto no significa que las variables sean inútiles.
Como regla general, seleccionar su modelo con los criterios AIC es mejor que mirar los valores p.
Una razón por la que uno no puede seleccionar el modelo con el AIC más bajo es cuando su relación de variable a punto de datos es grande.
Tenga en cuenta que la selección del modelo y la precisión de la predicción son problemas algo distintos. Si su objetivo es obtener predicciones precisas, sugeriría validar de forma cruzada su modelo separando sus datos en un conjunto de entrenamiento y prueba.
Un artículo sobre selección variable: Conjuntos estocásticos escalonados para selección variable
fuente
AIC está motivado por la estimación del error de generalización (como el CP de Mallow, BIC, ...). Si desea el modelo para las predicciones, mejor utilice uno de estos criterios. Si desea que su modelo explique un fenómeno, use valores p.
Además, mira aquí .
fuente