Después de leer "Explicar o predecir " de Galit Shmueli (2010), me sorprende una aparente contradicción. Hay tres premisas,
- Elección del modelo basado en AIC versus BIC (final de p. 300 - comienzo de p. 301): simplemente, AIC debe usarse para seleccionar un modelo destinado a predicción, mientras que BIC debe usarse para seleccionar un modelo para explicación . Además (no en el documento anterior), sabemos que bajo ciertas condiciones BIC selecciona el modelo verdadero entre el conjunto de modelos candidatos; El verdadero modelo es lo que buscamos en el modelado explicativo (final de la pág. 293).
- Aritmética simple: AIC seleccionará un modelo más grande que BIC para muestras de tamaño 8 o más grande (satisfactoria debido a las diferentes penalidades de complejidad en AIC versus BIC).
- El modelo "verdadero" (es decir, el modelo con los regresores correctos y la forma funcional correcta pero los coeficientes estimados de manera imperfecta) puede no ser el mejor modelo para la predicción (p. 307): un modelo de regresión con un predictor faltante puede ser un mejor modelo de pronóstico - la introducción del sesgo debido al predictor faltante puede verse compensada por la reducción de la varianza debido a la imprecisión de la estimación.
Los puntos 1. y 2. sugieren que los modelos más grandes pueden ser mejores para la predicción que los modelos más parsimoniosos. Mientras tanto, el punto 3. da un ejemplo opuesto donde un modelo más parsimonioso es mejor para la predicción que un modelo más grande. Esto me parece desconcertante.
Preguntas:
- ¿Cómo puede la aparente contradicción entre los puntos {1. y 2.} y 3. ser explicado / resuelto?
- A la luz del punto 3., ¿podría dar una explicación intuitiva de por qué y cómo un modelo más grande seleccionado por AIC es realmente mejor para la predicción que un modelo más parsimonioso seleccionado por BIC?
forecasting
model-selection
feature-selection
aic
bic
Richard Hardy
fuente
fuente
Respuestas:
No deben tomarse en el mismo contexto; los puntos 1 y 2 tienen contextos diferentes. Tanto para AIC como para BIC, primero se explora qué combinación de parámetros en qué número producen los mejores índices (algunos autores tienen ajustes epilépticos cuando uso la palabra índiceen este contexto. Ignórelos o busque el índice en el diccionario.) En el punto 2, AIC es el modelo más rico, donde más rico significa seleccionar modelos con más parámetros, solo a veces, porque con frecuencia el modelo AIC óptimo es el mismo número de parámetros que el modelo BIC. selección. Es decir, si AIC y BIC seleccionan modelos que tienen el MISMO número de parámetros, entonces la afirmación es que AIC será mejor para la predicción que BIC. Sin embargo, lo contrario podría ocurrir si BIC se maximiza con un modelo de menos parámetros seleccionado (pero sin garantías). Sober (2002) concluyó que AIC mide la precisión predictiva mientras que BIC mide la bondad de ajuste, donde la precisión predictiva puede significar predecir y fuera del rango de valores extremos de x. Cuando afuera con frecuencia, un AIC menos óptimo que tiene parámetros de predicción débilmente caídos predecirá mejor los valores extrapolados que un índice AIC óptimo de más parámetros en su modelo seleccionado. De paso, noto que AIC y ML no obvian la necesidad de pruebas de error de extrapolación, que es una prueba separada para los modelos. Esto se puede hacer reteniendo valores extremos del conjunto de "entrenamiento" y calculando el error entre el modelo extrapolado "post-entrenamiento" y los datos retenidos.
Ahora BIC supuestamente es un predictor de error menor de los valores de y dentro de los valores extremos del rango de x . La bondad de ajuste mejorada a menudo tiene el precio del sesgo de la regresión (para la extrapolación), en el que el error se reduce al introducir ese sesgo. Esto, por ejemplo, a menudo aplana la pendiente para dividir el signo del promedio de los versos izquierdos a la derechaF( x ) - y residuos (piense en más residuos negativos en un lado y más residuos positivos en el otro) reduciendo así el error total. Entonces, en este caso, estamos pidiendo el mejor valor de y dado un valor de x, y para AIC estamos pidiendo más de cerca una mejor relación funcional entre x e y. Una diferencia entre estos es, por ejemplo, que BIC, si otras opciones de parámetros son iguales, tendrá un mejor coeficiente de correlación entre el modelo y los datos, y AIC tendrá un mejor error de extrapolación medido como error de valor y para un valor x extrapolado dado.
El punto 3 es una declaración a veces bajo ciertas condiciones.
cuando los datos son muy ruidosos (gran );σ
cuando los valores absolutos verdaderos de los parámetros excluidos (en nuestroβ2
ejemplo ) son pequeños;
cuando los predictores están altamente correlacionados; y
cuando el tamaño de la muestra es pequeño o el rango de variables excluidas es pequeño.
En la práctica, una forma correcta de una ecuación no significa que ajustarse a ella producirá los valores correctos de los parámetros debido al ruido, y cuanto más ruido, mejor. Lo mismo sucede con R versus R ajustado y alta colinealidad. Es decir, a veces, cuando se agrega un parámetro, R degrada mientras que R mejora.2 2 22 2
Me apresuraría a señalar que estas declaraciones son optimistas. Por lo general, los modelos son incorrectos y, a menudo, un modelo mejor impondrá una norma que no se puede usar con AIC o BIC, o se supone que la estructura residual es incorrecta para su aplicación, y se necesitan medidas alternativas. En mi trabajo, este es siempre el caso.
fuente