Estoy un poco desconcertado por una fórmula presentada en "Introducción al aprendizaje estadístico" de Hastie. En el Capítulo 6, página 212 (sexta impresión, disponible aquí ), se indica que:
Para modelos lineales con ruido gaussiano, es el número de predictores y es la estimación de la varianza del error. Sin embargo,
Que se indica en el Capítulo 3, página 66.
Lo que implicaría:
Lo que no puede ser correcto. ¿Alguien puede señalar lo que estoy haciendo incorrectamente?
regression
machine-learning
aic
Sue Doh Nimh
fuente
fuente
Respuestas:
Creo que estás confundiendo las dos sumas residuales de cuadrados que tienes. Tiene un RSS para estimar el en la fórmula, este RSS es en cierto sentido independiente del número de parámetros, . Este debe estimarse utilizando todas sus covariables, lo que le proporciona una unidad de error de referencia . Debe llamar al RSS en la fórmula de AIC : , lo que significa que corresponde al modelo con parámetros ( puede haber muchos modelos con parámetros ). Entonces, el RSS en la fórmula se calcula para un modelo específico, mientras que el RSS paraσ^2 pags σ^2 RSSpagsyo yo pags pags σ^2 es para el modelo completo.
Esto también se observa en la página anterior, donde se introduce para .σ^2 Cpags
Entonces, el RSS para la fórmula en AIC no es independiente de , se calcula para un modelo dado. Introducir a todo esto es solo tener una unidad de línea de base para el error, de modo que haya una comparación "justa" entre el número de parámetros y la reducción del error. Debe comparar el número de parámetros con algo que se escala con la magnitud del error.pags σ^2
Si no escala el RSS por el error de la línea de base, puede ser que el RSS caiga mucho más que el número de variables introducidas y, por lo tanto, se vuelva más codicioso al agregar más variables. Si lo escala a alguna unidad, la comparación con el número de parámetros es independiente de la magnitud del error de la línea de base.
Esta no es la forma general de calcular AIC, pero esencialmente se reduce a algo similar a esto en los casos en que es posible obtener versiones más simples de la fórmula.
fuente
Lamentablemente, esta será una respuesta bastante insatisfactoria ...
En primer lugar, por lo general, para el cálculo de AIC, utilizará la estimación de probabilidad máxima deσ2 lo cual sería parcial. Entonces eso se reduciría aσ2=RSSn y, en última instancia, el cálculo que haga se reduciría a 1+2dn . En segundo lugar, me referiría al artículo de Wikipedia sobre AIC, en particular en la sección de casos de equivalencia . Como puede ver, está claro que la mayoría de las derivaciones omiten una constanteC . Esta constante es irrelevante para fines de comparación de modelos, por lo que se omite. Es algo común ver derivaciones contradictorias de AIC debido exactamente a ese problema. Por ejemplo , el análisis estadístico multivariado aplicado de Johnson & Wichern , sexta edición, da a AIC como:nlog(RSSN)+2d (Capítulo 7.6), que claramente no equivale a la definición de James et al. Tu estas usando. Ninguno de los libros está equivocado per se . Solo personas que usan diferentes constantes. En el caso de James et al. Parece que el libro no alude a este punto. En otros libros, por ejemplo. El primer curso de Ravishanker y Dey en teoría de modelos lineales es aún más profundo a medida que los autores escriben:
que curiosamente tampoco puede ser concurrentemente cierto. Como escriben el capítulo 2.2 de Burnham y Anderson (1998) : " En el caso especial de la estimación de mínimos cuadrados (LS) con errores distribuidos normalmente, y aparte de una constante aditiva arbitraria, AIC puede expresarse como una función simple de la suma residual de cuadrados . "; B&A sugiere la misma variante AIC que utiliza J&W. Lo que te confunde es esa constante particular (y el hecho de que no estabas usando la estimación de ML para los residuos). Al observar el Reconocimiento de patrones y el aprendizaje automático de M. Bishop (2006) , encuentro una definición aún más contradictoria como:
lo cual es gracioso porque no solo omite el multiplicador del documento original, sino que también deja caer las señales para que pueda usar la selección basada en AIC como un problema de maximización ...
Yo recomendaría seguir con la antigua definición−2log(L)+2p si quieres hacer derivaciones teóricas. Este es el que Akaike afirma en su artículo original. Todas las otras fórmulas intermedias tienden a ser desordenadas y / o hacen algunas suposiciones implícitas. Si te sirve de consuelo, "no hiciste nada malo".
fuente