AIC de regresión de cresta: grados de libertad frente a número de parámetros

Quiero calcular el AICc de un modelo de regresión de cresta. El problema es el número de parámetros. Para la regresión lineal, la mayoría de las personas sugiere que el número de parámetros es igual al número de coeficientes estimados más sigma (la varianza del error).

Cuando se trata de regresión de crestas, leí que el rastro de la matriz del sombrero, el grado de libertad (df), simplemente se usa como el término de número de parámetros en la fórmula AIC (por ejemplo, aquí o aquí ).

¿Es esto correcto? ¿Puedo simplemente usar el df para calcular el AICc? ¿Puedo simplemente agregar +1 al df para tener en cuenta la variación de error?

regression aic ridge-regression degrees-of-freedom Julian
fuente

Me gusta esta pregunta porque las entradas generales para AICc son RSS, k y n, pero tiende a no seleccionar modelos robustos sobre modelos de menor error para el mismo número de parámetros. Si utiliza el mismo enfoque de ajuste para los modelos candidatos y está ajustando los mismos datos, la selección de modelo es la selección de modelo. Me gusta la pregunta de cómo se mide mejor el ajuste teórico de la información con el mismo modelo y datos, pero utilizando diferentes tipos de ajuste, como el error de mínimos cuadrados y la pérdida de Huber.

EngrStudent - Restablece a Mónica el

@EngrStudent, solo una pequeña nota: RSS es un caso especial de probabilidad normal. Cuando se supone una distribución diferente (no normal), el AIC no contendrá RSS, sino la probabilidad logarítmica del modelo. Además, los tipos de ajuste : ¿se refiere a las funciones de pérdida mediante las cuales se evalúa el modelo o la función de pérdida utilizada para ajustar el modelo, o algo más?

Richard Hardy

Ver: web.mit.edu/lrosasco/www/publications/model_focm.pdf

kjetil b halvorsen

@ RichardHardy - ¡Tienes razón acerca de la probabilidad normal! En la práctica, el teorema del límite central se sobreutiliza. En este caso, significó lo mismo cuando dije "función de ajuste" y usted dice "función de pérdida". Pienso en los mínimos cuadrados en términos de pseudo-inversas primero y métricas de error en segundo lugar. Es un artefacto de "secuencia de aprendizaje" en mis procesos de pensamiento y comunicación.

EngrStudent - Restablece a Monica el

@EngrStudent, gracias. También tenga en cuenta que ofrecí dos usos para una función de pérdida: ajuste (función objetiva empírica de la que se deriva un estimador) y evaluación (función objetivo teórica que deseamos optimizar).

Richard Hardy

Respuestas:

AIC y la regresión de cresta pueden hacerse compatibles cuando se hacen ciertas suposiciones. Sin embargo, no existe un método único para elegir una contracción para la regresión de crestas, por lo tanto, no existe un método general para aplicar AIC. La regresión de cresta es un subconjunto de la regularización de Tikhonov . Hay muchos criterios que se pueden aplicar para seleccionar los factores de suavizado para la regularización de Tikhonov, por ejemplo, vea esto . Para usar AIC en ese contexto, hay un documento que hace suposiciones bastante específicas sobre cómo realizar esa regularización, selección de parámetros de regularización basada en la complejidad de la información para la solución de problemas inversos mal condicionados . En concreto, esto supone

"En un marco estadístico, ... eligiendo el valor del parámetro de regularización α , y utilizando el método de máxima probabilidad penalizada (MPL) ... Si consideramos el ruido gaussiano no correlacionado con varianza y usamos la penalización una norma complicada, vea el enlace de arriba , la solución MPL es la misma que la solución regularizada de Tikhonov (1963) ". $\sigma ^2$ $p(x) =$

La pregunta entonces es, ¿deberían hacerse esas suposiciones? La cuestión de los grados de libertad necesarios es secundaria a la cuestión de si AIC y la regresión de cresta se utilizan o no en un contexto coherente. Sugeriría leer el enlace para más detalles. No estoy evitando la pregunta, es solo que uno puede usar muchas cosas como objetivos de cresta, por ejemplo, uno podría usar el factor de suavizado que optimiza el AIC . Entonces, una buena pregunta merece otra, "¿Por qué molestarse con AIC en un contexto de cresta?" En algunos contextos de regresión de crestas, es difícil ver cómo AIC podría hacerse relevante. Por ejemplo, se aplicó la regresión de cresta para minimizar la propagación de error relativo de , es decir, min $b$ $\left [ \dfrac{\text{SD}(b)}{b}\right ]$ de la distribución gamma (GD) dada por

GD (t; a, b) = \frac{1}{t} \frac{e^{- b t} (b t)^{a}}{Γ (a)}; t \geq 0,

$\text{GD}(t; a,b) = \,\dfrac{1}{t}\;\dfrac{e^{-b \, t}(b \, t)^{\,a} }{\Gamma (a)} \;\; \;;\hspace{2em}t\geq 0 \;\; \;\;,\\ %\tabularnewline$

$[0,\infty)$ $[t_1,t_n]$ muestras de tiempo. Para ser claros, eso se hace porque el AUC es una integral mal planteada y, de lo contrario, por ejemplo, usando ML, el ajuste de distribución gamma carecería de robustez. Por lo tanto, para esa aplicación en particular, la máxima probabilidad, por lo tanto, AIC, es realmente irrelevante. (Se dice que AIC se usa para la predicción y BIC para la bondad de ajuste. Sin embargo, la predicción y la bondad de ajuste están relacionadas de manera indirecta con una medida sólida de AUC).

$df$ $\lambda$ $df = p$ $\lambda = 0$ $df = 0$ $\lambda=\infty$ $df$ $df$ $\infty$ $df$

$df_{ridge}= \sum(\lambda_i / (\lambda_i + \lambda$ $\lambda_i$ $X^{\text{T}} X$ $df$

Carl
fuente