La regresión de cresta estima los parámetros en un modelo lineal by dondeß λ = ( X ⊤ X + λ I ) - 1 X ⊤ y , λ
Un teorema de existencia para la regresión de crestas dice que siempre existe un parámetro tal que el error cuadrático medio de es estrictamente más pequeño que el error cuadrático medio de la MCO estimación . En otras palabras, un valor óptimo de siempre es distinto de cero. Aparentemente, esto se demostró por primera vez en Hoerl y Kennard, 1970, y se repite en muchas notas de conferencias que encuentro en línea (por ejemplo, aquí y aquí ). Mi pregunta es sobre los supuestos de este teorema:β λ β O L S = β 0 λ
¿Hay alguna suposición sobre la matriz de covarianza ?
¿Hay alguna suposición sobre la dimensionalidad de ?
En particular, ¿el teorema sigue siendo cierto si los predictores son ortogonales (es decir, es diagonal), o incluso si \ mathbf X ^ \ top \ mathbf X = \ mathbf I ? ¿Y sigue siendo cierto si solo hay uno o dos predictores (por ejemplo, un predictor y una intercepción)?X ⊤ X = I
Si el teorema no hace tales suposiciones y sigue siendo cierto incluso en estos casos, entonces ¿por qué la regresión de cresta generalmente se recomienda solo en el caso de predictores correlacionados, y nunca (?) Se recomienda para una regresión simple (es decir, no múltiple)?
Esto está relacionado con mi pregunta sobre la visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos? , pero no hay respuestas que aclaren este punto hasta ahora.
fuente
Respuestas:
La respuesta a ambos 1 y 2 es no, pero se necesita cuidado al interpretar el teorema de la existencia.
Varianza del estimador de cresta
Sea la estimación de cresta bajo penalización k , y sea β el parámetro verdadero para el modelo Y = X β + ϵ . Deje que λ 1 , ... , λ p sea los valores propios de X T X . De las ecuaciones de Hoerl y Kennard 4.2-4.5, el riesgo (en términos de la norma L 2 esperada del error) esβ∗^ k β Y=Xβ+ϵ λ1,…,λp XTX
L2
donde, por lo que puedo decir, ( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. Observan queγ1tiene la interpretación de la varianza del producto interno de ^ β ∗ -β, mientras queγ2
Suponiendo que , entonces R ( k ) = p σ 2 + k 2 β T βXTX=Ip
Sea
R′(k)=2k(1+k)βTβ-(pσ2+k2βTβ)
Comentario
¿Por qué la regresión de cresta generalmente se recomienda solo en el caso de predictores correlacionados?
Pero si su objetivo es únicamente la predicción, las preocupaciones de inferencia ya no se mantienen, y usted tiene un fuerte argumento para usar algún tipo de estimador de contracción.
fuente