¿Cómo encontrar coeficientes de regresión en regresión de cresta?

14

En la regresión de cresta, la función objetivo a minimizar es:

RSS+λβj2.

¿Se puede optimizar esto utilizando el método multiplicador de Lagrange? ¿O es una diferenciación directa?

Minaj
fuente
1
¿Cuál es la conexión entre el título (que se enfoca en λ ) y la pregunta (que parece ser solo sobre βj )? Me preocupa que "ser optimizado" podría tener interpretaciones claramente diferentes dependiendo de qué variables se consideran las que se pueden variar y cuáles se deben corregir.
whuber
1
Gracias modificó la pregunta. He leído que la se encuentra por validación cruzada, pero creo que eso significa que ya tiene la β j y utiliza datos diferentes para encontrar la mejor λ La pregunta es: ¿cómo se encuentran las β j en primer lugar? cuando λ es un desconocido? λβjλβjλ
Minaj

Respuestas:

22

Hay dos formulaciones para el problema de la cresta. El primero es

βR=argminβ(yXβ)(yXβ)

sujeto a

jβj2s.

Esta formulación muestra la restricción de tamaño en los coeficientes de regresión. Tenga en cuenta lo que implica esta restricción; Estamos obligando a los coeficientes a descansar en una bola alrededor del origen con radio .s

La segunda formulación es exactamente tu problema

βR=argminβ(yXβ)(yXβ)+λβj2

que puede verse como la formulación del multiplicador Largrange. Tenga en cuenta que aquí es un parámetro de ajuste y sus valores más grandes conducirán a una mayor contracción. Puede proceder a diferenciar la expresión con respecto a β y obtener el conocido estimador de crestaλβ

(1)βR=(XX+λI)1Xy

Las dos formulaciones son completamente equivalentes , ya que existe una correspondencia uno-a-uno entre y λ .sλ

Déjame explicar un poco sobre eso. Imagine que usted es en el caso ortogonal ideales, . Esta es una situación altamente simplificada y poco realista, pero podemos investigar el estimador un poco más de cerca, así que tengan paciencia conmigo. Considere lo que le sucede a la ecuación (1). El estimador de cresta se reduce aXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

como en el caso ortogonal, el estimador OLS está dado por . Mirando este componente sabio ahora obtenemosβOLS=Xy

(2)βR=βOLS1+λ

Observe entonces que ahora la contracción es constante para todos los coeficientes. Es posible que esto no se cumpla en el caso general y, de hecho, se puede demostrar que las contracciones diferirán ampliamente si hay degeneraciones en la matriz XX

Pero volvamos al problema de optimización restringida. Según la teoría KKT , una condición necesaria para la optimización es

λ(βR,j2s)=0

entonces o β 2 R , j - s = 0 (en este caso decimos que la restricción es vinculante). Si λ = 0, entonces no hay penalización y estamos de vuelta en la situación normal de OLS. Supongamos entonces que la restricción es vinculante y estamos en la segunda situación. Usando la fórmula en (2), entonces tenemosλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

de donde obtenemos

λ=βOLS,j2s1

la relación uno a uno previamente reclamada. Espero que esto sea más difícil de establecer en el caso no ortogonal, pero el resultado es independiente.

Sin embargo, vuelva a mirar (2) y verá que todavía nos falta la . Para obtener un valor óptimo, puede usar validación cruzada o mirar el rastro de cresta. El último método implica construir una secuencia de λ en (0,1) y observar cómo cambian las estimaciones. Luego selecciona el λ que los estabiliza. Por cierto, este método se sugirió en la segunda de las referencias a continuación y es el más antiguo.λλλ

Referencias

Hoerl, Arthur E. y Robert W. Kennard. "Regresión de cresta: estimación sesgada para problemas no ortogonales". Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. y Robert W. Kennard. "Regresión de cresta: aplicaciones a problemas no ortogonales". Technometrics 12.1 (1970): 69-82.

JohnK
fuente
2
La regresión de @Minaj Ridge tiene una contracción constante para todos los coeficientes (excepto la intersección). Es por eso que solo hay un multiplicador.
JohnK
2
@amoeba Esta es una sugerencia de Hoerl y Kennard, las personas que introdujeron la regresión de crestas en la década de 1970. Según su experiencia, y la mía, los coeficientes se estabilizarán en ese intervalo incluso con grados extremos de multicolinealidad. Por supuesto, esta es una estrategia empírica y, por lo tanto, no se garantiza que funcione todo el tiempo.
JohnK
2
También podría hacer el método de pseudoobservación y obtener las estimaciones con nada más complicado que un programa de regresión de mínimos cuadrados rectos. También puede investigar el efecto de cambiar de manera similar. λ
Glen_b: reinstala a Mónica el
2
@amoeba Es cierto que la cresta no es invariante de escala, por eso es una práctica común estandarizar los datos de antemano. He incluido las referencias relevantes en caso de que quiera echar un vistazo. Son inmensamente interesantes y no tan técnicos.
JohnK
2
@JohnK, en efecto, la regresión de cresta reduce cada en una cantidad diferente, por lo que la contracción no es constante a pesar de que solo hay un parámetro de contracción λ . βλ
Frank Harrell
4

λβ^rmspentraceλ

Frank Harrell
fuente
1
λ
No he estudiado eso. LOOCV requiere muchos cálculos.
Frank Harrell
No si se usa la fórmula explícita: stats.stackexchange.com/questions/32542 .
ameba dice Reinstate Monica
1
Esa fórmula funciona para el caso especial de OLS, no para la máxima probabilidad en general. Pero hay una fórmula aproximada que usa residuos de puntaje. Sin embargo, me doy cuenta de que estamos hablando principalmente de OLS en esta discusión.
Frank Harrell
1

No lo hago analíticamente, sino numéricamente. Usualmente trazo RMSE vs. λ como tal:

enter image description here

Figura 1. RMSE y la constante λ o alfa.

Lennart
fuente
λβjλ