Parece que estoy malentendido una afirmación sobre los métodos de regresión lineal que he visto en varios lugares. Los parámetros del problema son:
Entrada:
muestras de datos de cantidades de , cada una de las cuales consiste en una cantidad de "respuesta" y p cantidades de "predictor" x_ {ij}
El resultado deseado es un "buen ajuste lineal" que predice la respuesta en función de los predictores donde un buen ajuste tiene pequeñas diferencias entre la predicción y la respuesta observada (entre otros criterios).
Salida: coeficientes donde es un "buen ajuste" para predecir la cantidad de respuesta a partir de las cantidades de predictores.
Estoy confundido sobre el enfoque de "regresión de cresta" para este problema. En "Los elementos del aprendizaje estadístico" de Hastie, Tibshirani y Friedman, página 63, la regresión de la cresta se formula de dos maneras.
Primero como el problema de optimización restringida :
El segundo es el problema de optimización penalizado : para algún parámetro positivo .
El texto dice que estas formulaciones son equivalentes y que existe una "correspondencia uno a uno entre los parámetros y ". He visto este reclamo (y otros similares) en varios lugares además de este libro. Creo que me estoy perdiendo algo porque no entiendo cómo las formulaciones son equivalentes según lo entiendo.
Considere el caso donde y con , e , . Al elegir el parámetro la formulación restringida se convierte en:
expandido a
Para resolver esto, encuentre la solución donde las derivadas parciales con respecto a y son cero: con la solución y . Tenga en cuenta que según sea necesario.
¿Cómo se relaciona esta derivación con la otra formulación? De acuerdo con la explicación, hay un valor de corresponde únicamente a donde, si optimizamos la formulación penalizada del problema, obtendremos los mismos y . En este caso, la forma penalizada se convierte en expandido a Para resolver esto, encuentra la solución donde las derivadas parciales con respecto a
En resumen, estoy totalmente confundido por las dos presentaciones y no entiendo cómo se corresponden entre sí. No entiendo cómo puede optimizar un formulario y obtener la misma solución para el otro formulario o cómo está relacionado con . Esta es solo una instancia de este tipo de correspondencia, hay otras para otros enfoques como el lazo, y no entiendo ninguna de ellas.
Que alguien me ayude por favor.
fuente
Respuestas:
La confusión aquí proviene de tratar de trabajar en un rango de valores o donde no hay restricción en la regresión.t λ
En su ejemplo, en el ajuste perfecto de la línea de regresión, la suma de los cuadrados de los coeficientes de regresión es 1. Entonces, el valor de (o cualquier valor de que sea 1 o mayor) no impone restricciones a la regresión. En el espacio de valores , toda la regresión sin restricciones está representada por . No hay correspondencia uno a uno entre y en la regresión sin restricciones ; todos los valores de de 1 o mayores en este caso corresponden a . Esa fue la región que has estado investigando.t = 2 t λ λ = 0 t λ t λ = 0
Solo un valor de menor que 1 colocará una restricción en la regresión, correspondiente a los valores positivos de . Como muestra la respuesta aceptada a esta página , la correspondencia uno a uno entre y contiene " cuando la restricción es vinculante ", en su ejemplo para valores de menores que 1.t λ t λ t
fuente
La clásica regresión de cresta ( regularización de Tikhonov ) viene dada por:
La afirmación anterior es que el siguiente problema es equivalente:
Definamos como la solución óptima del primer problema y como la solución óptima del segundo problema.x^ x~
La afirmación de equivalencia significa que . Es decir, siempre puede tener un par de y , por lo que la solución del problema es la misma.∀t,∃λ≥0:x^=x~
t λ≥0
¿Cómo podemos encontrar un par?
Bueno, resolviendo los problemas y observando las propiedades de la solución.
Ambos problemas son convexos y suaves, por lo que debería simplificar las cosas.
La solución para el primer problema se da en el punto en que el gradiente desaparece, lo que significa:
Las condiciones de KKT del segundo problema establecen:
y
La última ecuación sugiere que o .μ=0 ∥x~∥22=t
Presta atención a que las 2 ecuaciones básicas son equivalentes.x^=x~ μ=λ
Es decir, si y ambas ecuaciones.
Entonces significa que en caso de que uno debe establecer que significa que para suficientemente grande para que ambos sean equivalentes, debe establecer .∥y∥22≤t μ=0 t λ=0
En el otro caso, uno debe encontrar donde:μ
Esto es básicamente cuando∥x~∥22=t
Una vez que usted encuentra que las soluciones chocará.μ
Con respecto al caso , bueno, funciona con la misma idea. La única diferencia es que no tenemos una solución cerrada, por lo tanto, derivar la conexión es más complicado.L1
Eche un vistazo a mi respuesta en StackExchange Cross Validated Q291962 y StackExchange Signal Processing Q21730 - Significado de en Basis Pursuitλ .
fuente