Cuando se explica la regresión de LASSO, a menudo se usa el diagrama de un diamante y un círculo. Se dice que debido a que la forma de la restricción en LASSO es un diamante, la solución de mínimos cuadrados obtenida podría tocar la esquina del diamante de modo que conduzca a una contracción de alguna variable. Sin embargo, en la regresión de crestas, debido a que es un círculo, a menudo no tocará el eje. No podía entender por qué no puede tocar el eje o tal vez tener una probabilidad menor que LASSO para reducir ciertos parámetros. Además de eso, ¿por qué LASSO y la cresta tienen una varianza menor que los mínimos cuadrados ordinarios? Lo anterior es mi comprensión de Ridge y LASSO y podría estar equivocado. ¿Alguien puede ayudarme a entender por qué estos dos métodos de regresión tienen una varianza menor?
fuente
Respuestas:
Esto se refiere a la varianza
OLS proporciona lo que se llama el mejor estimador imparcial lineal (AZUL) . Eso significa que si toma cualquier otro estimador imparcial, seguramente tendrá una mayor varianza que la solución OLS. Entonces, ¿por qué deberíamos considerar algo más que eso?
Ahora el truco con la regularización, como el lazo o la cresta, es agregar un sesgo a su vez para tratar de reducir la varianza. Porque cuando usted estima que su error de predicción, es una combinación de tres cosas :
Entonces, ¿qué es esto ? Es la varianza introducida en las estimaciones para los parámetros en su modelo. El modelo lineal tiene la forma y = X β + ϵ ,Var [ f^( x ) ) ]
Para obtener la solución OLS resolvemos el problema de minimización
arg min β | El | y - X β | El | 2
Esto proporciona la solución
β OLS = ( X T X ) - 1 X T y
el problema de minimización para la regresión cresta es similar:
arg min β | El | y - X β | El |
No estoy seguro si puedo proporcionar una respuesta más clara que esta. Todo esto se reduce a la matriz de covarianza para los parámetros en el modelo y la magnitud de los valores en esa matriz de covarianza.
Tomé la regresión de cresta como ejemplo, porque eso es mucho más fácil de tratar. El lazo es mucho más difícil y todavía hay una investigación activa en curso sobre ese tema.
Estas diapositivas proporcionan más información y este blog también tiene información relevante.
EDIT: ¿Qué quiero decir que mediante la adición de la cresta el determinante se " retiró " lejos de cero?
Aquí hay un código R para ilustrar esto:
Lo que da los resultados:
Entonces, todos los valores propios se desplazan exactamente 3.
También puede probar esto en general utilizando el teorema del círculo de Gershgorin . Allí, los centros de los círculos que contienen los valores propios son los elementos diagonales. Siempre puede agregar "suficiente" al elemento diagonal para hacer todos los círculos en el semiplano real positivo. Ese resultado es más general y no es necesario para esto.
fuente
Regresión de cresta
L2 = (y-xβ) ^ 2 + λ∑βi ^ 2
Resolverá esta ecuación solo para un β por ahora y luego puede generalizar esto:
Entonces, (y-xβ) ^ 2 + λβ ^ 2 esta es nuestra ecuación para un β.
Nuestro objetivo es minimizar la ecuación anterior, para poder hacer esto, igualaremos esto a cero y tomaremos las derivadas wrt β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Usando (ab) ^ 2 expansión
Derivados parciales wrt
-2xy + 2x ^ 2β + 2βλ = 0
2β (x ^ 2 + λ) = 2xy
β = 2xy / 2 (x ^ 2 + λ)
Finalmente
β = xy / (x ^ 2 + λ)
Si observa el denominador, nunca se convertirá en cero, ya que estamos agregando algún valor de λ (es decir, hiperparámetro). Y, por lo tanto, el valor de β será lo más bajo posible pero no será cero.
Regresión LASSO:
L1 = (y-xβ) ^ 2 + λ∑ | β |
Resolverá esta ecuación solo para un β por ahora y luego puede generalizar esto a más β:
Entonces, (y-xβ) ^ 2 + λβ esta es nuestra ecuación para un β, aquí he considerado el valor + ve de β.
Nuestro objetivo es minimizar la ecuación anterior, para poder hacer esto, igualaremos esto a cero y tomaremos las derivadas wrt β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Usando (ab) ^ 2 expansión
Derivados parciales wrt
-2xy + 2x ^ 2β + λ = 0
2x ^ 2β + λ = 2xy
2x ^ 2β = 2xy-λ
Finalmente
β = (2xy-λ) / (2X ^ 2)
Si observa el numerador, se convertirá en cero, ya que estamos restando algún valor de λ (es decir, hiperparámetro). Y, por lo tanto, el valor de β se establecerá como cero.
fuente