¿Alguien puede proporcionar una visión intuitiva de por qué es mejor tener una versión beta más pequeña?
Para LASSO puedo entender que hay un componente de selección de características aquí. Menos características hacen que el modelo sea más simple y, por lo tanto, menos probable que se ajuste demasiado.
Sin embargo, para cresta, todas las características (factores) se mantienen. Solo los valores son más pequeños (en sentido norma L2). ¿Cómo simplifica esto el modelo?
¿Alguien puede proporcionar una visión intuitiva sobre esto?
regression
lasso
ridge-regression
shrinkage
usuario152503
fuente
fuente
Respuestas:
TL; DR: el mismo principio se aplica tanto a LASSO como a Ridge
Esta es la misma intuición con la regresión de cresta: evitamos que el modelo sobreajuste los datos, pero en lugar de apuntar a variables pequeñas y potencialmente espurias (que se reducen a cero en LASSO), en su lugar apuntamos a los coeficientes más grandes que podrían estar exagerando caso para sus respectivas variables.
La penalización L2 generalmente evita que el modelo otorgue "demasiada" importancia a cualquier variable, porque los coeficientes grandes se penalizan más que los pequeños.
Puede que esto no parezca que "simplifica" el modelo, pero hace una tarea similar de evitar que el modelo se ajuste demasiado a los datos disponibles.
Un ejemplo para construir la intuición.
Tome un ejemplo concreto: puede estar tratando de predecir los reingresos hospitalarios en función de las características del paciente.
En este caso, es posible que tenga una variable relativamente rara (como una enfermedad poco común) que está muy relacionada en su conjunto de entrenamiento con el reingreso. En un conjunto de datos de 10,000 pacientes, es posible que solo vea esta enfermedad 10 veces, con 9 reingresos (un ejemplo extremo para estar seguro)
Como resultado, el coeficiente podría ser masivo en relación con el coeficiente de otras variables. Al minimizar tanto la penalización MSE como la L2, este sería un buen candidato para que la regresión de cresta se "reduzca" hacia un valor más pequeño, ya que es raro (por lo que no afecta tanto a MSE) y un valor de coeficiente extremo.
fuente
No hay garantía de que tener pesos más pequeños sea realmente mejor. La regresión de lazo y cresta funciona al imponer conocimientos / supuestos / restricciones previos sobre la solución. Este enfoque funcionará bien si los anteriores / supuestos / restricciones se adaptan bien a la distribución real que generó los datos y, de lo contrario, podrían no funcionar bien. Con respecto a la simplicidad / complejidad, no son los modelos individuales los que son más simples o más complejos. Más bien, es la familia de modelos en consideración.
Desde una perspectiva geométrica, la regresión de lazo y cresta impone restricciones a los pesos. Por ejemplo, la penalización común / forma lagrangiana de regresión de cresta:
puede reescribirse en la forma de restricción equivalente:
Esto deja en claro que la regresión de cresta restringe los pesos para que se encuentren dentro de una hiperesfera cuyo radio se rige por el parámetro de regularización. Del mismo modo, el lazo restringe los pesos para que se encuentren dentro de un politopo cuyo tamaño se rige por el parámetro de regularización. Estas restricciones significan que la mayor parte del espacio del parámetro original está fuera de los límites, y buscamos los pesos óptimos dentro de un subespacio mucho más pequeño. Este subespacio más pequeño puede considerarse menos 'complejo' que el espacio completo.
Desde una perspectiva bayesiana, uno puede pensar en la distribución posterior sobre todas las opciones posibles de pesos. Tanto la regresión de lazo como la de cresta son equivalentes a la estimación de MAP después de colocar un prior en los pesos (el lazo usa un prior de Laplacia y la regresión de cresta usa un prior de Gauss). Un posterior más estrecho corresponde a una mayor restricción y menor complejidad, debido a que se da una alta densidad posterior a un conjunto más pequeño de parámetros. Por ejemplo, multiplicando la función de probabilidad por un estrecho gaussiano anterior (que corresponde a una penalización de cresta grande) produce un posterior más estrecho.
Una de las razones principales para imponer restricciones / antecedentes es que elegir el modelo óptimo de una familia más restringida tiene menos probabilidades de sobreajustar que elegirlo de una familia menos restringida. Esto se debe a que la familia menos restringida ofrece 'más' formas de ajustar los datos, y es cada vez más probable que uno de ellos pueda ajustar las fluctuaciones aleatorias en el conjunto de capacitación. Para un tratamiento más formal, vea el equilibrio de sesgo-varianza . Esto no significa necesariamente que elegir un modelo de una familia más restringida funcionará bien. Obtener un buen rendimiento requiere que la familia restringida contenga buenos modelos. Esto significa que tenemos que elegir una restricción previa que coincida con el problema específico en cuestión.
fuente
Aunque la pregunta pedía una explicación intuitiva, en realidad hay una derivación rigurosa del error cuadrático medio (MSE) para la regresión de cresta que muestra que existen valores de logrando un MSE mejor que la regresión lineal.λ
Recuerde: Llame a el estimador de para una regresión de cresta cuyo parámetro de contracción es y define: .MSE(β^)=E[(β^−β)(β^−β)T] βλ^ β λ M(λ)=MSE(βλ^)
Por lo tanto, es el MSE de una regresión lineal.M(0)
Siguiendo estas notas del curso, se puede demostrar que:
Los términos son definitivos positivos, pero, para , el término en el medio es positivo también. Para estos valores, tenemos , que muestra que la regresión de cresta reduce el error cuadrático medio.(XTX+λI)−1 λ<2σ2(βTβ)−1 M(0)>M(λ)
fuente