Pero a menudo, cuando vi el estimador Lasso, se puede escribir como
Mi pregunta es, ¿son equivalentes? ¿Dónde entra el término ? Las conexiones entre las dos formulaciones no son obvias para mí.
[Actualización] Creo que otra pregunta que debo hacer es,
¿Por qué hay la segunda formulación? ¿Cuál es la ventaja, teórica o computacionalmente, de formular el problema de esa manera?
Respuestas:
De hecho, son equivalentes, ya que siempre puedes reescalar (ver también el comentario de @ whuber). Desde una perspectiva teórica, es una cuestión de conveniencia, pero que yo sepa, no es necesario. Desde una perspectiva computacional, en realidad encuentro el bastante molesto, por lo que generalmente uso la primera formulación si estoy diseñando un algoritmo que usa la regularización.λ 1/(2n)
Un poco de historia de fondo: cuando comencé a aprender sobre métodos penalizados, me molestó llevar el por todas partes en mi trabajo, así que preferí ignorarlo, incluso simplificó algunos de mis cálculos. En ese momento mi trabajo era principalmente computacional. Más recientemente, he estado haciendo un trabajo teórico, y he encontrado el indispensable (incluso vs., digamos, ).1/(2n) 1/(2n) 1/n
Más detalles: cuando intenta analizar el comportamiento del Lazo en función del tamaño de muestra , con frecuencia tiene que lidiar con sumas de variables aleatorias iid, y en la práctica generalmente es más conveniente analizar tales sumas después de normalizar mediante - -pensar la ley de los grandes números / teorema del límite central (o si desea obtener fantasía, concentración de medida y teoría del proceso empírico). Si no tiene el término frente a la pérdida, finalmente termina reescalando algo al final del análisis, por lo que generalmente es mejor tenerlo allí para comenzar. El es conveniente porque cancela algunos factores molestos den n 1/n 1/2 2 en el análisis (por ejemplo, cuando toma la derivada del término de pérdida al cuadrado).
Otra forma de pensar en esto es que, al hacer teoría, generalmente nos interesa el comportamiento de las soluciones a medida que aumenta , es decir, no es una cantidad fija. En la práctica, cuando ejecutamos el Lazo en algún conjunto de datos fijo, es fijo desde la perspectiva del algoritmo / cálculos. Entonces, tener el factor de normalización adicional en el frente no es tan útil.n n n
Estos pueden parecer asuntos molestos de conveniencia, pero después de pasar suficiente tiempo manipulando este tipo de desigualdades, he aprendido a amar el .1/(2n)
fuente