Zou y col. "Sobre los" grados de libertad "del lazo" (2007) muestran que el número de coeficientes distintos de cero es una estimación imparcial y consistente de los grados de libertad del lazo.
Me parece un poco contradictorio.
- Supongamos que tenemos un modelo de regresión (donde las variables son media cero)
- Suponga que una estimación OLS sin restricciones de es . Podría coincidir aproximadamente con una estimación LASSO de para una intensidad de penalización muy baja.
- Supongamos además que una estimación LASSO para una intensidad de penalización particular es . Por ejemplo, podría ser la "óptima" para el conjunto de datos en cuestión que se encuentra utilizando la validación cruzada.
- Si entiendo correctamente, en ambos casos los grados de libertad son 1, ya que ambas veces hay un coeficiente de regresión distinto de cero.
Pregunta:
- ¿Cómo es que los grados de libertad en ambos casos son los mismos aunque sugiere menos "libertad" en la adaptación que ?
Referencias
- Zou, Hui, Trevor Hastie y Robert Tibshirani. "Sobre los" grados de libertad "del lazo". The Annals of Statistics 35.5 (2007): 2173-2192.
regression
lasso
degrees-of-freedom
shrinkage
Richard Hardy
fuente
fuente
Respuestas:
Suponga que se nos da un conjunto de -dimensionales observaciones, , . Asuma un modelo de la forma: where , , y denotando el producto interno. Sea una estimación de usando el método de ajuste (ya sea OLS o LASSO para nuestros propósitos). La fórmula para los grados de libertad dada en el artículo (ecuación 1.2) es: p x i ∈ R p i = 1 , ... , n Y i = ⟨ ß , x i ⟩ + varepsilon varepsilon ~ N ( 0 , σ 2 ) ß ∈ R p ⟨ ⋅ , ⋅ ⟩ ß = δ ( { Y i } n i = 1 ) β δ df (n p xi∈Rp i=1,…,n
Al inspeccionar esta fórmula, podemos suponer que, de acuerdo con su intuición, el verdadero DOF para el LASSO será de hecho menor que el verdadero DOF de OLS; El coeficiente de contracción efectuado por el LASSO debería tender a disminuir las covarianzas.
Ahora, para responder a su pregunta, la razón por la cual el DOF para el LASSO es el mismo que el DOF para el OLS en su ejemplo es simplemente que allí está tratando con estimaciones (aunque no sesgadas), obtenidas de un conjunto de datos particular muestreado del modelo , de los verdaderos valores DOF. Para cualquier conjunto de datos en particular, dicha estimación no será igual al valor verdadero (especialmente porque se requiere que la estimación sea un número entero mientras que el valor verdadero es un número real en general).
Sin embargo, cuando tales estimaciones se promedian en muchos conjuntos de datos muestreados del modelo, por imparcialidad y la ley de grandes números, tal promedio convergerá al verdadero DOF. En el caso del LASSO, algunos de esos conjuntos de datos darán como resultado un estimador en el que el coeficiente es en realidad 0 (aunque dichos conjuntos de datos podrían ser raros si es pequeño). En el caso de OLS, la estimación del DOF es siempre el número de coeficientes, no el número de coeficientes distintos de cero, por lo que el promedio para el caso de OLS no contendrá estos ceros. Esto muestra cómo difieren los estimadores y cómo el estimador promedio del LASSO DOF puede converger en algo más pequeño que el estimador promedio del OLS DOF.λ
fuente