Estoy tratando de resolver un problema para la regresión de ángulo mínimo (LAR). Este es un problema 3.23 en la página 97 de Hastie et al., Elementos de aprendizaje estadístico, 2do. ed. (5ª impresión) .
Considere un problema de regresión con todas las variables y respuestas que tengan media cero y desviación estándar uno. Supongamos también que cada variable tiene una correlación absoluta idéntica con la respuesta:
Deje que sea el coeficiente de mínimos cuadrados de en y deje que para .
Se me pide que demuestre que y estoy teniendo problemas con eso. Tenga en cuenta que esto básicamente puede decir que las correlaciones de cada con los residuos permanecen iguales en magnitud a medida que avanzamos hacia .
Tampoco sé cómo demostrar que las correlaciones son iguales a:
Cualquier sugerencia sería muy apreciada!
Respuestas:
Este es el problema 3.23 en la página 97 de Hastie et al., Elementos de aprendizaje estadístico , 2do. ed. (5ª impresión) .
La clave de este problema es una buena comprensión de los mínimos cuadrados ordinarios (es decir, la regresión lineal), particularmente la ortogonalidad de los valores ajustados y los residuos.
Lema de ortogonalidad : Sea la matriz de diseño , el vector de respuesta y los parámetros (verdaderos). Suponiendo que es de rango completo (que lo haremos en todo momento), las estimaciones de OLS de son . Los valores ajustados son . Entonces . Es decir, los valores ajustados son ortogonales a los residuos. Esto se debe a que .X n×p y β X β β^=(XTX)−1XTy y^=X(XTX)−1XTy ⟨y^,y−y^⟩=y^T(y−y^)=0 XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Ahora, vamos ser un vector columna de tal manera que es la ésima columna de . Las condiciones asumidas son:xj xj j X
Tenga en cuenta que, en particular , la última declaración del lema de ortogonalidad es idéntica a para todo .⟨xj,y−y^⟩=0 j
Las correlaciones están ligadas
Ahora, . Entonces, y el segundo término en el lado derecho es cero por el lema de ortogonalidad , entonces según lo deseado. El valor absoluto de las correlaciones son solou(α)=αXβ^=αy^
Nota : El lado derecho anterior es independiente de y el numerador es la misma que la covarianza ya hemos asumido que todo el 's y así, en particular, sin sustracción de la media es necesario, se centran ( )j xj y
¿Cuál es el punto de? A medida que aumenta, el vector de respuesta se modifica de manera que avanza lentamente hacia la solución de mínimos cuadrados ( ¡restringida! ) Obtenida al incorporar solo los primeros parámetros en el modelo. Esto modifica simultáneamente los parámetros estimados, ya que son productos internos simples de los predictores con el vector de respuesta (modificado). Sin embargo, la modificación toma una forma especial. Mantiene la (magnitud de) las correlaciones entre los predictores y la respuesta modificada igual durante todo el proceso (aunque el valor de la correlación está cambiando). ¡Piensa en lo que esto está haciendo geométricamente y entenderás el nombre del procedimiento!α p
Forma explícita de la correlación (absoluta)
Centrémonos en el término en el denominador, ya que el numerador ya está en la forma requerida. Tenemos
Sustituyendo en y usando la linealidad del producto interno, obtenemosu(α)=αy^
Observa eso
Al poner todo esto junto, notarás que tenemos
Para concluir, y está claro que está disminuyendo monotónicamente en y como .1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0 ρ^j(α) α ρ^j(α)↓0 α↑1
Epílogo : concéntrate en las ideas aquí. Realmente solo hay uno. El lema de la ortogonalidad hace casi todo el trabajo por nosotros. El resto es solo álgebra, notación y la capacidad de poner en práctica estos dos últimos.
fuente