¿La regresión de ángulo mínimo mantiene las correlaciones monotónicamente decrecientes y atadas?

Estoy tratando de resolver un problema para la regresión de ángulo mínimo (LAR). Este es un problema 3.23 en la página 97 de Hastie et al., Elementos de aprendizaje estadístico, 2do. ed. (5ª impresión) .

Considere un problema de regresión con todas las variables y respuestas que tengan media cero y desviación estándar uno. Supongamos también que cada variable tiene una correlación absoluta idéntica con la respuesta:

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p$

Deje que sea el coeficiente de mínimos cuadrados de en y deje que para . $\hat{\beta}$ $\mathbf{y}$ $\mathbf{X}$ $\mathbf{u}(\alpha)=\alpha \bf{X} \hat{\beta}$ $\alpha\in[0,1]$

Se me pide que demuestre que y estoy teniendo problemas con eso. Tenga en cuenta que esto básicamente puede decir que las correlaciones de cada con los residuos permanecen iguales en magnitud a medida que avanzamos hacia .

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ, j = 1, . . ., p

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y}-u(\alpha) \right \rangle | = (1 - \alpha) \lambda, j = 1, ..., p$

x_{j}

$x_j$

u

$u$

Tampoco sé cómo demostrar que las correlaciones son iguales a:

$\lambda(\alpha) = \frac{(1-\alpha)}{\sqrt{(1-\alpha)^2 + \frac{\alpha (2-\alpha)}{N} \cdot RSS}} \cdot \lambda$

Cualquier sugerencia sería muy apreciada!

regression machine-learning correlation self-study Belmont
fuente

@Belmont, ¿qué es ? ¿Podría proporcionar más contexto sobre su problema? El enlace al artículo con propiedades estándar de LAR, por ejemplo, ayudaría mucho.

u (α)

$u(\alpha)$

mpiktas

@Belmont, esto parece un problema de Hastie, et al., Elementos de aprendizaje estadístico , 2do. ed. ¿Es esta tarea? Si es así, puede agregar esa etiqueta.

cardenal

@Belmont, ahora que @cardinal dio una respuesta completa, ¿puede especificar qué es realmente LAR, para referencia futura? A juzgar por la respuesta, esta es la manipulación estándar de productos de regresiones de mínimos cuadrados dadas algunas restricciones iniciales. No debe haber un nombre especial para ello sin una razón seria.

mpiktas

@mpiktas, es un algoritmo por etapas, por lo que cada vez que una variable ingresa o sale del modelo en la ruta de regularización, el tamaño (es decir, cardinalidad / dimensión) de aumenta o disminuye respectivamente y se utiliza una "nueva" estimación de LS basada en las variables actualmente "activas". En el caso del lazo, que es un problema de optimización convexa, el procedimiento consiste esencialmente en explotar una estructura especial en las condiciones KKT para obtener una solución muy eficiente. También hay generalizaciones que, por ejemplo, la regresión logística basado en IRLS y Heine-Borel (para probar la convergencia en ninguna finita de pasos..)

β

$\beta$

cardenal

@Belmont -1, como compré recientemente el libro de Hastie, puedo confirmar que este es un ejercicio. Entonces, te estoy dando un gran -1, ya que ni siquiera logras dar todas las definiciones, ni siquiera estoy hablando de dar la referencia.

mpiktas

Este es el problema 3.23 en la página 97 de Hastie et al., Elementos de aprendizaje estadístico , 2do. ed. (5ª impresión) .

La clave de este problema es una buena comprensión de los mínimos cuadrados ordinarios (es decir, la regresión lineal), particularmente la ortogonalidad de los valores ajustados y los residuos.

Lema de ortogonalidad : Sea la matriz de diseño , el vector de respuesta y los parámetros (verdaderos). Suponiendo que es de rango completo (que lo haremos en todo momento), las estimaciones de OLS de son . Los valores ajustados son . Entonces . Es decir, los valores ajustados son ortogonales a los residuos. Esto se debe a que . $X$ $n \times p$ $y$ $\beta$ $X$ $\beta$ $\hat{\beta} = (X^T X)^{-1} X^T y$ $\hat{y} = X (X^T X)^{-1} X^T y$ $\langle \hat{y}, y-\hat{y} \rangle = \hat{y}^T (y - \hat{y}) = 0$ $X^T (y - \hat{y}) = X^T y - X^T X (X^T X)^{-1} X^T y = X^T y - X^T y = 0$

Ahora, vamos ser un vector columna de tal manera que es la ésima columna de . Las condiciones asumidas son: $x_j$ $x_j$ $j$ $X$

$\frac{1}{N} \langle x_j, x_j \rangle = 1$ para cada , , $j$ $\frac{1}{N} \langle y, y \rangle = 1$
$\frac{1}{N} \langle x_j, 1_p \rangle = \frac{1}{N} \langle y, 1_p \rangle = 0$ donde denota un vector de unos de longitud , y $1_p$ $p$
$\frac{1}{N} | \langle x_j, y \rangle | = \lambda$ para todo . $j$

Tenga en cuenta que, en particular , la última declaración del lema de ortogonalidad es idéntica a para todo . $\langle x_j, y - \hat{y} \rangle = 0$ $j$

Las correlaciones están ligadas

Ahora, . Entonces, y el segundo término en el lado derecho es cero por el lema de ortogonalidad , entonces según lo deseado. El valor absoluto de las correlaciones son solo $u(\alpha) = \alpha X \hat{\beta} = \alpha \hat{y}$

⟨ x_{j}, y - u (a) ⟩ = ⟨ x_{j}, (1 - α) y + α y - α \hat{y} ⟩ = (1 - α) ⟨ x_{j}, y ⟩ + α ⟨ x_{j}, y - \hat{y} ⟩,

$\langle x_j, y - u(a) \rangle = \langle x_j, (1-\alpha) y + \alpha y - \alpha \hat{y} \rangle = (1-\alpha) \langle x_j, y \rangle + \alpha \langle x_j, y - \hat{y} \rangle ,$

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ,

$\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle | = (1-\alpha) \lambda ,$

{\hat{ρ}}_{j} (α) = \frac{\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ |}{\sqrt{\frac{1}{N} ⟨ x_{j}, x_{j} ⟩} \sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}} = \frac{(1 - α) λ}{\sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}}

$\hat{\rho}_j(\alpha) = \frac{\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle |}{\sqrt{\frac{1}{N} \langle x_j, x_j \rangle }\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }} = \frac{(1-\alpha)\lambda}{\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }}$

Nota : El lado derecho anterior es independiente de y el numerador es la misma que la covarianza ya hemos asumido que todo el 's y así, en particular, sin sustracción de la media es necesario, se centran ( ) $j$ $x_j$ $y$

¿Cuál es el punto de? A medida que aumenta, el vector de respuesta se modifica de manera que avanza lentamente hacia la solución de mínimos cuadrados ( ¡restringida! ) Obtenida al incorporar solo los primeros parámetros en el modelo. Esto modifica simultáneamente los parámetros estimados, ya que son productos internos simples de los predictores con el vector de respuesta (modificado). Sin embargo, la modificación toma una forma especial. Mantiene la (magnitud de) las correlaciones entre los predictores y la respuesta modificada igual durante todo el proceso (aunque el valor de la correlación está cambiando). ¡Piensa en lo que esto está haciendo geométricamente y entenderás el nombre del procedimiento! $\alpha$ $p$

Forma explícita de la correlación (absoluta)

Centrémonos en el término en el denominador, ya que el numerador ya está en la forma requerida. Tenemos

⟨ y - u (α), y - u (α) ⟩ = ⟨ (1 - α) y + α y - u (α), (1 - α) y + α y - u (α) ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = \langle (1-\alpha) y + \alpha y - u(\alpha), (1-\alpha) y + \alpha y - u(\alpha) \rangle .$

Sustituyendo en y usando la linealidad del producto interno, obtenemos $u(\alpha) = \alpha \hat{y}$

⟨ y - u (α), y - u (α) ⟩ = (1 - α)^{2} ⟨ y, y ⟩ + 2 α (1 - α) ⟨ y, y - \hat{y} ⟩ + α^{2} ⟨ y - \hat{y}, y - \hat{y} ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = (1-\alpha)^2 \langle y, y \rangle + 2\alpha(1-\alpha) \langle y, y - \hat{y} \rangle + \alpha^2 \langle y-\hat{y}, y-\hat{y} \rangle .$

Observa eso

$\langle y, y \rangle = N$ por suposición,
$\langle y, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y} \rangle + \langle \hat{y}, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y}\rangle$ , aplicando el lema de ortogonalidad (una vez más) al segundo término en el medio; y,
$\langle y - \hat{y}, y - \hat{y} \rangle = \mathrm{RSS}$ por definición.

Al poner todo esto junto, notarás que tenemos

{\hat{ρ}}_{j} (α) = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} + \frac{α (2 - α)}{N} R S S}} = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} (1 - \frac{R S S}{N}) + \frac{1}{N} R S S}}

$\hat{\rho}_j(\alpha) = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 + \frac{\alpha(2-\alpha)}{N} \mathrm{RSS}}} = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 (1 - \frac{\mathrm{RSS}}{N}) + \frac{1}{N} \mathrm{RSS}}}$

Para concluir, y está claro que está disminuyendo monotónicamente en y como . $1 - \frac{\mathrm{RSS}}{N} = \frac{1}{N} (\langle y, y, \rangle - \langle y - \hat{y}, y - \hat{y} \rangle ) \geq 0$ $\hat{\rho}_j(\alpha)$ $\alpha$ $\hat{\rho}_j(\alpha) \downarrow 0$ $\alpha \uparrow 1$

Epílogo : concéntrate en las ideas aquí. Realmente solo hay uno. El lema de la ortogonalidad hace casi todo el trabajo por nosotros. El resto es solo álgebra, notación y la capacidad de poner en práctica estos dos últimos.

cardenal
fuente

@ cardinal, +1. La respuesta es magnitudes mejor que la pregunta.

mpiktas

@cardinal, es posible que desee cambiar el enlace a Amazon o algún otro sitio. Creo que vincular al libro completo podría plantear algunos problemas de derechos de autor.

mpiktas

@mpiktas, no. Sin problemas de derechos de autor. Ese es el sitio web oficial del libro. Los autores obtuvieron permiso de Springer para hacer que el PDF esté disponible gratuitamente en línea. (Vea la nota a este efecto en el sitio.) Creo que obtuvieron la idea de Stephen Boyd y su texto de optimización convexa . Esperemos que tal tendencia se acelere en los próximos años. ¡Disfrutar!

cardenal

@ cardinal, ¡oh, muchas gracias! Eso es muy generoso de los autores.

mpiktas

@mpiktas, es de lejos el libro más popular de la serie Springer en estadísticas. Se ve bien en un iPad. Lo que me recuerda que también debería descargar el texto de Boyd. Salud.

cardenal

¿La regresión de ángulo mínimo mantiene las correlaciones monotónicamente decrecientes y atadas?

Respuestas: