¿Cuál es la importancia de la matriz del sombrero, , en regresión lineal?

9

¿Cuál es la importancia de la matriz del sombrero, , en el análisis de regresión?H=X(XX)1X

¿Es solo para un cálculo más fácil?

usuario 31466
fuente
Además, ¿podría ser más específico?
Steve S
@SteveS En realidad, quiero saber por qué necesitamos una matriz de sombreros.
usuario 31466
¿Se pregunta por qué necesitamos tener un nombre / símbolo especial (es decir, "matriz de sombrero", " H ") para la matriz o está preguntando más sobre la importancia del producto de la matriz en el lado derecho?
Steve S

Respuestas:

14

En el estudio de la regresión lineal, el punto de partida básico es el proceso de generación de datos donde y determinista. Después de minimizar el criterio de mínimos cuadrados, se encuentra un estimador para , es decir, . Después de conectar el estimador en la fórmula inicial, se obtiene como modelo lineal del proceso de generación de datos. Ahora, uno puede sustituir el estimador pory= XB + uuN(0,σ2I)XB^BB^=(XX)1Xyy^=XB^B^y obtieney^=X(XX)1Xy.

Entonces, es en realidad una matriz de proyección. Imagine que toma todas las variables en . Las variables son vectores y abarcan un espacio. Por lo tanto, si multiplica por , proyecta sus valores observados en en el espacio que abarcan las variables en . Le da a uno las estimaciones para y esa es la razón por la que se llama matriz de sombrero y por qué tiene tanta importancia. Después de todo, la regresión lineal no es más que una proyección y con la matriz de proyección no solo podemos calcular las estimaciones paraH=X(XX)1XXHyyXyypero también para y puede, por ejemplo, verificar si realmente se distribuye normalmente.u

Encontré esta bonita foto en internet y visualiza esta proyección. Tenga en cuenta que se usa lugar de . Además, la imagen enfatiza que el vector de los términos de error es ortogonal a la proyección y, por lo tanto, no está correlacionado con las estimaciones paraβBy

ingrese la descripción de la imagen aquí

chico al azar
fuente
5

La matriz de sombreros es muy útil por algunas razones:

  1. En lugar de tener , obtenemos que donde es la matriz del sombrero. Esto nos da que es un mapeo lineal de los valores observados.y^=Zβ^y^=PyPy^
  2. A partir de la matriz de sombreros , es fácil calcular los residuos . Vemos que .Pϵ^ϵ^=yy^=yPy=(InP)y
wilsnunn
fuente
0

No es más que encontrar la solución "más cercana" para Ax = b donde b no está en el espacio de la columna de A. Proyectamos b en el espacio de la columna, y resolvemos para Ax (hat) = p donde p es la proyección de b en espacio de columna

Andrew W
fuente
1
Todo esto se puede hacer sin tener que computar . H
whuber