¿Distribución del error de suma de cuadrados para regresión lineal?

12

Sé que la distribución de la varianza muestral Es por el hecho de que puede expresarse en forma de matriz, xAx ' (donde A: simétrica), y podría expresarse nuevamente en: x'QDQ'x (donde Q: ortonormal, D: matriz diagonal).

(XiX¯)2σ2χ(n1)2
(XiX¯)2n1σ2n1χ(n1)2
(XX¯)2xAxxQDQx

¿Qué pasa con (Yiβ^0β^1Xi)2 , dada la suposición (Yβ0β1X)N(0,σ2) ?

Calculo

(Yiβ^0β^1Xi)2σ2χ(n2)2.

Pero no tengo idea de cómo demostrarlo o mostrarlo.

¿Se distribuye exactamente como χ(n2)2 ?

KH Kim
fuente
1
¿Es esta tarea? Si es así, utilice la etiqueta de tarea.
MånsT
No, no es. Creo que es cierto porque después de todo, la suma de los cuadrados es un cuadrado de combinación lineal de X constantes de Y. ¿Pero es? ¡Se agradecería una prueba simple como esta! math.stackexchange.com/questions/47009/…
KH Kim
Las descripciones que da tanto en la pregunta como en su comentario están un poco confusas. ¿Ha escrito cuál debe ser su matriz para la varianza muestral? ¿Eso te ayuda a ver cómo generalizar? A
cardenal
Corregido para D. Creo que el punto crítico es que el elemento diagonal de D debería ser algo así como (1,1,1, ..., 1,0,0). ¿Hay alguna forma de demostrarlo? o ¿Hay alguna forma de mostrar que donde sse / ,χ2(n)=χ2(n2)+χ2(1)+χ2(1)σ2χ2(n2)ei2/σ2χ2(n)
KH Kim

Respuestas:

13

Podemos probar esto para un caso más general de variables utilizando la "matriz de sombreros" y algunas de sus propiedades útiles. Estos resultados suelen ser mucho más difíciles de establecer en términos no matriciales debido al uso de la descomposición espectral.p

Ahora en la versión matricial de mínimos cuadrados, la matriz del sombrero es donde tiene filas y columnas (columna de unos para ). Asuma el rango completo de la columna por conveniencia; de lo contrario, podría reemplazar por el rango de la columna de a continuación. Podemos escribir los valores ajustados como o en notación matricial . Usando esto, podemos escribir la suma de cuadrados como:H=X(XTX)1XTXnp+1β0p+1XY^i=j=1nHijYjY^=HY

i=1(YYi^)2σ2=(YY^)T(YY^)σ2=(YHY)T(YHY)σ2
=YT(InH)Yσ2

Donde es una matriz de identidad de orden . El último paso se deduce del hecho de que es una matriz idepotente, comoInnH

H2=[X(XTX)1XT][X(XTX)1XT]=X(XTX)1XT=H=HHT=HTH

Ahora, una propiedad clara de las matrices idepotentes es que todos sus valores propios deben ser iguales a cero o uno. Dejando que denote un vector propio normalizado de con valor propio , podemos probar esto de la siguiente manera:eHl

He=leH(He)=H(le)
LHS=H2e=He=leRHS=lHe=l2e
le=l2el=0 or 1

(tenga en cuenta que no puede ser cero ya que debe satisfacer ) Ahora porque es idepotente, también lo es, porqueeeTe=1HInH

(InH)(InH)=IIHHI+H2=InH

También tenemos la propiedad de que la suma de los valores propios es igual a la traza de la matriz, y

tr(InH)=tr(In)tr(H)=ntr(X(XTX)1XT)=ntr((XTX)1XTX)
=ntr(Ip+1)=np1

Por lo tanto, debe tener valores propios iguales a y valores propios iguales a .IHnp11p+10

Ahora podemos usar la descomposición espectral de donde y es ortogonal (porque es simétrica). Una propiedad adicional que es útil es que . Esto ayuda a reducir la matrizIH=ADATD=(Inp10[np1]×[p+1]0[p+1]×[np1]0[p+1]×[p+1])AIHHX=XA

HX=X(IH)X=0ADATX=0DATX=0
(ATX)ij=0i=1,,np1j=1,,p+1

y obtenemos:

i=1(YYi^)2σ2=YTADATYσ2=i=1np1(ATY)i2σ2

Ahora, bajo el modelo tenemos y usando la teoría normal estándar tenemos que muestra que los componentes de son independientes. Ahora, usando el resultado útil, tenemos que para . La distribución de chi-cuadrado con grados de libertad para la suma de los errores al cuadrado sigue inmediatamente.YN(Xβ,σ2I)ATYN(ATXβ,σ2ATA)N(ATXβ,σ2I)ATY(ATY)iN(0,σ2)i=1,,np1np1

probabilidadislogica
fuente
Wow, muchas gracias. Realmente es magnífico! ¡La forma de matriz realmente vale la pena! En resumen, SSE / e es idempotente. Las matrices idempotentes tienen valores propios ya sea 0 o 1. Por lo tanto, la suma de los valores propios es el número de valores propios 1. y ya que y convierte en n-p +1. ¡y la suma de los valores propios de una matriz es la suma de trazas de la matriz! y se puede expresar como . Entonces, el primer convierte en con D con solo np-1 diagonales 1. σ2=YT(IH)YIHtr(InH)=tr(In)tr(H)=tr(In)tr(X(XTX)1XT)=tr(In)tr((XTX)1XTX)tr(AB)=tr(BA)tr(InH)IHADATYT(IH)YYTADATY
KH Kim
1
¡¡Gran respuesta!! Solo para presentar otro enfoque, podemos optar por definir una variable normal multivariada transformada y seguirá la misma distribución si usamos la propiedad afín. Entonces la última fracción . v:=AYN(0,σ2I)YADAYσ2=vDvσ2=v[I000]vσ2=i=1trD(viσ)2
Daeyoung Lim