Pregunta sobre una prueba de ecuación normal

11

¿Cómo puede probar que las ecuaciones normales: tienen una o más soluciones sin la suposición de que X es invertible?(XTX)β=XTY

Mi única suposición es que tiene algo que ver con el inverso generalizado, pero estoy totalmente perdido.

Ryati
fuente
1
Ganas puntos haciendo preguntas que provocan respuestas sorprendentes.
Nikana Reklawyks

Respuestas:

14

Uno tiene la tentación de ser simplista y señalar eso porque la forma cuadrática

β(YXβ)(YXβ)

es positivo semi-definido, existe un para el cual es mínimo y ese mínimo se encuentra (estableciendo el gradiente con respecto a a cero) con las ecuaciones normalesβββ

XX(YXβ)=0,

de donde debe haber al menos una solución, independientemente del rango deXX . Sin embargo, este argumento no parece estar en el espíritu de la pregunta, que parece ser una afirmación puramente algebraica. Quizás sea interesante entender por qué una ecuación de este tipo debe tener una solución y bajo qué condiciones. Entonces, comencemos de nuevo y pretendamos que no conocemos la conexión con mínimos cuadrados.


Todo se reduce al significado de , la transpuesta de . Esto resultará en una definición simple, una notación apropiada y el concepto de una forma sesquilineal no degenerada. Recuerde que es la "matriz de diseño" de filas (una para cada observación) y columnas (una para cada variable, incluida una constante si la hay). Por lo tanto, representa una transformación lineal del espacio vectorial a . X X n p V = R p W = R nXXXnpV=RpW=Rn

La transposición de , considerada como una transformación lineal , es una transformación lineal de los espacios duales . Para dar sentido a una composición como , entonces, es necesario identificar con . Eso es lo que hace el producto interno habitual (suma de cuadrados) en .X : WVX X WW WX X:WVXXWWW

En realidad, hay dos productos internos y definidos en y respectivamente. Estas son funciones simétricas bilineales de valor real que no son degeneradas . Esto último significa queg W V WgVgWVW

gW(u,v)=0 uWv=0,

con declaraciones análogas para . Geométricamente, estos productos internos nos permiten medir la longitud y el ángulo. La condición puede considerarse como siendo "perpendicular" a . La no generación significa que solo el vector cero es perpendicular a todo el espacio vectorial. (Esta generalidad significa que los resultados obtenidos aquí se aplicarán a la configuración generalizada de mínimos cuadrados , para la cual no es necesariamente el producto interno habitual dado como la suma de productos de componentes, sino que es una forma arbitraria no degenerada. Podríamos prescindir de completo , definiendo g ( u , v ) = 0 u v g W g V X : WVgVg(u,v)=0uvgWgVX:WV, pero espero que muchos lectores no estén familiarizados o incómodos con los espacios duales y, por lo tanto, elijan evitar esta formulación)

Con estos productos internos en la mano, la transposición de cualquier transformación lineal se define por través deX : WVX:VWX:WV

gV(X(w),v)=gW(w,X(v))

para todos y . El hecho de que exista un vector con esta propiedad puede establecerse escribiendo las bases para y ; que este vector es único se deduce de la no degeneración de los productos internos. Para si y son dos vectores para los cuales para todos , entonces (desde la linealidad en el primer componente) para todos los implican . v V X ( w ) V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0wWvVX(w)VVWv1v2gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

Cuando escritura para el conjunto de todos los vectores perpendiculares a cada vector en . También como una cuestión de notación, escriba para la imagen de , definida como el conjunto . Una relación fundamental entre y su transposición esUU X ( V ) X { X ( v ) | v V } W X X UW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

Es decir, está en el núcleo de si y sólo si es perpendicular a la imagen de . X w XwXwX Esta afirmación dice dos cosas:

  1. Si , entonces para todos , que simplemente significa es perpendicular a .X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. Si es perpendicular a , eso solo significa para todos , pero esto es equivalente a y la no degeneración de implica .wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

En realidad hemos terminado ahora. El análisis ha demostrado que descompone como un producto directo . Es decir, podemos tomar cualquier arbitrario escribirla únicamente como con y . Eso significa es de la forma para al menos una . Note, entonces, queWW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0X(β)βV

yXβ=(y0+y)y0=yX(V)

La relación fundamental dice que es lo mismo que el lado izquierdo está en el núcleo de :X

X(yXβ)=0,

donde resuelve las ecuaciones normalesβXXβ=Xy.


Ahora estamos en condiciones de dar una breve respuesta geométrica a la pregunta (junto con algunos comentarios reveladores): las ecuaciones normales tienen una solución porque cualquier -vector descompone (únicamente) como la suma de un vector en el intervalo de y otro vector perpendicular a y es la imagen de al menos una -vector . La dimensión de la imagen (su rango ) es la dimensión de los parámetros identificables . La dimensión del núcleo denyWy0Xyy0y0pβVX(V)Xcuenta las relaciones lineales no triviales entre los parámetros. Todos los parámetros son identificables cuando es un mapa de uno a uno de a su imagen en .XVW

En última instancia es útil para dispensar con el espacio por completo y el trabajo en su totalidad con el subespacio , el "espacio columna" de la matriz . La cantidad ecuaciones normales a la proyección ortogonal sobre . Eso nos libera conceptualmente de estar atados a cualquier parametrización particular del modelo y muestra que los modelos de mínimos cuadrados tienen una dimensión intrínseca independiente de cómo se parametrizan.VU=X(V)WXU


Un resultado interesante de esta demostración algebraica abstracta es que podemos resolver las ecuaciones normales en espacios vectoriales arbitrarios. El resultado es válido, por ejemplo, para espacios complejos, para espacios sobre campos finitos (donde minimizar una suma de cuadrados tiene poco sentido), e incluso para espacios de dimensiones infinitas que admiten formas sequilineales adecuadas.

whuber
fuente
1
Nunca tuve el representante para aceptar esta respuesta hasta mucho más tarde. ¡Acabo de tropezar con esto y quería agradecerte nuevamente!
ryati
Escribiría esa forma cuadrática como lugar de como y use la otra flecha para cosas como
β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Michael Hardy
@ Michael Debe haber un error tipográfico en tu comentario. ¿Te importaría aclarar lo que querías decir?
whuber
@whuber: no encuentro ningún error tipográfico. El punto es que las dos flechas y tienen significados diferentes. ''''
Michael Hardy
@Michael Perdóname por no ver esa distinción, a pesar de muchas lecturas. De todos modos, para mí la primera flecha se refiere a una función inyectiva, mientras que la segunda se refiere a cualquier función, pero sospecho que no es lo que pretendes. ¿Te importaría explicar tu notación?
whuber
0

Es fácil mostrar (intente usted mismo, para un número arbitrario de puntos, ) que el inverso de existe si hay al menos dos valores (predictores) distintos en el conjunto de muestras. Solo si todos sus datos tienen los mismos valores (es decir, puntos apilados en la dirección , a lo largo de una línea vertical), entonces cualquier línea dibujada a través de su media tendrá una pendiente arbitraria (coeficiente de regresión) , de modo que la línea de regresión LSE no sea única.nXTXxxi=xyy¯

Lucozade
fuente
Para completar, para una regresión lineal simple, mientras que para regresión lineal múltiple. X = [ 1 x 11x m 1 ; ... ; 1 x 1 nx m n ]X=[1 x1;1 x2;;1 xn]X=[1 x11xm1;;1 x1nxmn]
Lucozade
3
La referencia a la regresión múltiple en el comentario es desconcertante, porque esta respuesta se aplica claramente solo al caso de la regresión ordinaria donde uno ajusta una "línea" en lugar de una superficie de dimensiones superiores. Además, parece haber respondido una pregunta diferente: esta pregunta solo sobre el caso en el que no es invertible. XX
whuber
0

En la regresión típica, X es delgado y, por lo tanto, ciertamente no es invertible (aunque puede dejarse invertible). Es fácil demostrar (pregunte si necesita ayuda) que si X es delgado y se deja invertible, entonces X ^ T * X es invertible. En este caso, habrá exactamente una solución. Y si X no tiene rango de columna completo, entonces X ^ T * X no será rango completo y, por lo tanto, tendrá un sistema subdeterminado.

usuario542833
fuente
1
Estas observaciones no parecen abordar la pregunta: independientemente del rango de , todavía existirá una solución. Como ejemplo, considere el caso extremo donde es una matriz de todos los ceros. Entonces las ecuaciones normales se reducen a y any es una solución. X 0 β = 0 βXXX0β=0 β
whuber
whuber: por supuesto, abordan la pregunta: una solución si X es un rango de columna completo (como mencioné), y soluciones infinitas si es un sistema subdeterminado
user542833
1
El hecho de que el sistema esté "subdeterminado" no implica que tenga ninguna solución. La pregunta es sobre la existencia de soluciones.
whuber