¿Cómo puede probar que las ecuaciones normales: tienen una o más soluciones sin la suposición de que X es invertible?
Mi única suposición es que tiene algo que ver con el inverso generalizado, pero estoy totalmente perdido.
regression
proof
Ryati
fuente
fuente
Respuestas:
Uno tiene la tentación de ser simplista y señalar eso porque la forma cuadrática
es positivo semi-definido, existe un para el cual es mínimo y ese mínimo se encuentra (estableciendo el gradiente con respecto a a cero) con las ecuaciones normalesββ β
de donde debe haber al menos una solución, independientemente del rango deX′X . Sin embargo, este argumento no parece estar en el espíritu de la pregunta, que parece ser una afirmación puramente algebraica. Quizás sea interesante entender por qué una ecuación de este tipo debe tener una solución y bajo qué condiciones. Entonces, comencemos de nuevo y pretendamos que no conocemos la conexión con mínimos cuadrados.
Todo se reduce al significado de , la transpuesta de . Esto resultará en una definición simple, una notación apropiada y el concepto de una forma sesquilineal no degenerada. Recuerde que es la "matriz de diseño" de filas (una para cada observación) y columnas (una para cada variable, incluida una constante si la hay). Por lo tanto, representa una transformación lineal del espacio vectorial a . X X n p V = R p W = R nX′ X X n p V=Rp W=Rn
La transposición de , considerada como una transformación lineal , es una transformación lineal de los espacios duales . Para dar sentido a una composición como , entonces, es necesario identificar con . Eso es lo que hace el producto interno habitual (suma de cuadrados) en .X ′ : W ∗ → V ∗ X ′ X W ∗ W WX X′:W∗→V∗ X′X W∗ W W
En realidad, hay dos productos internos y definidos en y respectivamente. Estas son funciones simétricas bilineales de valor real que no son degeneradas . Esto último significa queg W V WgV gW V W
con declaraciones análogas para . Geométricamente, estos productos internos nos permiten medir la longitud y el ángulo. La condición puede considerarse como siendo "perpendicular" a . La no generación significa que solo el vector cero es perpendicular a todo el espacio vectorial. (Esta generalidad significa que los resultados obtenidos aquí se aplicarán a la configuración generalizada de mínimos cuadrados , para la cual no es necesariamente el producto interno habitual dado como la suma de productos de componentes, sino que es una forma arbitraria no degenerada. Podríamos prescindir de completo , definiendo g ( u , v ) = 0 u v g W g V X ′ : W → V ∗gV g(u,v)=0 u v gW gV X′:W→V∗ , pero espero que muchos lectores no estén familiarizados o incómodos con los espacios duales y, por lo tanto, elijan evitar esta formulación)
Con estos productos internos en la mano, la transposición de cualquier transformación lineal se define por través deX ′ : W → VX:V→W X′:W→V
para todos y . El hecho de que exista un vector con esta propiedad puede establecerse escribiendo las bases para y ; que este vector es único se deduce de la no degeneración de los productos internos. Para si y son dos vectores para los cuales para todos , entonces (desde la linealidad en el primer componente) para todos los implican . v ∈ V X ′ ( w ) ∈ V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v ∈ V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0w∈W v∈V X′(w)∈V V W v1 v2 gV(v1,v)=gV(v2,v) v∈V gV(v1−v2,v)=0 v v1−v2=0
Cuando escritura para el conjunto de todos los vectores perpendiculares a cada vector en . También como una cuestión de notación, escriba para la imagen de , definida como el conjunto . Una relación fundamental entre y su transposición esU ⊥ U X ( V ) X { X ( v ) | v ∈ V } ⊂ W X X ′U⊂W, U⊥ U X(V) X {X(v)|v∈V}⊂W X X′
Es decir, está en el núcleo de si y sólo si es perpendicular a la imagen de . X ′ w Xw X′ w X Esta afirmación dice dos cosas:
Si , entonces para todos , que simplemente significa es perpendicular a .X′(w)=0 gW(w,X(v))=gV(X′(w),v)=gV(0,v)=0 v∈V w X(V)
Si es perpendicular a , eso solo significa para todos , pero esto es equivalente a y la no degeneración de implica .w X(V) gW(w,X(v))=0 v∈V gV(X′(w),v)=0 gV X′(w)=0
En realidad hemos terminado ahora. El análisis ha demostrado que descompone como un producto directo . Es decir, podemos tomar cualquier arbitrario escribirla únicamente como con y . Eso significa es de la forma para al menos una . Note, entonces, queW W=X(V)⊕X(V)⊥ y∈W y=y0+y⊥ y0∈X(V) y⊥∈X(V)⊥ y0 X(β) β∈V
La relación fundamental dice que es lo mismo que el lado izquierdo está en el núcleo de :X′
donde resuelve las ecuaciones normalesβ X′Xβ=X′y.
Ahora estamos en condiciones de dar una breve respuesta geométrica a la pregunta (junto con algunos comentarios reveladores): las ecuaciones normales tienen una solución porque cualquier -vector descompone (únicamente) como la suma de un vector en el intervalo de y otro vector perpendicular a y es la imagen de al menos una -vector . La dimensión de la imagen (su rango ) es la dimensión de los parámetros identificables . La dimensión del núcleo den y∈W y0 X y⊥ y0 y0 p β∈V X(V) X cuenta las relaciones lineales no triviales entre los parámetros. Todos los parámetros son identificables cuando es un mapa de uno a uno de a su imagen en .X V W
En última instancia es útil para dispensar con el espacio por completo y el trabajo en su totalidad con el subespacio , el "espacio columna" de la matriz . La cantidad ecuaciones normales a la proyección ortogonal sobre . Eso nos libera conceptualmente de estar atados a cualquier parametrización particular del modelo y muestra que los modelos de mínimos cuadrados tienen una dimensión intrínseca independiente de cómo se parametrizan.V U=X(V)⊂W X U
Un resultado interesante de esta demostración algebraica abstracta es que podemos resolver las ecuaciones normales en espacios vectoriales arbitrarios. El resultado es válido, por ejemplo, para espacios complejos, para espacios sobre campos finitos (donde minimizar una suma de cuadrados tiene poco sentido), e incluso para espacios de dimensiones infinitas que admiten formas sequilineales adecuadas.
fuente
Es fácil mostrar (intente usted mismo, para un número arbitrario de puntos, ) que el inverso de existe si hay al menos dos valores (predictores) distintos en el conjunto de muestras. Solo si todos sus datos tienen los mismos valores (es decir, puntos apilados en la dirección , a lo largo de una línea vertical), entonces cualquier línea dibujada a través de su media tendrá una pendiente arbitraria (coeficiente de regresión) , de modo que la línea de regresión LSE no sea única.n XTX x xi=x y y¯¯¯
fuente
En la regresión típica, X es delgado y, por lo tanto, ciertamente no es invertible (aunque puede dejarse invertible). Es fácil demostrar (pregunte si necesita ayuda) que si X es delgado y se deja invertible, entonces X ^ T * X es invertible. En este caso, habrá exactamente una solución. Y si X no tiene rango de columna completo, entonces X ^ T * X no será rango completo y, por lo tanto, tendrá un sistema subdeterminado.
fuente