Considere una regresión simple (normalidad no asumida): donde es con media y desviación estándar . ¿Las estimaciones de mínimos cuadrados de y no están correlacionadas?
11
Considere una regresión simple (normalidad no asumida): donde es con media y desviación estándar . ¿Las estimaciones de mínimos cuadrados de y no están correlacionadas?
Respuestas:
Esta es una consideración importante en el diseño de experimentos, donde puede ser deseable no tener (o muy poca) correlación entre las estimaciones y . Tal falta de correlación se puede lograr controlando los valores de .a^ b^ Xi
Para analizar los efectos de en las estimaciones, los valores (que son vectores de fila de longitud ) se ensamblan verticalmente en una matriz , la matriz de diseño, que tiene tantas filas como datos y (obviamente ) Dos columnas. Los correspondientes se ensamblan en un vector largo (columna) . En estos términos, escribiendo para los coeficientes ensamblados, el modelo esXi (1,Xi) 2 X Yi y β=(a,b)′
Se (generalmente) que las son variables aleatorias independientes cuyas variaciones son una constante para algunos desconocidos . Se considera que las observaciones dependientes son una realización de la variable aleatoria valor vectorial .Yi σ2 σ>0 y Y
La solución OLS es
suponiendo que esta matriz inversa exista. Por lo tanto, usando propiedades básicas de multiplicación de matriz y covarianza,
La matriz tiene solo dos filas y dos columnas, que corresponden a los parámetros del modelo . La correlación de con es proporcional a los elementos fuera de la diagonal de que por la Regla de Cramer son proporcionales al producto escalar de los dos columnas de . Dado que una de las columnas es todo s, cuyo producto de punto con la otra columna (que consiste en ) es su suma, encontramos(X′X)−1 (a,b) a^ b^ (X′X)−1, X 1 Xi
Esta condición de ortogonalidad frecuentemente se logra al volver a centrar el (restando su media de cada uno). Aunque esto no alterará la pendiente estimada , sí cambia la intersección estimada . Si eso es importante o no depende de la aplicación.Xi b^ a^
Este análisis se aplica a la regresión múltiple: la matriz de diseño tendrá columnas para variables independientes (una columna adicional consta de s) y será un vector de longitud , pero de lo contrario todo pasará como antes.p+1 p 1 β p+1
En lenguaje convencional, dos columnas de se llaman ortogonales cuando su producto punto es cero. Cuando una columna de (digamos la columna ) es ortogonal a todas las otras columnas, es un hecho algebraico fácilmente demostrado que todas las entradas fuera de la diagonal en la fila y la columna de son cero (es decir, los componentes y para todos son cero). Por consiguiente,X X i i i (X′X)−1 ij ji j≠i
Muchos diseños experimentales estándar consisten en elegir valores de las variables independientes para hacer que las columnas sean mutuamente ortogonales. Esto "separa" las estimaciones resultantes al garantizar, antes de que se recopilen datos, que las estimaciones no estarán correlacionadas. (Cuando las respuestas tienen distribuciones normales, esto implica que las estimaciones serán independientes, lo que simplifica enormemente su interpretación).
fuente