Supongamos que tengo una muestra aleatoria .
Supongamos que
y
¿Cuál es la diferencia entre y ?
regression
Stan Shunpike
fuente
fuente
Respuestas:
La idea es que está trabajando con una muestra de una población. Su muestra forma una nube de datos, si lo desea. Una de las dimensiones corresponde a la variable dependiente, e intenta ajustar la línea que minimiza los términos de error: en OLS, esta es la proyección de la variable dependiente en el subespacio vectorial formado por el espacio de columnas de la matriz modelo. Estas estimaciones de los parámetros de la población se denotan con el símbolo . más puntos de datos tenga, más precisos los coeficientes estimados, , y mejor la estimación de estos coeficientes de población idealizados, .β^ β^yo βyo
Aquí está la diferencia en las pendientes ( versus ) entre la "población" en azul y la muestra en puntos negros aislados:β β^
La línea de regresión está punteada y en negro, mientras que la línea de "población" sintéticamente perfecta está en azul sólido. La abundancia de puntos proporciona una sensación táctil de la normalidad de la distribución de residuos.
fuente
El símbolo "sombrero" generalmente denota una estimación, en oposición al valor "verdadero". Por lo tanto, es una estimación de . Algunos símbolos tienen sus propias convenciones: la varianza muestral, por ejemplo, a menudo se escribe como , no , aunque algunas personas usan ambos para distinguir entre estimaciones sesgadas e imparciales.β^ β s2 σ^2
En su caso específico, los valores son estimaciones de parámetros para un modelo lineal. El modelo lineal supone que la variable de resultado se genera mediante una combinación lineal de s, cada una ponderada por el valor correspondiente . En la práctica, por supuesto, estos valores son desconocidos y es posible que ni siquiera existan (quizás los datos no sean generados por un modelo lineal). Sin embargo, podemos estimar valores a partir de los datos que se aproximan .β^ Y Xyo βyo β β^ Y
fuente
La ecuación
es lo que se llama el verdadero modelo. Esta ecuación dice que la relación entre la variable y la variable puede explicarse por una línea . Sin embargo, dado que los valores observados nunca seguirán esa ecuación exacta (debido a errores), se agrega un término de error adicional para indicar errores. Los errores pueden interpretarse como desviaciones naturales de la relación de e . A continuación muestro dos pares de e (los puntos negros son datos). En general, se puede ver que a medida que aumenta aumenta. Para ambos pares, la ecuación verdadera esX y y=β0 0+β1X ϵyo X y X y X y
Veamos la trama de la izquierda. El verdadero y el verdadero = 3. Pero en la práctica, cuando se nos dan datos, no sabemos la verdad. Entonces estimamos la verdad. Estimamos con y con . Según los métodos estadísticos utilizados, las estimaciones pueden ser muy diferentes. En la configuración de regresión, las estimaciones se obtienen mediante un método llamado mínimos cuadrados ordinarios. Esto también se conoce como el método de línea de mejor ajuste. Básicamente, debe dibujar la línea que mejor se ajuste a los datos. No estoy discutiendo fórmulas aquí, pero usando la fórmula para OLS, obtienesβ0 0= 4 β1 β0 0 β^0 0 β1 β^1
y la línea resultante de mejor ajuste es,
Un ejemplo simple sería la relación entre las alturas de madres e hijas. Sea altura de las madres e = alturas de las hijas. Naturalmente, uno esperaría que las madres más altas tengan hijas más altas (debido a la similitud genética). Sin embargo, ¿crees que una ecuación puede resumir exactamente la altura de una madre y una hija, de modo que si conozco la altura de la madre podré predecir la altura exacta de la hija? No. Por otro lado, uno podría resumir la relación con la ayuda de una declaración promedio .x = y
TL DR: es la verdad de la población. Representa la relación desconocida entre y . Como no siempre podemos obtener todos los valores posibles de y , recolectamos una muestra de la población e intentamos estimar usando los datos. es nuestra estimación. Es una función de los datos. no es una función de los datos, sino la verdad.β y X y X β β^ β
fuente