¿Cuál es la diferencia entre y ?

9

Supongamos que tengo una muestra aleatoria .{xn,yn}n=1N

Supongamos que

yn=β0+β1xn+εn

y

y^n=β^0+β^1xn

¿Cuál es la diferencia entre y ?β1β^1

Stan Shunpike
fuente
66
β es su coeficiente real y es su estimador de . β^β
ARAT
1
¿No es esto un duplicado de una publicación anterior? Me sorprendería ...
Richard Hardy

Respuestas:

7

β1 es una idea, en realidad no existe en la práctica. Pero si se suposición de Gauss-Markov, le daría esa pendiente óptima con valores por encima y por debajo de ella en un "corte" vertical vertical a la variable dependiente que forma una buena distribución normal gaussiana de los residuos. es la estimación de basada en la muestra.β1β^1β1

La idea es que está trabajando con una muestra de una población. Su muestra forma una nube de datos, si lo desea. Una de las dimensiones corresponde a la variable dependiente, e intenta ajustar la línea que minimiza los términos de error: en OLS, esta es la proyección de la variable dependiente en el subespacio vectorial formado por el espacio de columnas de la matriz modelo. Estas estimaciones de los parámetros de la población se denotan con el símbolo . más puntos de datos tenga, más precisos los coeficientes estimados, , y mejor la estimación de estos coeficientes de población idealizados, .β^β^iβi

Aquí está la diferencia en las pendientes ( versus ) entre la "población" en azul y la muestra en puntos negros aislados:ββ^

ingrese la descripción de la imagen aquí

La línea de regresión está punteada y en negro, mientras que la línea de "población" sintéticamente perfecta está en azul sólido. La abundancia de puntos proporciona una sensación táctil de la normalidad de la distribución de residuos.

Antoni Parellada
fuente
9

El símbolo "sombrero" generalmente denota una estimación, en oposición al valor "verdadero". Por lo tanto, es una estimación de . Algunos símbolos tienen sus propias convenciones: la varianza muestral, por ejemplo, a menudo se escribe como , no , aunque algunas personas usan ambos para distinguir entre estimaciones sesgadas e imparciales.β^βs2σ^2

En su caso específico, los valores son estimaciones de parámetros para un modelo lineal. El modelo lineal supone que la variable de resultado se genera mediante una combinación lineal de s, cada una ponderada por el valor correspondiente . En la práctica, por supuesto, estos valores son desconocidos y es posible que ni siquiera existan (quizás los datos no sean generados por un modelo lineal). Sin embargo, podemos estimar valores a partir de los datos que se aproximan .β^Yxiβiββ^Y

Matt Krause
fuente
4

La ecuación

yi=β0+β1xi+ϵi

es lo que se llama el verdadero modelo. Esta ecuación dice que la relación entre la variable y la variable puede explicarse por una línea . Sin embargo, dado que los valores observados nunca seguirán esa ecuación exacta (debido a errores), se agrega un término de error adicional para indicar errores. Los errores pueden interpretarse como desviaciones naturales de la relación de e . A continuación muestro dos pares de e (los puntos negros son datos). En general, se puede ver que a medida que aumenta aumenta. Para ambos pares, la ecuación verdadera es xyy=β0+β1xϵyoXyXyXy

yyo=4 4+3Xyo+ϵyo
pero las dos parcelas tienen errores diferentes. La gráfica de la izquierda tiene errores grandes y la gráfica de la derecha pequeños errores (porque los puntos son más ajustados). (Sé la ecuación verdadera porque generé los datos por mi cuenta. En general, nunca se conoce la ecuación verdadera) ingrese la descripción de la imagen aquí

Veamos la trama de la izquierda. El verdadero y el verdadero = 3. Pero en la práctica, cuando se nos dan datos, no sabemos la verdad. Entonces estimamos la verdad. Estimamos con y con . Según los métodos estadísticos utilizados, las estimaciones pueden ser muy diferentes. En la configuración de regresión, las estimaciones se obtienen mediante un método llamado mínimos cuadrados ordinarios. Esto también se conoce como el método de línea de mejor ajuste. Básicamente, debe dibujar la línea que mejor se ajuste a los datos. No estoy discutiendo fórmulas aquí, pero usando la fórmula para OLS, obtienesβ0 0=4 4β1β0 0β^0 0β1β^1

β^0 0=4.809 y β^1=2.889

y la línea resultante de mejor ajuste es, ingrese la descripción de la imagen aquí

Un ejemplo simple sería la relación entre las alturas de madres e hijas. Sea altura de las madres e = alturas de las hijas. Naturalmente, uno esperaría que las madres más altas tengan hijas más altas (debido a la similitud genética). Sin embargo, ¿crees que una ecuación puede resumir exactamente la altura de una madre y una hija, de modo que si conozco la altura de la madre podré predecir la altura exacta de la hija? No. Por otro lado, uno podría resumir la relación con la ayuda de una declaración promedio .X=y

TL DR: es la verdad de la población. Representa la relación desconocida entre y . Como no siempre podemos obtener todos los valores posibles de y , recolectamos una muestra de la población e intentamos estimar usando los datos. es nuestra estimación. Es una función de los datos. no es una función de los datos, sino la verdad.βyXyX ββ^β

Greenparker
fuente