Supuestos de distribución residual de regresión

12

¿Por qué es necesario colocar el supuesto de distribución en los errores, es decir?

yi=Xβ+ϵi , con .ϵiN(0,σ2)

Porque no escribir

yi=Xβ+ϵi , con ,yiN(Xβ^,σ2)

donde en cualquier caso . Lo he visto enfatizado en que los supuestos de distribución se colocan en los errores, no en los datos, pero sin explicación. ϵi=yiy^

Realmente no entiendo la diferencia entre estas dos formulaciones. En algunos lugares veo suposiciones de distribución que se colocan en los datos (Bayesian encendido. Parece que en su mayoría), pero la mayoría de las veces las suposiciones se colocan en los errores.

Al modelar, ¿por qué debería / debería elegir comenzar con suposiciones sobre uno u otro?

bill_e
fuente
Primero, no es "necesario", depende de lo que pretendes hacer. Hay algunas buenas respuestas, pero creo que el quid es el supuesto subyacente de causalidad, en el sentido de que las X "causan" la y, y si la miras de esa manera, verás que la distribución de y es "causada" por la distribución de los rhs, es decir, las X y los errores (si los hay). Puede hacer una gran cantidad de econometría con supuestos de distribución muy limitados y, en particular, sin normalidad. Gracias a Dios.
PatrickT
3
no esXβ, y la media de la población de layNO es la misma que la estimación de la muestra de la misma. Lo cual quiere decir que la segunda cosa que en realidad no es lo mismo que la primera, pero si que se sustituya por su expectativa (E( Y )=E(Y)=Xβ), los dos sería equivalente. y^XβyE(y^)=E(y)=Xβ
Glen_b -Reinstala a Mónica el
¿Qué es y ? Y si y i varía con i , ¿por qué X β no varía? Por favor, decida qué notación desea usar, el vector o la matriz. Ahora bien, si asumimos que Y = X β su notación es más de bizzare: y i ~ N ( x ' i ( Σ x j x ' j ) - 1 Σ x j y j , sigma 2 )y^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2), es decir, usted define la distribución de en términos de sí mismo y todas las demás observaciones y j ! yiyj
mpiktas
1
He rechazado la pregunta porque creo que la notación es confusa y esto ya dio como resultado varias respuestas sutilmente conflictivas.
mpiktas

Respuestas:

9

En una configuración de regresión lineal, es común hacer análisis y derivar resultados condicionales a , es decir, condicionales a "los datos". Por lo tanto, lo que necesita es que y X sea ​​normal, es decir, necesita que ϵ sea ​​normal. Como lo ilustra el ejemplo de Peter Flom, uno puede tener una normalidad de ϵ sin tener una normalidad de y , y, por lo tanto, dado que lo que necesita es normalidad de ϵ , esa es la suposición sensata.XyXϵϵyϵ

ekvall
fuente
8

Escribiría la segunda definición como

yiN(Xiβ,σ2)

o (como Karl Oskar sugiere +1)

yi|XiN(Xiβ,σ2)

es decir, el supuesto de modelado es que la variable de respuesta normalmente se distribuye alrededor de la línea de regresión (que es una estimación de la media condicional), con una varianza constante . Esto no es lo mismo que sugerir que y i se distribuye normalmente, porque la media de la distribución depende de X i .σ2yiXi

Creo que he visto formulaciones similares a esto en la literatura de aprendizaje automático; por lo que yo puedo ver que es equivalente a la primera definición, todo lo que he hecho es rexpress la segunda formulación un poco diferente para eliminar la 's y el Y ' s.ϵiy^

Dikran Marsupial
fuente
3

La diferencia es más fácil de ilustrar con un ejemplo. Aquí hay uno simple:

Supongamos que Y es bimodal, con la modalidad explicada por una variable independiente. Por ejemplo, suponga que Y es altura y su muestra (por cualquier razón) consiste en jinetes y jugadores de baloncesto. por ejemplo enR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

La primera densidad es muy no normal. Pero los residuos del modelo son extremadamente cercanos a lo normal.

En cuanto a por qué las restricciones se colocan de esta manera, dejaré que otra persona responda esa.

Peter Flom - Restablece a Monica
fuente
1
¡Gracias! Veo lo que quieres decir con una distribución bimodal. Pregunta de seguimiento: ¿Qué pasa si las variaciones de los datos son diferentes (heteroscedasticidad?) Diga ... todos los jinetes son pequeños, pero las alturas de los jugadores de baloncesto varían mucho. Quizás para ellos, alto <- rnorm (100,78,10). ¿Cómo una situación como esta cambia sus suposiciones sobre o ϵ i ? yiϵi
bill_e
En ese caso, la heterocedasticidad sería un problema y necesitaría usar alguna otra forma de regresión, o posiblemente alguna transformación, o podría agregar otra variable (en este ejemplo tonto, la posición que se juega en el baloncesto podría hacerlo).
Peter Flom - Restablece a Monica
No estoy seguro de que la formulación pretenda sugerir que las ys están normalmente distribuidas, solo que tienen una distribución condicional normal.
Dikran Marsupial
2


yiN(y^i,σε2)
y^xi

y^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]

Entonces la pregunta es, ¿hay alguna razón para preferir presentar la idea usando la primera formulación?

Creo que la respuesta es por dos razones:

  1. YXY|Xε
  2. Y|XY|X

Creo que estas confusiones tienen más probabilidades de usar la segunda formulación que la primera.

gung - Restablece a Monica
fuente
1
y^Xβy^ixiβ^iy^ixiβ^Y
y¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ