¿Por qué es necesario colocar el supuesto de distribución en los errores, es decir?
, con .
Porque no escribir
, con ,
donde en cualquier caso . Lo he visto enfatizado en que los supuestos de distribución se colocan en los errores, no en los datos, pero sin explicación.
Realmente no entiendo la diferencia entre estas dos formulaciones. En algunos lugares veo suposiciones de distribución que se colocan en los datos (Bayesian encendido. Parece que en su mayoría), pero la mayoría de las veces las suposiciones se colocan en los errores.
Al modelar, ¿por qué debería / debería elegir comenzar con suposiciones sobre uno u otro?
Respuestas:
En una configuración de regresión lineal, es común hacer análisis y derivar resultados condicionales a , es decir, condicionales a "los datos". Por lo tanto, lo que necesita es que y ∣ X sea normal, es decir, necesita que ϵ sea normal. Como lo ilustra el ejemplo de Peter Flom, uno puede tener una normalidad de ϵ sin tener una normalidad de y , y, por lo tanto, dado que lo que necesita es normalidad de ϵ , esa es la suposición sensata.X y∣ X ϵ ϵ y ϵ
fuente
Escribiría la segunda definición como
o (como Karl Oskar sugiere +1)
es decir, el supuesto de modelado es que la variable de respuesta normalmente se distribuye alrededor de la línea de regresión (que es una estimación de la media condicional), con una varianza constante . Esto no es lo mismo que sugerir que y i se distribuye normalmente, porque la media de la distribución depende de X i .σ2 yyo Xyo
Creo que he visto formulaciones similares a esto en la literatura de aprendizaje automático; por lo que yo puedo ver que es equivalente a la primera definición, todo lo que he hecho es rexpress la segunda formulación un poco diferente para eliminar la 's y el Y ' s.ϵyo y^
fuente
La diferencia es más fácil de ilustrar con un ejemplo. Aquí hay uno simple:
Supongamos que Y es bimodal, con la modalidad explicada por una variable independiente. Por ejemplo, suponga que Y es altura y su muestra (por cualquier razón) consiste en jinetes y jugadores de baloncesto. por ejemplo en
R
La primera densidad es muy no normal. Pero los residuos del modelo son extremadamente cercanos a lo normal.
En cuanto a por qué las restricciones se colocan de esta manera, dejaré que otra persona responda esa.
fuente
Entonces la pregunta es, ¿hay alguna razón para preferir presentar la idea usando la primera formulación?
Creo que la respuesta es sí por dos razones:
Creo que estas confusiones tienen más probabilidades de usar la segunda formulación que la primera.
fuente