¿Cómo afecta la distribución del término de error a la distribución de la respuesta?

14

Entonces, cuando supongo que los términos de error se distribuyen normalmente en una regresión lineal, ¿qué significa para la variable de respuesta, ?y

MarkDollar
fuente

Respuestas:

7

Tal vez estoy fuera, pero creo que deberíamos preguntarnos acerca de , que es cómo leo el OP. En el caso más simple de regresión lineal si su modelo es entonces el único componente estocástico en su modelo es el término de error. Como tal, determina la distribución de muestreo de . Si entonces . Sin embargo, lo que @Aniko dice es cierto sobre (marginalmente sobre ). Así como está la pregunta es un poco vaga.f(y|β,X)y=Xβ+ϵyϵN(0,σ2I)y|X,βN(Xβ,σ2I)f(y)X,β

JMS
fuente
Me gustan todos los comentarios! Y todos parecen tener razón. Pero solo estaba buscando la respuesta más fácil :) ¿Qué sucede cuando asumes que el término de error es distribuido normalmente? ¡Que esto ocurra ahora muy a menudo en realidad se aclara de las otras respuestas! ¡Muchas gracias!
MarkDollar
17

La respuesta corta es que no se puede concluir nada sobre la distribución de , porque depende de la distribución de las x 's y la fuerza y ​​la forma de la relación. Más formalmente, y tendrá una "mezcla de normales" de distribución, que en la práctica puede ser casi cualquier cosa.yxy

Aquí hay dos ejemplos extremos para ilustrar esto:

  1. Supongamos que solo hay dos posibles valores de , 0 an 1, y y = 10 x + N ( 0 , 1 ) . Entonces y tendrá una distribución fuertemente bimodal con protuberancias en 0 y 10.xy=10x+N(0,1)y
  2. Ahora suponga la misma relación, pero dejemos que se distribuya uniformemente en el intervalo 0-1 con muchos valores. Entonces y se distribuirá casi uniformemente en el intervalo 0-10 (con algunas colas medio normales en los bordes).xy

De hecho, dado que cada distribución puede aproximarse bien arbitrariamente con una mezcla de normales, realmente puede obtener cualquier distribución para .y

Aniko
fuente
8
+1 Re la última declaración: una vez cometí el error de pensar eso también. Matemáticamente tienes razón, pero en la práctica es casi imposible aproximar un pico no diferenciable con normales (como las distribuciones en forma de J o U): las normales son demasiado planas en sus picos para capturar la densidad en los picos. Necesitas demasiados componentes. Las normales son buenas para aproximar distribuciones cuyos archivos PDF son muy suaves.
whuber
1
@whuber De acuerdo. No sugeriría usar una aproximación de mezcla normal para cualquier distribución en la práctica, solo estaba tratando de dar un contraejemplo extremo.
Aniko
5

Inventamos el término de error imponiendo un modelo ficticio en datos reales; La distribución del término de error no afecta la distribución de la respuesta.

A menudo suponemos que el error se distribuye normalmente y, por lo tanto, intentamos construir el modelo de manera que nuestros residuos estimados se distribuyan normalmente. Esto puede ser difícil para algunas distribuciones de . En estos casos, supongo que se podría decir que la distribución de la respuesta afecta el término de error.y

Thomas Levine
fuente
2
"A menudo tratamos de construir el modelo de tal manera que nuestra término de error se distribuye normalmente" - para ser precisos, creo que usted se refiere a los residuos . Estas son estimaciones de los términos de error en la misma manera que X β es una estimación de E ( Y ) = X β . Nos gustaría que los residuos se vean normales porque eso es lo que asumimos sobre los términos de error para empezar. Nosotros "inventamos" el término de error al especificar un modelo, no ajustarlo. yXβ^Xβ^E(y)=Xβ
JMS
Estoy de acuerdo con tu precisión, JMS. +1 y ajustaré mi respuesta.
Thomas Levine
2

Si escribe la respuesta como Donde m es el "modelo" (la predicción para y ) y e son los "errores", entonces esto se puede reorganizar para indicar y - m = e . Entonces, asignar una distribución para los errores es lo mismo que indicar las formas en que su modelo está incompleto. Para decirlo de otra manera es que indica en qué medida no sabe por qué la respuesta observada fue el valor que realmente era, y no lo que predijo el modelo. Si supiera que su modelo es perfecto, entonces asignaría una distribución de probabilidad con toda su masa en cero para los errores. Asignando una N (

y=m+e
myeym=e básicamente dice que los errores son pequeños en unidades de σ . La idea es que las predicciones del modelo tienden a ser "incorrectas" en cantidades similares para diferentes observaciones, y es "correcta" en la escala de σ . Como contraste, una asignación alternativa es C a u c h y ( 0 , γ ) que dice que la mayoría de los errores son pequeños, pero algunos errores son bastante grandes: el modelo tiene ocasionalmente "errores" o "conmociones" en términos de predecir la respuesta.N(0,σ2)σσCauchy(0,γ)

En cierto sentido, la distribución del error está más estrechamente vinculada al modelo que a la respuesta. Esto se puede ver a partir de la no identificabilidad de la ecuación anterior, para si ambos y e son desconocidos a continuación, añadir un vector arbitrario a m y restarlo de correos conduce al mismo valor de Y , Y = m + e = ( m + b ) + ( e - b ) = m + e memeyy=m+e=(m+b)+(eb)=m+e. La asignación de una distribución de errores y una ecuación modelo básicamente dice qué vectores arbitrarios son más plausibles que otros.

probabilidadislogica
fuente
"Esto parece extraño porque solo observará y una vez y solo una vez (y es el vector / matriz / etc. completo de respuestas). ¿Cómo puede" distribuirse "esto? En mi opinión, solo puede distribuirse en algún conjunto imaginario, nada que ver con su respuesta real observada. Al menos, cualquier presunción de la respuesta "distribuida" es incuestionable "Estoy confundido; ¿Estás diciendo que no podemos probar vs H 1 : y f 1 ? H0:yf0H1:yf1
JMS
no, lo siento, eso no puede ser lo que estás diciendo. Aunque todavía estoy confundido. Tal vez sea un poco impreciso, pero la forma en que lo leí que tiene muestras de Y i de Y con fijo x i , su modelo es Y = X β + ε , y que se está preguntando lo que la distribución supuesta de ε implica sobre la distribución de Y El | β , X bajo su modelo . Aquí implicaría que es normal; podemos probar eso con nuestra muestranyiYxiY=Xβ+ϵϵY|β,X
JMS,
@JMS: creo que podría eliminar ese primer párrafo. No creo que agregue nada a mi respuesta (además de la confusión).
Probabilidadislogica
una de mis cosas favoritas para agregar a mis respuestas :)
JMS