¿Qué pasa si los residuos se distribuyen normalmente, pero y no?

110

Tengo una pregunta rara. Suponga que tiene una pequeña muestra donde la variable dependiente que va a analizar con un modelo lineal simple está muy sesgada. Por lo tanto, supone que tu no se distribuye normalmente, ya que esto daría como resultado una distribución normal de . Pero cuando calcula el gráfico QQ-Normal hay evidencia de que los residuos se distribuyen normalmente. Por lo tanto, cualquiera puede suponer que el término de error se distribuye normalmente, aunque no lo es. Entonces, ¿qué significa, cuando el término de error parece estar normalmente distribuido, pero no?y yyyy

MarkDollar
fuente

Respuestas:

143

Es razonable que los residuos en un problema de regresión se distribuyan normalmente, aunque la variable de respuesta no lo sea. Considere un problema de regresión univariante donde . para que el modelo de regresión sea apropiado, y además suponga que el verdadero valor de β = 1 . En este caso, mientras que los residuos de la verdadera modelo de regresión son normales, la distribución de y depende de la distribución de x , como la media condicional de y es una función de x . Si el conjunto de datos tiene muchos valores de xynorte(βX,σ2)β=1yXyXXque están cerca de cero y progresivamente menos cuanto mayor sea el valor de , entonces la distribución de y estará sesgada a la izquierda. Si los valores de x se distribuyen simétricamente, entonces y se distribuirá simétricamente, y así sucesivamente. Para un problema de regresión, solo asumimos que la respuesta es normal condicionada por el valor de x .XyXyX

Dikran Marsupial
fuente
99
(+1) ¡No creo que esto se pueda repetir con la suficiente frecuencia! Vea también el mismo problema discutido aquí .
Wolfgang
1
Entiendo tu respuesta y suena correcta. Al menos ganaste muchos votos positivos :) Pero no estoy contento en absoluto. Entonces, en su ejemplo los supuestos que ha hecho son y N ( 1 x , σ 2 ) . Pero cuando estoy estimando la regresión, estoy estimando E ( y | x ) . Por lo tanto, x debería darse en el momento en que estoy estimando la media. De esto debería deducirse que x es un valor y no me importa cómo se distribuyó antes de darme cuenta. Así y ~ N ( v un lβ=1ynorte(1X,σ2)mi(yEl |X)X es la distribución de y . No entiendo donde la x afecta a la y . ynorte(vunaltumi,σ2)yXy
MarkDollar
44
También estoy bastante (gratamente) sorprendido por el número de votos; o) Para obtener los datos utilizados para ajustar el modelo de regresión, ha tomado una muestra de alguna distribución conjunta , a partir de la cual desea estimar E ( y | x ) . Sin embargo, como y es una función (ruidosa) de x , la distribución de muestras de y debe depender de la distribución de muestras de x , para esa muestra en particular. Puede que no le interese la distribución "verdadera" de x , pero la distribución de muestra de y depende de la muestra de x. p(y,x)E(y|x)yxyXX
Dikran Marsupial
2
Considere un ejemplo de estimación de temperatura ( ) en función de la latitud ( x ). La distribución de los valores y en nuestra muestra dependerá de dónde elijamos ubicar las estaciones meteorológicas. Si los colocamos todos en los polos o en el ecuador, tendremos una distribución bimodal. Si los colocamos en una cuadrícula de área igual regular, obtendremos una distribución unimodal de los valores de y , a pesar de que la física del clima es la misma para ambas muestras. Por supuesto, esto afectará su modelo de regresión ajustado, y el estudio de ese tipo de cosas se conoce como "cambio de covariable". HTHyXyy
Dikran Marsupial
Sospecho también que la está condicionada a la suposición implícita de que los datos utilizados fueron una muestra iid de la distribución conjunta operativa p ( y , x ) . mi(yEl |X)pags(y,X)
Dikran Marsupial
100

@DikranMarsupial tiene toda la razón, por supuesto, pero se me ocurrió que podría ser bueno ilustrar su punto, especialmente porque esta preocupación parece surgir con frecuencia. Específicamente, los residuos de un modelo de regresión deben distribuirse normalmente para que los valores p sean correctos. Sin embargo, incluso si los residuos se distribuyen normalmente, eso no garantiza que será (no es que importe ...); que depende de la distribución de X . YX

Tomemos un ejemplo simple (que estoy inventando). Digamos que estamos probando un medicamento para la hipertensión sistólica aislada (es decir, el número máximo de presión arterial es demasiado alto). Supongamos que la pb sistólica se distribuye normalmente en nuestra población de pacientes, con una media de 160 y DE de 3, y que por cada mg del medicamento que los pacientes toman cada día, la pb sistólica disminuye en 1 mmHg. En otras palabras, el verdadero valor de es 160, y β 1 es -1, y la verdadera función de generación de datos es: B P s y s = 160 - 1 × dosis diaria de fármaco + εβ0 0β1 En nuestro estudio ficticio, 300 pacientes son asignados aleatoriamente para tomar 0 mg (un placebo), 20 mg o 40 mg de este nuevo medicamento por día. (Tenga en cuenta que X no se distribuye normalmente). Luego, después de un período de tiempo adecuado para que el medicamento surta efecto, nuestros datos podrían verse así:

siPAGSsys=160-1×dosis diaria de drogas+εdónde εnorte(0 0,9 9)
X

ingrese la descripción de la imagen aquí

(Sacudí las dosis para que los puntos no se superpusieran tanto que fueran difíciles de distinguir). Ahora, veamos las distribuciones de (es decir, su distribución marginal / original) y los residuos: Y

ingrese la descripción de la imagen aquí

YY

YXpags<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

ingrese la descripción de la imagen aquí

Estos resultados muestran que todo funciona bien.

X YX

gung
fuente
1
Entonces, ¿la suposición de que los residuos se distribuyen normalmente es solo para que los valores p sean correctos? ¿Por qué los valores p podrían salir mal si el residual no es normal?
aguacate
3
@loganecolss, eso podría ser mejor como una nueva pregunta. En cualquier caso, , tiene que ver si los valores p son correctos. Si sus residuos son suficientemente no normales y su N es bajo, entonces la distribución de muestreo diferirá de cómo se teoriza que sea. Dado que el valor p es cuánto de esa distribución de muestreo está más allá de su estadística de prueba, el valor p estará equivocado.
gung
0

XYX

Dovini Jayasinghe
fuente
3
La distribución marginal de la respuesta no es "sin sentido" en absoluto; es la distribución marginal de la respuesta (y a menudo debería insinuar modelos distintos de la regresión simple con errores normales). Tiene razón al enfatizar que las distribuciones condicionales son importantes una vez que consideramos el modelo en cuestión, pero esto no se suma a las excelentes respuestas existentes.
Nick Cox