Tengo una pregunta rara. Suponga que tiene una pequeña muestra donde la variable dependiente que va a analizar con un modelo lineal simple está muy sesgada. Por lo tanto, supone que no se distribuye normalmente, ya que esto daría como resultado una distribución normal de . Pero cuando calcula el gráfico QQ-Normal hay evidencia de que los residuos se distribuyen normalmente. Por lo tanto, cualquiera puede suponer que el término de error se distribuye normalmente, aunque no lo es. Entonces, ¿qué significa, cuando el término de error parece estar normalmente distribuido, pero no?y y
fuente
@DikranMarsupial tiene toda la razón, por supuesto, pero se me ocurrió que podría ser bueno ilustrar su punto, especialmente porque esta preocupación parece surgir con frecuencia. Específicamente, los residuos de un modelo de regresión deben distribuirse normalmente para que los valores p sean correctos. Sin embargo, incluso si los residuos se distribuyen normalmente, eso no garantiza que será (no es que importe ...); que depende de la distribución de X .Y X
Tomemos un ejemplo simple (que estoy inventando). Digamos que estamos probando un medicamento para la hipertensión sistólica aislada (es decir, el número máximo de presión arterial es demasiado alto). Supongamos que la pb sistólica se distribuye normalmente en nuestra población de pacientes, con una media de 160 y DE de 3, y que por cada mg del medicamento que los pacientes toman cada día, la pb sistólica disminuye en 1 mmHg. En otras palabras, el verdadero valor de es 160, y β 1 es -1, y la verdadera función de generación de datos es: B P s y s = 160 - 1 × dosis diaria de fármaco + εβ0 0 β1
En nuestro estudio ficticio, 300 pacientes son asignados aleatoriamente para tomar 0 mg (un placebo), 20 mg o 40 mg de este nuevo medicamento por día. (Tenga en cuenta que X no se distribuye normalmente). Luego, después de un período de tiempo adecuado para que el medicamento surta efecto, nuestros datos podrían verse así:
(Sacudí las dosis para que los puntos no se superpusieran tanto que fueran difíciles de distinguir). Ahora, veamos las distribuciones de (es decir, su distribución marginal / original) y los residuos:Y
Estos resultados muestran que todo funciona bien.
fuente
fuente