¿De dónde viene la idea errónea de que Y debe distribuirse normalmente?

45

Fuentes aparentemente de buena reputación afirman que la variable dependiente debe distribuirse normalmente:

Suposiciones del modelo: Y se distribuye normalmente, los errores se distribuyen normalmente, eiN(0,σ2) , e independiente, y X es fijo, y la varianza constante σ2 .

Penn State, STAT 504 Análisis de datos discretos

En segundo lugar, el análisis de regresión lineal requiere que todas las variables sean multivariadas normales.

Estadísticas Soluciones , supuestos de regresión lineal

Esto es apropiado cuando la variable de respuesta tiene una distribución normal

Wikipedia, modelo lineal generalizado

¿Hay una buena explicación de cómo o por qué se ha extendido este concepto erróneo? ¿Se conoce su origen?

Relacionado

timwiz
fuente
17
Triste. Estás haciendo una buena acción aquí ...
jbowman
77
No conozco ninguna situación que use regresión lineal que requiera la distribución marginal de , o la unión de todas las variables sea multivariada normal. Esos me parecen conceptos erróneos. Y
Matthew Drury el
8
@MichaelChernick "Y es normalmente distribuido" es claramente falso. Compruébalo en R: X <- runif(n=100)luego Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)juega con histogramas para convencerte de que ni X ni Y se distribuyen normalmente. Luego summary(lm(Y ~ X)), y preste mucha atención a lo cerca que está la intersección de 3, y la pendiente de X es 0.5. La suposición es que los errores se distribuyen normalmente.
Alexis
99
@Alexis Creo que lo que Michael estaba tratando de decir es que los supuestos de normalidad multivariados son suficientes pero no necesarios. Así es claramente como se debe leer la cita de Wikipedia. La segunda cita obviamente es incorrecta al afirmar que esos supuestos son necesarios. La primera cita es ambigua, pero podría leerse generosamente en el sentido aclarado por Michael.
whuber
66
Todo lo que decía era que el supuesto de normalidad implica ciertas propiedades. Por ejemplo, en una regresión lineal simple, si asume que los términos de error son normales con cero media y varianza constante, la estimación de mínimos cuadrados de los parámetros de regresión es de máxima probabilidad. Mantener todos los supuestos, excepto los mínimos cuadrados de normalidad, ya no es una probabilidad máxima, pero sigue siendo una varianza mínima imparcial.
Michael Chernick

Respuestas:

13

'Y debe estar normalmente distribuido'

¿debe?


En los casos que usted menciona, es un lenguaje descuidado (abreviando 'el error en Y debe estar distribuido normalmente' ), pero en realidad no dicen (fuertemente) que la respuesta debe estar distribuida normalmente, o al menos no parece yo que sus palabras fueron pensadas así.

El material del curso de Penn State

YYi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

YYi

  • al explicar alguna variante de GLM (regresión logística binaria),

    YBinomial(n,π)

  • en alguna definición

    YYY

YiY

  • Yi

La página web de statssolutions

es una descripción extremadamente breve, simplificada y estilizada. No estoy seguro de que deba tomar esto en serio. Por ejemplo, habla de

... requiere que todas las variables sean multivariadas normales ...

entonces esa no es solo la variable de respuesta,

y también el descriptor 'multivariante' es vago. No estoy seguro de cómo interpretar eso.

El artículo de wikipedia

tiene un contexto adicional explicado entre paréntesis:

La regresión lineal ordinaria predice el valor esperado de una cantidad desconocida dada (la variable de respuesta, una variable aleatoria) como una combinación lineal de un conjunto de valores observados (predictores) . Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal). Esto es apropiado cuando la variable de respuesta tiene una distribución normal (intuitivamente, cuando una variable de respuesta puede variar esencialmente indefinidamente en cualquier dirección sin un "valor cero" fijo, o más generalmente para cualquier cantidad que solo varía en una cantidad relativamente pequeña, por ejemplo, humana alturas).

y+ϵϵN(0,σ)

La línea particular se agregó el 8 de marzo de 2012 , pero tenga en cuenta que la primera línea del artículo de Wikipedia todavía dice "una generalización flexible de la regresión lineal ordinaria que permite variables de respuesta que tienen modelos de distribución de errores distintos de una distribución normal" y no es tanto (no en todas partes) mal.


Conclusión

Entonces, en base a estos tres ejemplos (que de hecho podrían generar conceptos erróneos, o al menos podrían malinterpretarse), no diría que "este concepto erróneo se ha extendido" . O al menos no me parece que la intención de esos tres ejemplos sea argumentar que Y debe estar normalmente distribuido (aunque sí recuerdo que este problema ha surgido antes aquí en stackexchange, el intercambio entre los errores normalmente distribuidos y la variable de respuesta normalmente distribuida es fácil de hacer)

Por lo tanto, la suposición de que 'Y debe distribuirse normalmente' no me parece una creencia / idea errónea generalizada (como en algo que se propaga como un arenque rojo), sino más bien un error común (que no se propaga sino que se hace de forma independiente cada vez )


Comentario adicional

Un ejemplo del error en este sitio web está en la siguiente pregunta

¿Qué pasa si los residuos se distribuyen normalmente, pero y no?

Consideraría esto como una pregunta para principiantes. No está presente en los materiales como el material del curso de Penn State, el sitio web de Wikipedia, y recientemente señaló en los comentarios el libro 'Extendiendo la regresión lineal con R'.

Los escritores de esas obras entienden correctamente el material. De hecho, usan frases como 'Y debe estar distribuido normalmente', pero según el contexto y las fórmulas utilizadas, puede ver que todas significan 'Y, condicional a X, deben estar distribuidas normalmente' y no 'el Y marginal debe estar normalmente distribuido ". No están malinterpretando la idea ellos mismos, y al menos la idea no está muy extendida entre los estadísticos y las personas que escriben libros y otros materiales del curso. Pero leer mal sus palabras ambiguas puede causar la idea errónea.

Sexto Empírico
fuente
3
+1 Dicho esto: creo que todos hemos visto muchas preguntas que afirman la normalidad marginal de Y por aquí ... hay cierta propagación de conceptos erróneos. :)
Alexis
Sí, estoy de acuerdo en que la suposición de 'y normalmente distribuido' ocurre a menudo (no pude encontrar ejemplos fácilmente, pero eso podría deberse a que las personas describen estas cosas entre líneas y no con palabras clave simples). Sin embargo, creo que esto es más algo que es "común", no algo que se está " extendiendo ". Y al menos, ciertamente, los tres ejemplos dados por el OP no son muy fuertes (no lo son en el sentido de indicar la difusión del concepto erróneo, aunque sí describen el uso patológico del lenguaje y cómo se pueden originar los errores).
Sextus Empiricus
@Martijn Weterings: Me gustaría estar en desacuerdo con su afirmación "No diría que esta idea errónea se ha extendido". En su libro Extendiendo la regresión lineal con R, utilizado como lectura requerida en varios programas de estadísticas de posgrado, Julian Faraway afirma en la página xi del Prefacio de este libro que "El modelo lineal estándar no puede manejar respuestas no normales, y, tales como recuentos o proporciones ".
ColorStatistics
n1(r1)(c1)
1
y=β0+β1x1+...βpxp+ϵϵLa respuesta debe tener la distribución particular que se menciona.
Sextus Empiricus
29

¿Hay una buena explicación de cómo / por qué se ha extendido este concepto erróneo? ¿Se conoce su origen?

Generalmente enseñamos a los estudiantes universitarios una versión "simplificada" de estadísticas en muchas disciplinas. Estoy en psicología, y cuando trato de decirles a los estudiantes universitarios que los valores p son "la probabilidad de los datos, o datos más extremos, dado que la hipótesis nula es cierta", mis colegas me dicen que estoy cubriendo más detalles de los que necesito. cubrir. Que lo estoy haciendo más difícil de lo que debe ser, etc. Dado que los estudiantes en las clases tienen una gama tan amplia de comodidad (o falta de ella) con las estadísticas, los instructores generalmente lo mantienen simple: "Consideramos que es un hallazgo confiable si p <.05, "por ejemplo, en lugar de darles la definición real de un valor p .

Creo que aquí es donde se ha extendido la explicación de por qué se ha extendido el error. Por ejemplo, puede escribir el modelo como:

Y=β0+β1X+ϵϵN(0,σϵ2)

Esto puede reescribirse como:

Y|XN(β0+β1X,σϵ2)

Lo que significa que "Y, condicional a X, normalmente se distribuye con una media de los valores predichos y alguna variación".

Esto es difícil de explicar, por lo que la gente taquigráfica podría decir: "Y debe distribuirse normalmente". O cuando se les explicó originalmente, la gente entendió mal la parte condicional, ya que, honestamente, es confusa.

Entonces, en un esfuerzo por no complicar las cosas terriblemente, los instructores simplemente simplifican lo que dicen para no confundir demasiado a la mayoría de los estudiantes. Y luego las personas continúan en su educación estadística o práctica estadística con ese concepto erróneo. Yo mismo no entendí completamente el concepto hasta que comencé a modelar bayesiano en Stan, lo que requiere que escribas tus suposiciones de esta manera:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Además, en muchos paquetes estadísticos con una GUI (mirándolo, SPSS), es más fácil verificar si la distribución marginal está normalmente distribuida (histograma simple) que verificar si los residuales están normalmente distribuidos (regresión de ejecución, guardar residuos, ejecutar histograma en esos residuos).

Por lo tanto, creo que la idea errónea se debe principalmente a que los instructores tratan de eliminar los detalles para evitar que los estudiantes se confundan, confundan y comprendan la confusión entre las personas que lo aprenden de la manera correcta, y ambos se refuerzan por la facilidad de verificar la normalidad marginal en el paquetes estadísticos más fáciles de usar.

Mark White
fuente
2
Creo que tienes razón. Muchas personas no entienden la parte condicional. Simplemente piensan distribuido normal.
SmallChess
3
Estoy de acuerdo en que este podría ser 'uno' de los modos por los cuales ocurre este error / se propaga. Sin embargo, el material del curso de Penn State me parece que no se debe a esta simplificación 'intencional' y también se debe a una escritura de notación descuidada. Es un poco como pequeñas notas (curso). O como comentarios para stackexchange, simplificaciones en el lenguaje. En algunos lugares usan las palabras correctas. (personalmente, mis esquemas / diagramas son mejores que mis palabras / fórmulas, pero eso no significa que lo que escribo, si es incorrecto, sea necesariamente una idea incorrecta)
Sextus Empiricus
1
@MartijnWeterings De acuerdo: es muy fácil confundir a alguien al no usar un lenguaje específico. Es difícil ser siempre específico con su idioma en algo tan abstracto como suposiciones estadísticas, y muchas personas inteligentes cometen errores simples, lo que lleva a ideas erróneas generalizadas como esta.
Mark White
1
MarkWhite, realmente aprecio la atención que dirige a cómo enseñamos ... Creo que eso habla de manera importante sobre el interés del OP en la "difusión de conceptos erróneos" (además de los matices de lo que es y lo que no es un concepto erróneo )
Alexis
16

El análisis de regresión es difícil para los principiantes porque hay diferentes resultados que están implicados por diferentes supuestos iniciales. Los supuestos iniciales más débiles pueden justificar algunos de los resultados, pero puede obtener resultados más sólidos cuando agrega supuestos más sólidos. Las personas que no están familiarizadas con la derivación matemática completa de los resultados a menudo pueden malinterpretar las suposiciones requeridas para un resultado, ya sea planteando su modelo demasiado débilmente para obtener un resultado requerido, o planteando algunas suposiciones innecesarias en la creencia de que se requieren para un resultado .

Aunque es posible agregar suposiciones más fuertes para obtener resultados adicionales, el análisis de regresión se refiere a la distribución condicional del vector de respuesta. Si un modelo va más allá de esto, está entrando en el territorio del análisis multivariado, y no es estrictamente (solo) un modelo de regresión. El asunto se complica aún más por el hecho de que es común referirse a resultados de distribución en regresión sin tener siempre cuidado de especificar que son distribuciones condicionales (dadas las variables explicativas en la matriz de diseño). En los casos en que los modelos van más allá de las distribuciones condicionales (asumiendo una distribución marginal para los vectores explicativos), el usuario debe tener cuidado al especificar esta diferencia; desafortunadamente la gente no siempre tiene cuidado con esto.


Modelo de regresión lineal homeskedastic: el primer punto de partida que generalmente se usa es asumir la forma del modelo y los primeros dos momentos de error sin ningún supuesto de normalidad:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Esta configuración es suficiente para permitirle obtener el estimador OLS para los coeficientes, el estimador insesgado para la varianza del error, los residuales y los momentos de todas estas cantidades aleatorias (condicional a las variables explicativas en la matriz de diseño). No le permite obtener la distribución condicional completa de estas cantidades, pero sí permite apelar a distribuciones asintóticas si es grande y se hacen algunas suposiciones adicionales sobre el comportamiento limitante de . Para ir más allá, es común asumir una forma de distribución específica para el vector de error.xnx

Errores normales: la mayoría de los tratamientos del modelo de regresión lineal homoskedastic asume que el vector de error se distribuye normalmente, lo que en combinación con los supuestos de momento da:

ε|xN(0,σ2I).

Esta suposición adicional es suficiente para garantizar que el estimador de MCO para los coeficientes sea el MLE para el modelo, y también significa que el estimador de coeficiente y los residuos están normalmente distribuidos y el estimador para la varianza del error tiene una distribución de chi-cuadrado escalado (todos condicional a las variables explicativas en la matriz de diseño). También asegura que el vector de respuesta se distribuya normalmente condicionalmente. Esto da resultados de distribución condicionales a las variables explicativas en el análisis, lo que permite la construcción de intervalos de confianza y pruebas de hipótesis. Si el analista quiere hacer hallazgos sobre la distribución marginal de la respuesta, debe ir más allá y asumir una distribución para las variables explicativas en el modelo.

Variables explicativas conjuntas normales: algunos tratamientos del modelo de regresión lineal homoscedastic van más allá de los tratamientos estándar y no condicionan las variables explicativas fijas. (Podría decirse que esta es una transición desde el modelado de regresión hacia el análisis multivariante). El modelo más común de este tipo supone que los vectores explicativos son vectores aleatorios conjuntos normales de IID. Dejando que sea ​​el ésimo vector explicativo (la ésima fila de la matriz de diseño) tenemos: i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Esta suposición adicional es suficiente para asegurar que el vector de respuesta esté marginalmente distribuido normalmente. Esta es una suposición fuerte y generalmente no se impone en la mayoría de los problemas. Como se indicó, esto lleva el modelo fuera del territorio del modelado de regresión al análisis multivariado.

Reinstalar a Mónica
fuente
1
Me pareció muy perspicaz la forma en que introdujiste suposiciones más fuertes una por una y describí las implicaciones.
ColorStatistics