Fuentes aparentemente de buena reputación afirman que la variable dependiente debe distribuirse normalmente:
Suposiciones del modelo: se distribuye normalmente, los errores se distribuyen normalmente, , e independiente, y es fijo, y la varianza constante .
En segundo lugar, el análisis de regresión lineal requiere que todas las variables sean multivariadas normales.
Esto es apropiado cuando la variable de respuesta tiene una distribución normal
¿Hay una buena explicación de cómo o por qué se ha extendido este concepto erróneo? ¿Se conoce su origen?
X <- runif(n=100)
luegoY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)
juega con histogramas para convencerte de que ni X ni Y se distribuyen normalmente. Luegosummary(lm(Y ~ X))
, y preste mucha atención a lo cerca que está la intersección de 3, y la pendiente de X es 0.5. La suposición es que los errores se distribuyen normalmente.Respuestas:
'Y debe estar normalmente distribuido'
¿debe?
En los casos que usted menciona, es un lenguaje descuidado (abreviando 'el error en Y debe estar distribuido normalmente' ), pero en realidad no dicen (fuertemente) que la respuesta debe estar distribuida normalmente, o al menos no parece yo que sus palabras fueron pensadas así.
El material del curso de Penn State
al explicar alguna variante de GLM (regresión logística binaria),
en alguna definición
La página web de statssolutions
es una descripción extremadamente breve, simplificada y estilizada. No estoy seguro de que deba tomar esto en serio. Por ejemplo, habla de
entonces esa no es solo la variable de respuesta,
y también el descriptor 'multivariante' es vago. No estoy seguro de cómo interpretar eso.
El artículo de wikipedia
tiene un contexto adicional explicado entre paréntesis:
La línea particular se agregó el 8 de marzo de 2012 , pero tenga en cuenta que la primera línea del artículo de Wikipedia todavía dice "una generalización flexible de la regresión lineal ordinaria que permite variables de respuesta que tienen modelos de distribución de errores distintos de una distribución normal" y no es tanto (no en todas partes) mal.
Conclusión
Entonces, en base a estos tres ejemplos (que de hecho podrían generar conceptos erróneos, o al menos podrían malinterpretarse), no diría que "este concepto erróneo se ha extendido" . O al menos no me parece que la intención de esos tres ejemplos sea argumentar que Y debe estar normalmente distribuido (aunque sí recuerdo que este problema ha surgido antes aquí en stackexchange, el intercambio entre los errores normalmente distribuidos y la variable de respuesta normalmente distribuida es fácil de hacer)
Por lo tanto, la suposición de que 'Y debe distribuirse normalmente' no me parece una creencia / idea errónea generalizada (como en algo que se propaga como un arenque rojo), sino más bien un error común (que no se propaga sino que se hace de forma independiente cada vez )
Comentario adicional
Un ejemplo del error en este sitio web está en la siguiente pregunta
¿Qué pasa si los residuos se distribuyen normalmente, pero y no?
Consideraría esto como una pregunta para principiantes. No está presente en los materiales como el material del curso de Penn State, el sitio web de Wikipedia, y recientemente señaló en los comentarios el libro 'Extendiendo la regresión lineal con R'.
Los escritores de esas obras entienden correctamente el material. De hecho, usan frases como 'Y debe estar distribuido normalmente', pero según el contexto y las fórmulas utilizadas, puede ver que todas significan 'Y, condicional a X, deben estar distribuidas normalmente' y no 'el Y marginal debe estar normalmente distribuido ". No están malinterpretando la idea ellos mismos, y al menos la idea no está muy extendida entre los estadísticos y las personas que escriben libros y otros materiales del curso. Pero leer mal sus palabras ambiguas puede causar la idea errónea.
fuente
Generalmente enseñamos a los estudiantes universitarios una versión "simplificada" de estadísticas en muchas disciplinas. Estoy en psicología, y cuando trato de decirles a los estudiantes universitarios que los valores p son "la probabilidad de los datos, o datos más extremos, dado que la hipótesis nula es cierta", mis colegas me dicen que estoy cubriendo más detalles de los que necesito. cubrir. Que lo estoy haciendo más difícil de lo que debe ser, etc. Dado que los estudiantes en las clases tienen una gama tan amplia de comodidad (o falta de ella) con las estadísticas, los instructores generalmente lo mantienen simple: "Consideramos que es un hallazgo confiable si p <.05, "por ejemplo, en lugar de darles la definición real de un valor p .
Creo que aquí es donde se ha extendido la explicación de por qué se ha extendido el error. Por ejemplo, puede escribir el modelo como:
Esto puede reescribirse como:
Lo que significa que "Y, condicional a X, normalmente se distribuye con una media de los valores predichos y alguna variación".
Esto es difícil de explicar, por lo que la gente taquigráfica podría decir: "Y debe distribuirse normalmente". O cuando se les explicó originalmente, la gente entendió mal la parte condicional, ya que, honestamente, es confusa.
Entonces, en un esfuerzo por no complicar las cosas terriblemente, los instructores simplemente simplifican lo que dicen para no confundir demasiado a la mayoría de los estudiantes. Y luego las personas continúan en su educación estadística o práctica estadística con ese concepto erróneo. Yo mismo no entendí completamente el concepto hasta que comencé a modelar bayesiano en Stan, lo que requiere que escribas tus suposiciones de esta manera:
Además, en muchos paquetes estadísticos con una GUI (mirándolo, SPSS), es más fácil verificar si la distribución marginal está normalmente distribuida (histograma simple) que verificar si los residuales están normalmente distribuidos (regresión de ejecución, guardar residuos, ejecutar histograma en esos residuos).
Por lo tanto, creo que la idea errónea se debe principalmente a que los instructores tratan de eliminar los detalles para evitar que los estudiantes se confundan, confundan y comprendan la confusión entre las personas que lo aprenden de la manera correcta, y ambos se refuerzan por la facilidad de verificar la normalidad marginal en el paquetes estadísticos más fáciles de usar.
fuente
El análisis de regresión es difícil para los principiantes porque hay diferentes resultados que están implicados por diferentes supuestos iniciales. Los supuestos iniciales más débiles pueden justificar algunos de los resultados, pero puede obtener resultados más sólidos cuando agrega supuestos más sólidos. Las personas que no están familiarizadas con la derivación matemática completa de los resultados a menudo pueden malinterpretar las suposiciones requeridas para un resultado, ya sea planteando su modelo demasiado débilmente para obtener un resultado requerido, o planteando algunas suposiciones innecesarias en la creencia de que se requieren para un resultado .
Aunque es posible agregar suposiciones más fuertes para obtener resultados adicionales, el análisis de regresión se refiere a la distribución condicional del vector de respuesta. Si un modelo va más allá de esto, está entrando en el territorio del análisis multivariado, y no es estrictamente (solo) un modelo de regresión. El asunto se complica aún más por el hecho de que es común referirse a resultados de distribución en regresión sin tener siempre cuidado de especificar que son distribuciones condicionales (dadas las variables explicativas en la matriz de diseño). En los casos en que los modelos van más allá de las distribuciones condicionales (asumiendo una distribución marginal para los vectores explicativos), el usuario debe tener cuidado al especificar esta diferencia; desafortunadamente la gente no siempre tiene cuidado con esto.
Modelo de regresión lineal homeskedastic: el primer punto de partida que generalmente se usa es asumir la forma del modelo y los primeros dos momentos de error sin ningún supuesto de normalidad:
Esta configuración es suficiente para permitirle obtener el estimador OLS para los coeficientes, el estimador insesgado para la varianza del error, los residuales y los momentos de todas estas cantidades aleatorias (condicional a las variables explicativas en la matriz de diseño). No le permite obtener la distribución condicional completa de estas cantidades, pero sí permite apelar a distribuciones asintóticas si es grande y se hacen algunas suposiciones adicionales sobre el comportamiento limitante de . Para ir más allá, es común asumir una forma de distribución específica para el vector de error.xn x
Errores normales: la mayoría de los tratamientos del modelo de regresión lineal homoskedastic asume que el vector de error se distribuye normalmente, lo que en combinación con los supuestos de momento da:
Esta suposición adicional es suficiente para garantizar que el estimador de MCO para los coeficientes sea el MLE para el modelo, y también significa que el estimador de coeficiente y los residuos están normalmente distribuidos y el estimador para la varianza del error tiene una distribución de chi-cuadrado escalado (todos condicional a las variables explicativas en la matriz de diseño). También asegura que el vector de respuesta se distribuya normalmente condicionalmente. Esto da resultados de distribución condicionales a las variables explicativas en el análisis, lo que permite la construcción de intervalos de confianza y pruebas de hipótesis. Si el analista quiere hacer hallazgos sobre la distribución marginal de la respuesta, debe ir más allá y asumir una distribución para las variables explicativas en el modelo.
Variables explicativas conjuntas normales: algunos tratamientos del modelo de regresión lineal homoscedastic van más allá de los tratamientos estándar y no condicionan las variables explicativas fijas. (Podría decirse que esta es una transición desde el modelado de regresión hacia el análisis multivariante). El modelo más común de este tipo supone que los vectores explicativos son vectores aleatorios conjuntos normales de IID. Dejando que sea el ésimo vector explicativo (la ésima fila de la matriz de diseño) tenemos: i iX(i) i i
Esta suposición adicional es suficiente para asegurar que el vector de respuesta esté marginalmente distribuido normalmente. Esta es una suposición fuerte y generalmente no se impone en la mayoría de los problemas. Como se indicó, esto lleva el modelo fuera del territorio del modelado de regresión al análisis multivariado.
fuente