Razones para que los datos se distribuyan normalmente

19

¿Cuáles son algunos teoremas que podrían explicar (es decir, generativamente) por qué se espera que los datos del mundo real se distribuyan normalmente?

Hay dos que conozco:

  1. El Teorema del límite central (por supuesto), que nos dice que la suma de varias variables aleatorias independientes con media y varianza (incluso cuando no están idénticamente distribuidas) tiende a distribuirse normalmente

  2. Supongamos que X e Y son RV continuos independientes con densidades diferenciables de modo que su densidad conjunta solo depende de + . Entonces X e Y son normales.X2y2

(cross-post de mathexchange )

Editar: Para aclarar, no estoy haciendo ninguna afirmación sobre la cantidad de datos del mundo real que normalmente se distribuyen. Solo estoy preguntando acerca de los teoremas que pueden dar una idea de qué tipo de procesos podrían conducir a datos distribuidos normalmente.

anónimo
fuente
77
Puede encontrar material relacionado interesante en nuestro hilo en stats.stackexchange.com/questions/4364 . Para evitar posibles confusiones entre algunos lectores, me gustaría agregar (y espero que esta sea su intención) que su pregunta no se lea como una sugerencia de que todos o incluso la mayoría de los conjuntos de datos reales pueden aproximarse adecuadamente mediante una distribución normal. En cambio, en ciertos casos cuando se cumplen ciertas condiciones, podría ser útil emplear una distribución normal como marco de referencia para comprender o interpretar los datos: entonces, ¿cuáles podrían ser esas condiciones?
whuber
¡Gracias por el enlace! Y eso es exactamente correcto, gracias por la aclaración. Lo editaré en la publicación original.
anónimo el
@ user43228, " Hay, por supuesto, toneladas de otras distribuciones que surgen en problemas del mundo real que no parecen normales en absoluto " . askamathematician.com/2010/02/…
Pacerier

Respuestas:

17

Muchas distribuciones limitantes de RV discretos (poisson, binomial, etc.) son aproximadamente normales. Piensa en plinko. En casi todos los casos, cuando se mantiene la normalidad aproximada, la normalidad solo se aplica a muestras grandes.

La mayoría de los datos del mundo real NO se distribuyen normalmente. Un artículo de Micceri (1989) titulado " El unicornio, la curva normal y otras criaturas improbables " examinó 440 logros a gran escala y medidas psicométricas. Encontró mucha variabilidad en las distribuciones en sus momentos y poca evidencia de normalidad (incluso aproximada).

En un artículo de Steven Stigler de 1977 llamado " Los estimadores robustos trabajan con datos reales ", usó 24 conjuntos de datos recopilados de famosos intentos del siglo XVIII para medir la distancia desde la tierra al sol y los intentos del siglo XIX para medir la velocidad de la luz. Informó asimetría de la muestra y curtosis en la Tabla 3. Los datos son de cola pesada.

En estadística, asumimos la normalidad muchas veces porque hace que la máxima probabilidad (o algún otro método) sea conveniente. Sin embargo, lo que muestran los dos documentos citados anteriormente es que la suposición es a menudo tenue. Es por eso que los estudios de robustez son útiles.

bsbk
fuente
2
La mayor parte de esta publicación es excelente, pero el párrafo introductorio me molesta porque podría malinterpretarse fácilmente. Se parece decir - en vez de forma explícita - que, en general, una "gran muestra" se verá normalmente distribuida. A la luz de tus comentarios posteriores, no creo que realmente quisieras decir eso.
whuber
Debería haber sido más claro: no estoy sugiriendo que la mayoría de los datos del mundo real se distribuyan normalmente. Pero ese es un gran punto para plantear. Y supongo que lo que quiere decir es que la distribución binomial con n grande es normal, y que la distribución de Poisson con media grande es normal. ¿Qué otras distribuciones tienden hacia la normalidad?
anónimo el
Gracias, edité el primer párrafo. Ver Wald y Wolfowitz (1944) para un teorema sobre formas lineales bajo permutación, por ejemplo. Es decir, mostraron que el estadístico t de dos muestras bajo permutación es asintóticamente normal.
bsbk
¡Una distribución de muestreo no es un "conjunto de datos del mundo real"! Quizás la dificultad que estoy teniendo con aparentes inconsistencias en su publicación se debe a esta confusión entre la distribución y los datos. Quizás se deba a la falta de claridad sobre el proceso "limitante" que realmente tienes en mente.
whuber
3
La pregunta original era sobre explicar "generativamente" cómo podrían surgir datos normales del mundo real. Es concebible que se puedan generar datos reales a partir de un proceso binomial o de Poisson, los cuales pueden ser aproximados por la distribución normal. El operador pidió otros ejemplos y el que vino a mi mente fue la distribución de permutación, que es asintóticamente normal (en ausencia de vínculos). No puedo pensar de manera remota en que los datos reales se generarían a partir de esa distribución, por lo que tal vez sea una exageración.
bsbk
10

También hay una justificación teórica de la información para el uso de la distribución normal. Dada la media y la varianza, la distribución normal tiene una entropía máxima entre todas las distribuciones de probabilidad con valores reales. Hay muchas fuentes que discuten esta propiedad. Una breve se puede encontrar aquí . En este artículo de la revista Signal Processing se puede encontrar una discusión más general sobre la motivación para usar la distribución gaussiana que involucra la mayoría de los argumentos mencionados hasta ahora .

Igor
fuente
66
Esto es al revés, según tengo entendido. Se trata de cómo hacer que la suposición de normalidad sea, en un sentido estrictamente definido, una suposición débil. No veo lo que eso implica sobre los datos del mundo real. También podría argumentar que las curvas son generalmente rectas porque esa es la suposición más simple que puede hacer sobre la curvatura. ¡La epistemología no limita la ontología! Si la referencia que cita va más allá de eso, explique los argumentos.
Nick Cox
3

En física es CLT, que generalmente se cita como una razón para tener errores distribuidos normalmente en muchas mediciones.

Las dos distribuciones de errores más comunes en física experimental son normal y Poisson. Este último generalmente se encuentra en mediciones de conteo, como la desintegración radiactiva.

Otra característica interesante de estas dos distribuciones es que una suma de variables aleatorias de Gauss y Poisson pertenece a Gauss y Poisson.

Hay varios libros sobre estadística en ciencias experimentales como este : Gerhard Bohm, Günter Zech, Introducción a la estadística y análisis de datos para físicos, ISBN 978-3-935702-41-6

Aksakal
fuente
0

El CLT es extremadamente útil cuando se hacen inferencias sobre cosas como el significado de la población porque llegamos allí al calcular algún tipo de combinación lineal de un conjunto de mediciones individuales. Sin embargo, cuando intentamos hacer inferencias sobre observaciones individuales, especialmente futuras ( por ejemplo , intervalos de predicción), las desviaciones de la normalidad son mucho más importantes si estamos interesados ​​en las colas de la distribución. Por ejemplo, si tenemos 50 observaciones, estamos haciendo una extrapolación muy grande (y un salto de fe) cuando decimos algo sobre la probabilidad de que una observación futura sea al menos 3 desviaciones estándar de la media.

Emil Friedman
fuente