¿Hay alguna explicación de por qué hay tantos fenómenos naturales que siguen a la distribución normal?

29

Creo que este es un tema fascinante y no lo entiendo completamente. ¿Qué ley de la física hace que tantos fenómenos naturales tengan una distribución normal? Parecería más intuitivo que tendrían una distribución uniforme.

Es muy difícil para mí entender esto y siento que me falta algo de información. ¿Alguien puede ayudarme con una buena explicación o vincularme a un libro / video / artículo?

yoyo_fun
fuente
Mira esto .
Antoni Parellada
77
¿Tiene una razón sólida para pensar que su premisa es realmente el caso?
Glen_b -Reinstala Monica
44
En realidad, la distribución normal puede no ser la distribución "dominante" en la naturaleza. Hay muchos fenómenos y comportamientos que son extremadamente valorados, de cola pesada o describen funciones de la ley de poder. Gabaix documenta muchas de las variantes económicas y financieras de esta clase de distribución en su artículo Power Laws in Economics: An Introduction , unged here ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi, et Alabama. discuta su estimación empírica en este documento Distribuciones de leyes de poder en datos empíricos , sin delegar aquí ... santafe.edu/media/workingpapers/07-12-049.pdf
Mike Hunter
¿Quién te dijo que la distribución normal era dominante de todos modos?
shadowtalker
1
@DJohnson +1 para los enlaces, pero es importante señalar que un hallazgo clave en Clauset et al. El documento es que no hay demasiadas distribuciones empíricas de leyes de poder que sean fuertemente compatibles Citando los hallazgos, "En solo un caso, la distribución de las frecuencias de aparición de palabras en texto en inglés, la ley de poder parece ser realmente convincente en el sentido de que se ajusta perfectamente a los datos y ninguna de las alternativas conlleva peso."
Sycorax dice Reinstate Monica el

Respuestas:

31

Permítanme comenzar negando la premisa. Robert Geary probablemente no exageró el caso cuando dijo (en 1947) " ... la normalidad es un mito; nunca hubo, y nunca habrá, una distribución normal ".
La distribución normal es un modelo *, un aproximación que a veces es más o menos útil.

* (sobre el cual, vea George Box , aunque prefiero la versión en mi perfil).

Que algunos fenómenos sean aproximadamente normales puede no ser una gran sorpresa, ya que las sumas de efectos independientes [o incluso no muy fuertemente correlacionados] deberían, si hay muchos de ellos y ninguno tiene una variación sustancial en comparación con la variación de suma del resto que podríamos ver la distribución tiende a parecer más normal.

El teorema del límite central (que trata sobre la convergencia a una distribución normal de una media muestral estandarizada cuando llega al infinito en algunas condiciones suaves) al menos sugiere que podríamos ver una tendencia hacia esa normalidad con tamaños de muestra suficientemente grandes pero finitos.n

Por supuesto, si los medios estandarizados son aproximadamente normales, las sumas estandarizadas lo serán; Esta es la razón del razonamiento de la "suma de muchos efectos". Entonces, si hay muchas pequeñas contribuciones a la variación, y no están altamente correlacionadas, es probable que tengas que verla.

El teorema de Berry-Esseen nos da una declaración al respecto (convergencia hacia distribuciones normales) que realmente ocurre con medias de muestra estandarizadas para datos iid (en condiciones ligeramente más estrictas que para el CLT, ya que requiere que el tercer momento absoluto sea finito), como además de contarnos qué tan rápido sucede. Las versiones posteriores del teorema tratan con componentes no idénticamente distribuidos en la suma , aunque los límites superiores en la desviación de la normalidad son menos ajustados.

Menos formalmente, el comportamiento de las convoluciones con distribuciones razonablemente agradables nos da razones adicionales (aunque estrechamente relacionadas) para sospechar que en muchos casos puede ser una aproximación justa en muestras finitas. La convolución actúa como una especie de operador "difuminado" con el que las personas que usan la estimación de la densidad del núcleo en una variedad de núcleos estarán familiarizadas; una vez que estandariza el resultado (para que la varianza permanezca constante cada vez que realiza dicha operación), hay una clara progresión hacia formas de colina cada vez más simétricas a medida que suaviza repetidamente (y no importa mucho si cambia el núcleo cada vez).

Terry Tao da una buena discusión de las versiones del teorema del límite central y el teorema de Berry-Esseen aquí , y en el camino menciona un enfoque a una versión no independiente de Berry-Esseen.

Entonces, hay al menos una clase de situaciones en las que podríamos esperar verla, y razones formales para pensar que realmente tenderá a suceder en esas situaciones. Sin embargo, en el mejor de los casos, cualquier sensación de que el resultado de "sumas de muchos efectos" será normal es una aproximación. En muchos casos, es una aproximación bastante razonable (y en casos adicionales, aunque la aproximación de la distribución no es cercana, algunos procedimientos que suponen que la normalidad no son especialmente sensibles a la distribución de los valores individuales, al menos en muestras grandes).

Hay muchas otras circunstancias donde los efectos no "suman" y allí podemos esperar que sucedan otras cosas; por ejemplo, en muchos datos financieros, los efectos tienden a ser multiplicativos (los efectos moverán cantidades en términos porcentuales, como intereses e inflación y tasas de cambio, por ejemplo). Allí no esperamos normalidad, pero a veces podemos observar una aproximación aproximada a la normalidad en la escala logarítmica. En otras situaciones, ninguno puede ser apropiado, incluso en un sentido aproximado. Por ejemplo, los tiempos entre eventos generalmente no se aproximarán bien por la normalidad o la normalidad de los registros; no hay "sumas" ni "productos" de efectos para discutir aquí. Existen numerosos otros fenómenos en los que podemos argumentar a favor de un tipo particular de "ley" en circunstancias particulares.

Glen_b -Reinstate a Monica
fuente
12
+1. Su argumento comienza a sugerir, de manera bastante plausible, en mi opinión, que puede haber una respuesta psicológica a la pregunta, como el pensamiento grupal: cuando todos en su campo ven distribuciones normales, ¿quién es usted para decir lo contrario? Esto se aplicaría especialmente a los campos de investigación en los que los procedimientos estadísticos se consideran herramientas peatonales, tal vez necesarias para santificar un documento para su publicación, pero de otro modo de poco valor o interés inherentes.
whuber
2
Para dar un ejemplo específico, cuando Quetelet inventó el IMC (índice de masa corporal), lo hizo explícitamente de una manera que producía una cantidad normalmente distribuida. Hablamos de eso aquí: stats.stackexchange.com/questions/64171/…
Matt Krause
Me parece que todos están tratando de eludir esta pregunta en lugar de responderla.
Digio
Geary era estadístico, por lo que no es de extrañar que pensara que la normalidad es un mito. Si fuera un físico, lo vería de otra manera.
Aksakal
Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
Glen_b -Reinstala a Monica el
20

Hay un dicho famoso de Gabriel Lippmann (físico, premio Nobel), según lo dicho por Poincaré:

[La distribución normal] no puede obtenerse mediante deducciones rigurosas. Varias de sus pruebas putativas son horribles [...]. Sin embargo, todo el mundo lo cree, como me dijo M. Lippmann un día, porque los experimentadores imaginan que es un teorema matemático, mientras que los matemáticos lo imaginan como un hecho experimental.

- Henri Poincaré, Le calcul des Probabilités . 1896

[Cette loi] ne s'obtient pas par des déductions rigoureuses; Además de una demostración que se encuentra en voulu en donner est grossière [...]. Tout le monde y croit cependant, me desait un un día M. Lippmann, coche les experimentadores que imaginan que teorema de matemáticas, y les matemáticos que temen un hecho experimental.

Parece que no tenemos esta cita en nuestro hilo de la Lista de citas estadísticas, por eso pensé que sería bueno publicarla aquí.

ameba dice Reinstate Monica
fuente
¿Un voto negativo? ¿Alguien aquí odia en secreto a Poincare?
ameba dice Reinstate Monica el
Mi conocimiento de física termina con lo que aprendí en la escuela secundaria, pero ¿Gauss no estudió originalmente la distribución en el contexto de las ecuaciones normales de la física? Mi impresión dada en Wikipedia fue que los errores gaussianos se caen naturalmente de algún modelo de física clásica
shadowtalker
2
Deberíamos honrar más a Lippmann como el autor de este bon mot . Gabriel Lippmann fue ganador del Premio Nobel de Física. (M. aquí solo significa Monsieur, naturellement.)
Nick Cox
3
@ssdecontrol Como recuerdo, Gauss estaba interesado en los errores normales de observación , particularmente en astronomía y geodesia, pero lo suficientemente inteligente como para saber que la suposición era cuestionable. (También estaba, por ejemplo, usando la desviación absoluta media de la mediana como una medida resistente de propagación en 1816.)
Nick Cox
Muy bien, @Nick. Lo edité para aclarar.
ameba dice Reinstate Monica
7

¿Qué ley de la física hace que tantos fenómenos naturales tengan una distribución normal? Parecería más intuitivo que tendrían una distribución uniforme.

La distribución normal es un lugar común en las ciencias naturales. La explicación habitual es por qué sucede en los errores de medición a través de algún tipo de números grandes o razonamiento del teorema del límite central (CLT), que generalmente es así: "dado que los resultados del experimento se ven afectados por un número infinitamente grande de perturbaciones provenientes de fuentes no relacionadas CLT sugiere que los errores se distribuirían normalmente ". Por ejemplo, aquí hay un extracto de Métodos estadísticos en el análisis de datos de WJ Metzger:

La mayor parte de lo que medimos es, de hecho, la suma de muchos rv. Por ejemplo, mide la longitud de una tabla con una regla. La longitud que mide depende de muchos efectos pequeños: paralaje óptico, calibración de la regla, temperatura, su mano temblorosa, etc. Un medidor digital tiene ruido electrónico en varios lugares de sus circuitos. Por lo tanto, lo que mide no es solo lo que desea medir, sino que se le agrega una gran cantidad de (con suerte) pequeñas contribuciones. Si este número de pequeñas contribuciones es grande, el CLT nos dice que su suma total es distribuida gaussiana. Este suele ser el caso y es la razón por la cual las funciones de resolución suelen ser gaussianas.

Sin embargo, como debe saber, esto no significa que cada distribución sea normal, por supuesto. Por ejemplo, la distribución de Poisson es tan común en física cuando se trata de procesos de conteo. En la espectroscopía, la distribución de Cauchy (también conocida como Breit Wigner) se utiliza para describir la forma de los espectros de radiación, etc.

Me di cuenta de esto después de escribir: las tres distribuciones mencionadas hasta ahora (Gaussian, Poisson, Cauchy) son distribuciones estables , con Poisson siendo discretamente estable . Ahora que pensé en esto, parece una cualidad importante de una distribución que hará que sobreviva a las agregaciones: si agrega un número de números de Poisson, la suma es un Poisson. Esto puede "explicar" (en cierto sentido) por qué es tan omnipresente.

En ciencias no naturales, debe tener mucho cuidado al aplicar la distribución normal (o cualquier otra) por una variedad de razones. En particular, las correlaciones y las dependencias son un problema, ya que pueden romper los supuestos de CLT. Por ejemplo, en finanzas es bien sabido que muchas series parecen normales pero tienen colas mucho más pesadas , lo cual es un gran problema en la gestión de riesgos.

Finalmente, hay razones más sólidas en las ciencias naturales para tener una distribución normal que el tipo de razonamiento de "agitar las manos" que mencioné anteriormente. Considere, movimiento browniano. Si los choques son verdaderamente independientes e infinitesimales, entonces, inevitablemente, la distribución de un camino observable tendrá una distribución normal debido a CLT, ver, por ejemplo, la ecuación (10) en el famoso trabajo de Einstein " INVESTIGACIONES SOBRE LA TEORÍA DEL MOVIMIENTO MARRÓN ". Ni siquiera se molestó en llamarlo por su nombre de hoy "gaussiano" o "normal".

ΔXΔpagsΔXΔpags

Por lo tanto, no se sorprenda de obtener reacciones muy diferentes al uso de la distribución gaussiana por parte de investigadores en diferentes campos. En algunos campos como la física, se espera que ciertos fenómenos estén vinculados naturalmente a la distribución gaussiana basada en una teoría muy sólida respaldada por una enorme cantidad de observaciones. En otros campos, la distribución normal se utiliza por su conveniencia técnica, propiedades matemáticas útiles u otras razones cuestionables.

Aksakal
fuente
1
+1. La cita es razonable, sin embargo, se puede observar que la longitud medida no puede ser negativa (es decir, está limitada), por lo que realmente no puede seguir una distribución normal. Siempre es una aproximación.
ameba dice Reinstate Monica
Ciencias antinaturales? ¿Te refieres a los indecorosos experimentos del Dr. Frankenstein? ;-)
Sycorax dice Reinstate Monica
1
@ user777, es una broma del premio Nobel Landau : "las ciencias se pueden dividir en tres tipos: naturales, antinaturales y antinaturales"
Aksakal
@ Aksakal: Creo que este enlace en particular tiene un error Landau dijo que las ciencias se dividen en "естественные, неестественные и противоестественные" (en lugar de "сверхъестественные"). Sin embargo, no tengo idea de cómo traducirlo.
ameba dice Reinstate Monica
@amoeba, estoy traduciendo "неестественные" como "antinatural". "сверхъестественные" es "sobrenatural", me parece. Quizás los rusos puedan corregirme.
Aksakal
2

Hay muchas explicaciones demasiado complicadas aquí ...

Una buena manera de relacionarme es la siguiente:

  1. Tira un solo dado, y tienes la misma probabilidad de tirar cada número (1-6), y por lo tanto, el PDF es constante.

  2. Tira dos dados y suma los resultados, y el PDF ya no es constante. Esto se debe a que hay 36 combinaciones, y el rango sumativo es de 2 a 12. La probabilidad de un 2 es una combinación singular única de 1 + 1. La probabilidad de un 12 también es única, ya que solo puede ocurrir en una sola combinación de un 6 + 6. Ahora, mirando 7, hay múltiples combinaciones, es decir, 3 + 4, 5 + 2 y 6 + 1 ( y sus permutaciones inversas). A medida que trabaja lejos del valor medio (es decir, 7), hay combinaciones menores para 6 y 8, etc., hasta llegar a las combinaciones singulares de 2 y 12. Este ejemplo no da como resultado una distribución normal clara, pero más mueren agrega, y mientras más muestras tome, el resultado tenderá a una distribución normal.

  3. Por lo tanto, a medida que suma un rango de variables independientes sujetas a variaciones aleatorias (cada una de las cuales puede tener sus propios PDF), mayor será la salida resultante a la normalidad. Esto en términos Six Sigma nos da lo que llamamos la 'Voz del proceso'. Esto es lo que llamamos el resultado de la 'variación de causa común' de un sistema y, por lo tanto, si la salida tiende a la normalidad, llamamos a este sistema 'en el control estadístico del proceso'. Cuando la salida no es normal (sesgada o desplazada), entonces decimos que el sistema está sujeto a una 'variación de causa especial' en la que ha habido alguna 'señal' que ha sesgado el resultado de alguna manera.

Espero que ayude.

davidwm1968
fuente
1

¿Qué ley de la física hace que tantos fenómenos naturales tengan una distribución normal?

Ni idea. Por otro lado, tampoco tengo idea de si es verdad o de lo que significa "tantos".

Sin embargo, al reorganizar un poco el problema, hay buenas razones para suponer (es decir, modelar ) una cantidad continua que cree que tiene una media y una varianza fijas con una distribución Normal. Esto se debe a que la distribución Normal es el resultado de maximizar la entropía sujeta a esas restricciones de momento. Dado que, en términos generales, la entropía es una medida de incertidumbre, que hace que la Normal sea la opción de forma distribucional más poco comprometida o máximamente incierta.

Ahora, la idea de que uno debe elegir una distribución maximizando su entropía sujeta a restricciones conocidas realmente tiene cierto respaldo físico en términos de la cantidad de formas posibles de cumplirlas. Jaynes en mecánica estadística es la referencia estándar aquí.

Tenga en cuenta que si bien la entropía máxima motiva las distribuciones normales en este caso, se puede mostrar que diferentes tipos de restricciones conducen a diferentes familias de distribución, por ejemplo, el familiar exponencial, poisson, binomial, etc.

Sivia and Skilling 2005 ch.5 tiene una discusión intuitiva.

conjugadoprior
fuente