¿Cómo descubrieron los científicos la forma de la función de densidad de probabilidad de distribución normal?

36

Esta es probablemente una pregunta amateur, pero estoy interesado en cómo surgieron los científicos la forma de la función de densidad de probabilidad de distribución normal. Básicamente, lo que me molesta es que para alguien quizás sea más intuitivo que la función de probabilidad de los datos distribuidos normalmente tiene la forma de un triángulo isósceles en lugar de una curva de campana, y cómo le demostraría a esa persona que la función de densidad de probabilidad de todos los datos distribuidos normalmente tienen forma de campana? Por experimento? ¿O por alguna derivación matemática?

Después de todo, ¿qué consideramos realmente los datos distribuidos normalmente? ¿Datos que siguen el patrón de probabilidad de una distribución normal u otra cosa?

Básicamente, mi pregunta es ¿por qué la función de densidad de probabilidad de distribución normal tiene forma de campana y no otra? ¿Y cómo descubrieron los científicos en qué escenarios de la vida real se puede aplicar la distribución normal, mediante experimentación o estudiando la naturaleza de varios datos en sí?


Así que he encontrado que este enlace es realmente útil para explicar la derivación de la forma funcional de la curva de distribución normal y, por lo tanto, responder a la pregunta "¿Por qué la distribución normal se ve como es y no otra cosa?". Un razonamiento realmente alucinante, al menos para mí.

ahra
fuente
2
Echa un vistazo a esta pregunta : no es cierto afirmar que solo la distribución normal tiene "forma de campana".
Silverfish
11
La distribución normal tiene algunas propiedades estadísticas de vital importancia, que la convierten en un objeto especial de estudio y también significa que a menudo surge "naturalmente", por ejemplo, como el caso limitante de otras distribuciones. Ver en particular el Teorema del límite central . Sin embargo, no es la única distribución que alcanza su punto máximo en el medio y tiene colas a ambos lados. La gente a menudo asume que tales datos son normales porque el histograma "se ve en forma de campana", pero mi respuesta vinculada muestra cómo hay muchas otras distribuciones de candidatos para tales conjuntos de datos.
Silverfish
44
Tenga en cuenta que los estadísticos no descubrieron la distribución normal al observar muchos conjuntos de datos y darse cuenta de que esta función de densidad era empíricamente una buena opción para muchos de ellos. Como se pregunta en su pregunta, hubo un proceso de investigación matemática de ciertos problemas en la teoría de la probabilidad, a los que la distribución normal "aparece" como respuesta. Esto está bien explicado, por ejemplo, en esta respuesta aquí .
Silverfish
3
Y, básicamente, si alguien me pidiera que les explicara por qué la distribución normal es "normal", necesitaría explicarles la historia de la distribución normal que es larga y compleja en sí misma a partir de la distribución binomial y así sucesivamente, y luego tal vez demuestre el teorema del límite central y demuestre que la distribución normal es aplicable en el estudio de muchas situaciones en la vida real.
ahra
55
Puede visualizar la forma de una distribución normal utilizando uno de estos ingeniosos dispositivos llamados tableros de Galton. En realidad, es una distribución binomial, pero, ya sabes, el teorema del límite central.
Federico Poloni

Respuestas:

21

" La evolución de la distribución normal " de SAUL STAHL es la mejor fuente de información para responder prácticamente todas las preguntas de su publicación. Recitaré algunos puntos solo para su conveniencia, porque encontrará la discusión detallada dentro del documento.

Esta es probablemente una pregunta amateur

No, es una pregunta interesante para cualquiera que use estadísticas, porque esto no se cubre en detalle en ningún lugar de los cursos estándar.

Básicamente, lo que me molesta es que para alguien quizás sea más intuitivo que la función de probabilidad de los datos distribuidos normalmente tiene la forma de un triángulo isósceles en lugar de una curva de campana, y cómo le demostraría a esa persona que la función de densidad de probabilidad de todos los datos distribuidos normalmente tienen forma de campana?

Mira esta foto del periódico. Muestra las curvas de error que se le ocurrió a Simpson antes de descubrir Gauss (Normal) para analizar datos experimentales. Entonces, su intuición es perfecta.

ingrese la descripción de la imagen aquí

Por experimento?

Sí, por eso se llamaron "curvas de error". El experimento fue mediciones astronómicas. Los astrónomos lucharon con los errores de medición durante siglos.

¿O por alguna derivación matemática?

De nuevo, sí! Larga historia corta: el análisis de errores en los datos astronómicos llevó a Gauss a su distribución (también conocida como Normal). Estos son los supuestos que utilizó:

ingrese la descripción de la imagen aquí

Por cierto, Laplace utilizó algunos enfoques diferentes, y también se le ocurrió su distribución mientras trabajaba con datos astronómicos:

ingrese la descripción de la imagen aquí

En cuanto a por qué la distribución normal se muestra en el experimento como errores de medición, a continuación se presenta una explicación típica "ondulada a mano" (una cita de Gerhard Bohm, Günter Zech, Introducción a las estadísticas y análisis de datos para físicos p.85):

Muchas señales experimentales siguen a una muy buena aproximación a una distribución normal. Esto se debe al hecho de que consisten en la suma de muchas contribuciones y una consecuencia del teorema del límite central.

Aksakal
fuente
2
La referencia de Stahl aborda la pregunta original desde el ángulo desde el que se planteó: es un hallazgo realmente agradable.
Silverfish el
44

Parece suponer en su pregunta que el concepto de la distribución normal existía antes de que se identificara la distribución, y las personas trataron de descubrir cuál era. No me queda claro cómo funcionaría eso. [Editar: hay al menos un sentido que podríamos considerar como una "búsqueda de una distribución", pero no es "una búsqueda de una distribución que describe muchos y muchos fenómenos"]

Este no es el caso; la distribución se conocía antes de que se llamara distribución normal.

¿Cómo le demostraría a esa persona que la función de densidad de probabilidad de todos los datos distribuidos normalmente tiene forma de campana?

La función de distribución normal es lo que generalmente se llama "forma de campana": todas las distribuciones normales tienen la misma "forma" (en el sentido de que solo difieren en escala y ubicación).

Los datos pueden verse más o menos "en forma de campana" en la distribución, pero eso no lo hace normal. Muchas distribuciones no normales se ven similarmente "en forma de campana".

Las distribuciones de población reales de las que se obtienen los datos probablemente nunca sean realmente normales, aunque a veces es una aproximación bastante razonable.

Esto suele ser cierto para casi todas las distribuciones que aplicamos a las cosas en el mundo real: son modelos , no hechos sobre el mundo. [Como ejemplo, si hacemos ciertas suposiciones (las de un proceso de Poisson), podemos derivar la distribución de Poisson, una distribución ampliamente utilizada. Pero, ¿se cumplen exactamente esos supuestos ? En general, lo mejor que podemos decir (en las situaciones correctas) es que son casi verdaderas.]

¿Qué consideramos realmente los datos distribuidos normalmente? ¿Datos que siguen el patrón de probabilidad de una distribución normal u otra cosa?

Sí, para estar realmente distribuido normalmente, la población de la que se extrajo la muestra tendría que tener una distribución que tenga la forma funcional exacta de una distribución normal. Como resultado, cualquier población finita no puede ser normal. Las variables que necesariamente delimitan no pueden ser normales (por ejemplo, los tiempos que se toman para tareas particulares, la duración de cosas particulares no pueden ser negativas, por lo que en realidad no se pueden distribuir normalmente).

quizás sería más intuitivo que la función de probabilidad de los datos distribuidos normalmente tiene la forma de un triángulo isósceles

No veo por qué esto es necesariamente más intuitivo. Ciertamente es más simple.

Al desarrollar por primera vez modelos para distribuciones de errores (específicamente para astronomía en el período inicial), los matemáticos consideraron una variedad de formas en relación con las distribuciones de errores (incluida en un punto inicial una distribución triangular), pero en gran parte de este trabajo fueron las matemáticas (más bien que la intuición) que se utilizó. Laplace observó distribuciones dobles exponenciales y normales (entre otras), por ejemplo. De manera similar, Gauss usó las matemáticas para derivarlas aproximadamente al mismo tiempo, pero en relación con un conjunto diferente de consideraciones que Laplace.

En el sentido estricto de que Laplace y Gauss estaban considerando "distribuciones de errores", podríamos considerar que se trata de una "búsqueda de una distribución", al menos por un tiempo. Ambos postularon algunas propiedades para una distribución de errores que consideraron importantes (Laplace consideró una secuencia de criterios algo diferentes a lo largo del tiempo) condujeron a diferentes distribuciones.

Básicamente, mi pregunta es ¿por qué la función de densidad de probabilidad de distribución normal tiene forma de campana y no otra?

La forma funcional de lo que se llama función de densidad normal le da esa forma. Considere el estándar normal (por simplicidad; cualquier otro normal tiene la misma forma, que difiere solo en escala y ubicación):

fZ(z)=ke12z2;<z<

k

X

Si bien algunas personas han considerado que la distribución normal de alguna manera es "usual", en realidad solo en situaciones particulares se tiende a verla como una aproximación.


El descubrimiento de la distribución generalmente se atribuye a de Moivre (como una aproximación al binomio). De hecho, derivó la forma funcional al tratar de aproximar los coeficientes binomiales (/ probabilidades binomiales) para aproximar los cálculos tediosos, pero, aunque deduce efectivamente la forma de la distribución normal, no parece haber pensado en su aproximación como un distribución de probabilidad, aunque algunos autores sugieren que lo hizo. Se requiere una cierta cantidad de interpretación para que haya margen para las diferencias en esa interpretación.

Gauss y Laplace trabajaron en ello a principios de 1800; Gauss escribió sobre esto en 1809 (en relación con que es la distribución para la cual la media es el MLE del centro) y Laplace en 1810, como una aproximación a la distribución de sumas de variables aleatorias simétricas. Una década después, Laplace ofrece una forma temprana de teorema del límite central, para variables discretas y continuas.

Los primeros nombres para la distribución incluyen la ley del error , la ley de la frecuencia de los errores , y también lleva el nombre de Laplace y Gauss, a veces conjuntamente.

El término "normal" se usó para describir la distribución de forma independiente por tres autores diferentes en la década de 1870 (Peirce, Lexis y Galton), el primero en 1873 y los otros dos en 1877. Esto es más de sesenta años después del trabajo de Gauss y Laplace y más del doble que desde la aproximación de De Moivre. El uso de Galton fue probablemente más influyente, pero usó el término "normal" en relación con él solo una vez en ese trabajo de 1877 (en su mayoría lo llamó "la ley de la desviación").

Sin embargo, en la década de 1880 Galton usó el adjetivo "normal" en relación con la distribución en numerosas ocasiones (por ejemplo, como la "curva normal" en 1889), y a su vez tuvo mucha influencia en los estadísticos posteriores en el Reino Unido (especialmente Karl Pearson ) No dijo por qué usó el término "normal" de esta manera, pero presumiblemente lo dijo en el sentido de "típico" o "usual".

El primer uso explícito de la frase "distribución normal" parece ser de Karl Pearson; ciertamente lo usa en 1894, aunque afirma haberlo usado mucho antes (un reclamo que vería con cierta precaución).


Referencias

Miller, Jeff
"Usos más antiguos conocidos de algunas de las palabras de las matemáticas:"
Distribución normal (entrada de John Aldrich)
http://jeff560.tripod.com/n.html

Stahl, Saul (2006),
"La evolución de la distribución normal",
Mathematics Magazine , vol. 79, N ° 2 (abril), pp 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

Distribución normal, (2016, 1 de agosto).
En Wikipedia, la enciclopedia libre.
Consultado el 12 de agosto de 2016 a las 12:02 en
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History

Hald, A (2007),
"La aproximación normal de De Moivre al binomio, 1733, y su generalización",
en: Una historia de inferencia estadística paramétrica de Bernoulli a Fisher, 1713–1935; pp 17-24

[Puede observar discrepancias sustanciales entre estas fuentes en relación con su cuenta de de Moivre]

Glen_b -Reinstate a Monica
fuente
Gracias por la respuesta en profundidad! He examinado más a fondo cómo se derivó la forma de la distribución normal y he encontrado este documento cursos.ncssm.edu/math/Talks/PDFS/normal.pdf , y tengo un problema para entender cómo podemos suponer que el los errores no dependen de la orientación del sistema de coordenadas (una suposición que permite una conclusión importante más adelante), cuando me parece que tal suposición solo se mantendría en el ejemplo de los dardos, pero no en el ejemplo de los errores experimentales accidentales .
ahra
En realidad, todo el enfoque de los dardos me confunde, ya que estoy estudiando la distribución normal en el contexto de errores experimentales accidentales. Supongo que el enfoque de los dardos supone que puede cometer errores independientes en dos dimensiones, lo cual está bien en el contexto utilizado, pero no me queda claro a qué se traduciría en el contexto de errores experimentales en los que tiene una variable dependiente y una independiente. lo que significa que puede cometer un error solo en una dimensión.
ahra
1
Gran uso de referencias. +1
Aaron Hall
2
Creo que el "teorema del límite central" debería mencionarse aquí en alguna parte, ya que el OP parece (al menos en parte) preguntarse por qué esta distribución particular es tan frecuente.
joc
1
@joc No veo la pregunta sobre prevalencia o incluso sugiriendo una pregunta al respecto. Sin embargo, hablo sobre el trabajo de De Moivre relacionado con el binomio y sobre el trabajo de Laplace relacionado con aproximaciones normales para sumas de variables aleatorias simétricas ... que están más directamente relacionadas con la pregunta. Sin embargo, agregaré una oración relacionada con el trabajo de Laplace sobre el problema (aunque no se llamaría así por otro siglo).
Glen_b -Reinstale a Monica el
11

La distribución "normal" se define como esa distribución particular.

La pregunta es ¿por qué esperaríamos que esta distribución en particular sea de naturaleza común, y por qué se usa tan a menudo como una aproximación incluso cuando los datos reales no siguen exactamente esa distribución? (A menudo se encuentra que los datos reales tienen una "cola gorda", es decir, los valores lejos de la media son mucho más comunes de lo que predeciría la distribución normal).

En otras palabras, ¿qué tiene de especial la distribución normal?

Lo normal tiene muchas propiedades estadísticas "agradables" (ver, por ejemplo, https://en.wikipedia.org/wiki/Central_limit_theorem ), pero la OMI más relevante es el hecho de que es la función de "máxima entropía" para cualquier distribución con una media dada y varianza. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

Para expresar esto en un lenguaje ordinario, si se le da solo la media (punto central) y la varianza (ancho) de una distribución, y no asume nada más al respecto, se verá obligado a dibujar una distribución normal. Cualquier otra cosa requiere información adicional (en el sentido de la teoría de la información de Shannon ), por ejemplo asimetría, para determinarla.

ET Jaynes introdujo el principio de máxima entropía como una forma de determinar antecedentes razonables en la inferencia bayesiana, y creo que fue el primero en llamar la atención sobre esta propiedad.

Vea esto para mayor discusión: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf

gareth
fuente
66
"En otras palabras, si se le da solo la media (punto central) y la varianza (ancho) de una distribución, y no asume nada más al respecto, se verá obligado a dibujar una distribución normal". Supongo que eso depende de cuál sea la definición de "forzado". Puedes ser forzado. Yo no sería. Lo que ha descrito es el equivalente moral de ser "forzado" a asumir que una función es lineal cuando no conoce su forma, o que las variables aleatorias son independientes cuando no conoce su dependencia exacta. No he, no estoy y no me veré obligado a hacer ninguna de estas suposiciones.
Mark L. Stone
55
@Neil Creo que parte del punto de Mark puede ser que la justificación no es una obligación.
whuber
55
@Neil ¡Lejos de eso! Primero debe asumir que el principio de máxima entropía es útil y aplicable a su problema estadístico. A continuación, debe estar absolutamente seguro de que no hay nada más que pueda asumir sobre la distribución. Ambos son problemáticos. (En la mayoría de los problemas estadísticos que he encontrado - fuera del ámbito de la física teórica - el primero no ha sido así, y nunca he visto un problema del mundo real donde el último es el caso.)
whuber
1
@Neil Mark y whuber. He tratado de aclarar ese párrafo. Creo que "asumir nada más" es una explicación razonable en lenguaje ordinario de lo que el principio de máxima entropía está tratando de hacer. Siendo un lenguaje ordinario, por supuesto, podrías darle una interpretación diferente. Por eso necesitamos las matemáticas. La afirmación más precisa es que no estamos agregando información, en el sentido de Shannon. Los enlaces explican esto más a fondo.
Gareth
1
@gareth una distribución uniforme en todos los reales (que creo que quisiste decir en tu último comentario) sería una distribución muy inadecuada. Su reclamo de máxima entropía como su conductor hacia una distribución normal hace una suposición importante; ¿Por qué es más contundente que asumir algo más, como el rango mínimo?
Henry
3

La distribución normal (también conocida como " distribución gaussiana ") tiene una base matemática firme. El teorema del límite central dice que si tiene un conjunto finito de n variables aleatorias independientes e idénticamente distribuidas que tienen una media y varianza específicas, y toma el promedio de esas variables aleatorias, la distribución del resultado convergerá a una distribución gaussiana como n va al infinito Aquí no hay conjeturas, ya que la derivación matemática conduce a esta función de distribución específica y no a otra.

Para poner esto en términos más tangibles, considere una sola variable aleatoria, como lanzar una moneda justa (2 resultados igualmente posibles). Las probabilidades de obtener un resultado particular son 1/2 para cara y 1/2 para cruz.

Si aumenta el número de monedas y realiza un seguimiento del número total de caras obtenidas con cada intento, obtendrá una Distribución binomial , que tiene una forma más o menos campana. Simplemente grafica con el número de cabezas a lo largo del eje x, y el número de veces que volteaste tantas cabezas a lo largo del eje y.

Cuantas más monedas uses y más veces las tires, más se acercará el gráfico a parecerse a una curva de campana gaussiana. Eso es lo que afirma el Teorema del límite central.

Lo sorprendente es que el teorema no depende de cómo se distribuyen realmente las variables aleatorias, siempre que cada una de las variables aleatorias tenga la misma distribución. Una idea clave en el teorema es que está agregando o promediando las variables aleatorias. Otro concepto clave es que el teorema describe el límite matemático a medida que el número de variables aleatorias aumenta y aumenta. Cuantas más variables use, más se acercará la distribución a una Distribución normal.

Le recomiendo que tome una clase de Estadística matemática si desea ver cómo los matemáticos determinaron que la Distribución normal es en realidad la función matemáticamente correcta para la curva de campana.

usuario126665
fuente
Gracias por tu contribución. Sería correcto si explicara que la distribución de la suma (o media) debe ser estandarizada. De lo contrario, la distribución de la suma no se acerca a un límite y la distribución de la media se aproxima a una constante. Pero, ¿cómo responde esta publicación a las preguntas que se hicieron? (Es cierto que se plantean varias preguntas y todas son confusas y vagas, pero parecen estar preguntando acerca de cómo se descubrió o se derivó la fórmula del PDF gaussiano.)
whuber
2

Hay algunas respuestas excelentes en este hilo. No puedo evitar sentir que el OP no estaba haciendo la misma pregunta que todos quieren responder. Sin embargo, entiendo eso, porque esta es una de las preguntas más emocionantes para responder: en realidad lo encontré porque esperaba que alguien tuviera la pregunta "¿Cómo sabemos que el PDF normal es un PDF?" y lo busqué Pero creo que la respuesta a la pregunta puede ser demostrar el origen de la distribución normal.

La distribución normal se diseñó primero para usarse para aproximar la distribución binomial para muy grandes norte. En 1744, un matemático llamado De Moivre demostró que la distribución binomial, para grandesnorte, tiene probabilidades muy similares a una distribución normal con media nortepags y varianza nortepags(1-pags). La prueba de esto se deduce naturalmente de tomar el límite del binomio pdf comonorte, y reemplazando los valores factoriales con la aproximación de Stirling.

Pero nuevamente estoy tentado a profundizar en la prueba de que esto sucede, y no sé si eso es lo que quería el OP. Si está interesado, se explica aquí . Solo sepa que podemos probar "fácilmente" que el límite de la distribución binomial comonorte y pags0 0 tal que nortepags=1 Es una distribución normal.

Tomando ese conocimiento, podemos ver por qué la distribución normal tiene forma de campana si podemos ver por qué la distribución binomial tiene forma de campana, que es mucho más fácil de ver. Siga adelante y pruébelo usted mismo: haga un gráfico discreto de las probabilidades binomiales paranorte=10 y pags=0,5. ¿Cómo se forma? ¿Qué pasa con un gráfico discreto de las probabilidades binomiales paranorte=100 y pags=0,5? De hecho, hágalo empíricamente, genere algunos datos aleatorios distribuidos binomialmente y vea cómo se ve el histograma. Por supuesto, es una campana de aspecto bastante bloqueado, pero se vuelve más curvilínea cuanto más altonortees. Pero, ¿por qué tiene forma de campana?

Si arrojo 100 monedas en el suelo en este momento y cuento cuántas caras obtengo, podría contar 0 caras, o podría contar 100 caras, pero es mucho más probable que cuente un número en algún punto intermedio. ¿Ves por qué este histograma debería tener forma de campana?

pajarito
fuente
+1 - sin embargo, tenga en cuenta que hablo de De Moivre en varias partes de mi respuesta. Puede encontrar interesante la nota final en mi respuesta en relación con las discrepancias en las referencias: realmente vale la pena mirar lo que escribió De Moivre para ver hasta qué punto las diferentes caracterizaciones de su trabajo parecen mantenerse. La discusión específica sobre por qué el cdf binomial se aproxima bien por un cdf normal en condiciones adecuadas se discute en ¿Por qué una distribución binomial tiene forma de campana?
Glen_b -Reinstate Monica
1

También mencionaría la derivación de Maxwell-Herschel de la distribución normal multivariada independiente a partir de dos supuestos:

  1. La distribución no se ve afectada por la rotación del vector.

  2. Los componentes del vector son independientes.

Aquí está la exposición de Jaynes

Roah
fuente