¿De dónde viene la función gaussiana?

9

He leído innumerables páginas en google y no puedo encontrar una respuesta satisfactoria. También he leído http://castatistics.wikispaces.com/file/view/normal+der..pdf , pero dudo que esa haya sido la motivación original para la función gaussiana. Actualmente soy estudiante universitario y mi libro de texto solo me dice que la función f (x) = ae - (x - b) ^ 2 / c se usa como la función de densidad de probabilidad para una curva normal. Pero mi libro de texto no me da pistas sobre el origen de esta función. ¿Cuál fue la motivación original para el desarrollo de tal función? ¿Alguien puede ofrecer una prueba de que realmente puedo entender y con pasos claramente etiquetados? Tengo una comprensión insuficiente del cálculo básico y soy un principiante cuando se trata de estadísticas. Por favor, no hay pruebas complicadas.

Andrew Kudwitt
fuente
2
En respuesta a una pregunta muy similar, ofrecí stats.stackexchange.com/a/3904 , que puede resultarle útil. Estrictamente hablando, no responde a su pregunta sobre la "motivación": eso ocurrió varias generaciones después de De Moivre, con el desarrollo de Gauss del método de los mínimos cuadrados.
whuber

Respuestas:

4

La distribución normal es la distribución que se espera cuando las mediciones se componen de una gran cantidad de componentes de 'ruido' que se distribuyen todos de la misma manera entre sí.

El principio a veces se ilustra con un ejemplo usando dados. Tira un dado muchas veces y traza la distribución de valores. Asumiendo que el dado es justo, terminarás con una distribución uniforme (discreta) de 1 a 6. Ahora hazlo de nuevo pero usa dos dados. Obtiene una distribución triangular escalonada de 2 a 12. Agregue un tercer dado y la distribución tiene un poco de forma de campana y los pasos son pequeños porque ahora hay 17 valores posibles diferentes. Con cuatro dados, la distribución se parece mucho a una distribución normal, y con un número infinito de dados es una distribución normal. Se necesitan entre cuatro y un número infinito de dados (a menudo digo 12) para una distribución que, a efectos prácticos, no se puede distinguir de la distribución normal dada por la fórmula normal.

Muchas mediciones biológicas y físicas tienen muchas fuentes de imprecisión y ruido, por lo que las distribuciones de esas mediciones serán aproximadamente normales, siempre que las distribuciones de esos componentes sean similares. Si un componente de ruido es mucho más grande que los otros, no se obtendrá la distribución normal. Imagínese si un dado de un conjunto de docenas tuviera caras marcadas de 100 a 600 en lugar de 1 a 6. Ese dado dominaría a los otros once y, por lo tanto, la distribución de la suma de sus caras superiores sería una mezcla obvia de (discreto) uniforme de 100 a 600 y casi continuo casi normal de 11 a 66. Las distribuciones de las variaciones de los componentes deben ser similares, incluso si no necesitan ser normales (no tienen que ser incluso casi normales si hay un muchos de ellos).

(Vale la pena señalar que muchas fuentes de variabilidad tienen una distribución logarítmica y muchas mediciones en biología y física son más cercanas a lo normal de lo normal).

Michael Lew
fuente