¿Por qué a menudo se supone distribución gaussiana?

13

Citando un artículo de Wikipedia sobre la estimación de parámetros para un ingenuo clasificador de Bayes : "una suposición típica es que los valores continuos asociados con cada clase se distribuyen de acuerdo con una distribución gaussiana".

Entiendo que una distribución gaussiana es conveniente por razones analíticas. Sin embargo, ¿hay alguna otra razón en el mundo real para hacer esta suposición? ¿Qué sucede si la población consta de dos subpoblaciones (personas inteligentes / tontas, manzanas grandes / pequeñas)?

lmsasu
fuente
55
¿Quizás debido al teorema del límite central, las distribuciones gaussianas se ajustan a muchas, aunque de ninguna manera a todas, las mediciones de fenómenos físicos? Con subpoblaciones, se puede obtener la mezcla de distribuciones gaussianas.
Dilip Sarwate
1
La misma sección (supongo que está viendo el artículo de Naive Bayes) señala que el binning es probablemente una mejor idea si no conoce la distribución. Alguien probablemente debería editar el artículo de Wikipedia para dejar más claro que uno solo debe asumir gaussiano si puede argumentar por qué es gaussiano (por ejemplo, trazar los datos o seguir el patrón aditivo del CLT).
rm999

Respuestas:

6

Al menos para mí, el supuesto de normalidad surge de dos razones (muy poderosas):

  1. El teorema del límite central.

  2. La distribución gaussiana es una distribución de entropía máxima (con respecto a la versión continua de la entropía de Shannon).

Creo que conoce el primer punto: si su muestra es la suma de muchos procesos, entonces, siempre y cuando se cumplan algunas condiciones leves, la distribución es bastante gaussiana (hay generalizaciones de la CLT donde de hecho no hay que suponer que los rvs de la suma están distribuidos de manera idéntica, ver, por ejemplo, el Lyapunov CLT).

El segundo punto es uno que para algunas personas (especialmente los físicos) tiene más sentido: dado el primer y segundo momento de una distribución, la distribución que asume menos información (es decir, la más conservadora) con respecto a la medida de entropía continua de Shannon (que es algo arbitrario en el caso continuo, pero, al menos para mí, totalmente objetivo en el caso discreto, pero esa es otra historia), es la distribución gaussiana. Esta es una forma del llamado "principio de máxima entropía", que no está tan extendido porque el uso real de la forma de la entropía es algo arbitrario (consulte este artículo de Wikipedia para obtener más información sobre esta medida ).

μΣ ), se puede demostrar que es un gaussiano multivariado.

PD: Debo agregar al principio de máxima entropía que, de acuerdo con este documento , si conoce el rango de variación de su variable, debe hacer ajustes a la distribución que obtiene por el principio de máxima entropía.

Néstor
fuente
3

Mi respuesta está de acuerdo con el primer respondedor. El teorema del límite central le dice que si su estadística es una suma o promedio, será aproximadamente normal bajo ciertas condiciones técnicas, independientemente de la distribución de las muestras individuales. Pero tiene razón en que a veces las personas llevan esto demasiado lejos simplemente porque parece conveniente. Si su estadística es una relación y el denominador puede ser cero o cercano a ella, la relación será demasiado pesada para lo normal. Gosset descubrió que incluso cuando muestrea de una distribución normal, un promedio normalizado donde se usa la desviación estándar de la muestra para la constante de normalización, la distribución es la distribución t con n-1 grados de libertad cuando n es el tamaño de la muestra. En sus experimentos de campo en la cervecería Guiness, tiene tamaños de muestra que podrían estar en el rango de 5-10. En esos casos, la distribución t es similar a la distribución normal estándar, ya que es simétrica alrededor de 0 pero tiene colas mucho más pesadas. Tenga en cuenta que la distribución t converge a la normal estándar a medida que n aumenta. En muchos casos, la distribución que tiene puede ser bimodal, ya que es una mezcla de dos poblaciones. Algunas veces estas distribuciones pueden ajustarse como una mezcla de distribuciones normales. Pero seguro que no se ven como una distribución normal. Si observa un libro de texto de estadísticas básicas, encontrará muchas distribuciones paramétricas continuas y discretas que a menudo surgen en problemas de inferencia. Para datos discretos, tenemos el binomio binomial, Poisson, geométrico, hipergeométrico y negativo, por nombrar algunos. Los ejemplos continuos incluyen chi cuadrado, lognormal, Cauchy, exponencial negativo, Weibull y Gumbel.

Michael R. Chernick
fuente
2

El uso del CLT para justificar el uso de la distribución gaussiana es una falacia común porque el CLT se aplica a la media de la muestra, no a las observaciones individuales. Por lo tanto, aumentar el tamaño de la muestra no significa que la muestra esté más cerca de la normalidad.

La distribución gaussiana se usa comúnmente porque:

  1. La estimación de máxima verosimilitud es sencilla.
  2. La inferencia bayesiana es simple (usando anteriores conjugados o anteriores de tipo Jeffreys).
  3. Se implementa en la mayoría de los paquetes numéricos.
  4. Hay mucha teoría sobre esta distribución en términos de pruebas de hipótesis.
  5. Falta de conocimiento sobre otras opciones (más flexible). ...

Por supuesto, la mejor opción es usar una distribución que tenga en cuenta las características de su contexto, pero esto puede ser un desafío. Sin embargo, es algo que la gente debería hacer

"Todo debe hacerse lo más simple posible, pero no más simple". (Albert Einstein)

Espero que esto ayude.

Los mejores deseos.

Tony
fuente
¿Por qué el voto negativo? ¿Qué argumento en contra es para esta explicación?
lmsasu
44
La creencia de que "El uso de la CLT para justificar el uso de la distribución gaussiana es una falacia común porque la CLT se aplica a la media de la muestra" es en sí misma una falacia. Por ejemplo, los electrones en un conductor se mueven al azar. La pequeña carga en cada electrón contribuye a un voltaje de ruido neto (llamado ruido térmico) que se puede medir a través de los terminales del conductor. Cada contribución es pequeña, hay muchos electrones y, por lo tanto, a través del CLT, el ruido se modela como un proceso aleatorio gaussiano. Este modelo ha sido validado en numerosos estudios experimentales.
Dilip Sarwate
1
Este primer párrafo es confuso y parece estar fuera de tema. Cuando aplicamos el CLT, a menudo decimos que una distribución es gaussiana porque cada observación individual es la suma / media de muchos procesos. Si se eliminara el primer párrafo, creo que esta sería una buena respuesta.
rm999
1
@ rm999 "Si se eliminara el primer párrafo, creo que sería una buena respuesta". En realidad, el primer párrafo es el quid de la respuesta, ya que el resto simplemente señala cómo el modelo gaussiano es útil analíticamente, que el OP ya comprende, y no responde a la pregunta formulada.
Dilip Sarwate
@Dilip: (+1) El núcleo de una muy buena respuesta está presente en su primer comentario. Considere expandirlo en una publicación separada.
cardenal