¿Cómo se transmite la belleza del teorema del límite central a un no estadístico?

33

Mi padre es un entusiasta de las matemáticas, pero no le interesan mucho las estadísticas. Sería genial tratar de ilustrar algunos de los maravillosos datos estadísticos, y el CLT es un candidato excelente. ¿Cómo transmitirías la belleza matemática y el impacto del teorema del límite central a un no estadístico?

Vince
fuente
Un pensamiento rápido es traer la regla 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ) a la discusión de alguna manera.
raegtin

Respuestas:

16

Lo que más me gustó de CLT son los casos en que no es aplicable; esto me da la esperanza de que la vida sea un poco más interesante de lo que sugiere la curva de Gauss. Así que muéstrale la distribución de Cauchy.

revs usuario88
fuente
¿Cuál es la relación entre la distribución de Cauchy y el CLT o el fallo del CLT?
robin girard
El CLT requiere que los MGF existan en un vecindario de 0. La distribución Cauchy no tiene esa propiedad. CLT Win. Cauchy ni siquiera satisface los requisitos más débiles de una versión más fuerte de CLT donde todo lo que se requiere es que existan la media y la varianza. La distribución de Cauchy muestra que se requiere que exista la media para que la CLT se mantenga. No hace que el CLT falle.
Baltimark
@Baltimark Has entendido mal mi publicación: es obvio que Cachy no está cubierto por CLT debido a los supuestos de CLT, de lo contrario sería imposible probar CLT. He dado este ejemplo porque la gente cree que CLT funciona para todas las distribuciones; probablemente "fallar" no es una palabra perfecta, pero aun así no creo que sea una razón para votar negativamente. Ok, incluso lo he cambiado a no aplicable.
Prefiero tu edición. La distribución de Cauchy es definitivamente muy buena.
Baltimark
14

Para apreciar completamente el CLT, debería verse.

De ahí la noción de la máquina de frijoles y muchos videos de YouTube para ilustrar.

Ami
fuente
Pensé que muestra la distribución binomial; No creo que sus asintóticos tengan un vínculo directo con CLT.
2
máquina de frijoles por el autor de la animación del paquete ... yihui.name/en/wp-content/uploads/2010/07/…
robin girard
1
@mbq eche un vistazo a en.wikipedia.org/wiki/…
robin girard
@robin He escrito al respecto, ¿cuál es el problema?
1
@ShreevatsaR El punto es que una buena ilustración debería mostrar el "núcleo" de algo, y (al menos en mi opinión) el "núcleo" de CLT radica en el hecho de que combina muchas variables de diferentes distribuciones extrañas en un gaussiano, no es que sea solo un límite de una distribución binomial.
7

A menudo, cuando los matemáticos hablan de probabilidad, comienzan con una distribución de probabilidad conocida y luego hablan de la probabilidad de eventos. El verdadero valor del teorema del límite central es que nos permite usar la distribución normal como una aproximación en casos en los que no conocemos la distribución verdadera. Podrías hacerle a tu padre una pregunta estadística estándar (pero redactada como matemática) sobre cuál es la probabilidad de que la media de una muestra sea mayor que un valor dado si los datos provienen de una distribución con media mu y sd sigma, luego verifica si él asume una distribución (que luego dice que no sabemos) o dice que necesita saber la distribución. Luego puede demostrar que podemos aproximar la respuesta usando el CLT en muchos casos.

Para comparar las matemáticas con las estadísticas, me gusta usar el teorema de integración del valor medio (que dice que para una integral de a a b existe un rectángulo de a a b con la misma área y la altura del rectángulo es el promedio de curva). El matemático observa este teorema y dice "genial, puedo usar una integración para calcular un promedio", mientras que el estadístico observa el mismo teorema y dice "genial, puedo usar un promedio para calcular una integral".

De hecho, tengo tapices cosidos en cruz en mi oficina del teorema del valor medio y el CLT (junto con el teorema de Bayes).

Greg Snow
fuente
Hmmm Creo que la mayoría de los matemáticos usan el MVT para aproximar una integral como un rectángulo.
Cardenal
5

Me gusta demostrar la variación de muestreo y esencialmente el Teorema del límite central a través de un ejercicio "en clase". Todos en la clase de digamos 100 estudiantes escriben su edad en una hoja de papel. Todos los trozos de papel son del mismo tamaño y se doblan de la misma manera después de calcular el promedio. Esta es la población y calculo la edad promedio. Luego, cada alumno selecciona al azar 10 hojas de papel, anota las edades y las devuelve a la bolsa. (S) calcula la media y le pasa la bolsa al siguiente alumno. Finalmente, tenemos 100 muestras de 10 estudiantes, cada una estimando la media de la población, que podemos describir a través de un histograma y algunas estadísticas descriptivas.

Luego repetimos la demostración esta vez utilizando un conjunto de 100 "opiniones" que replican algunas preguntas de Sí / No de encuestas recientes, por ejemplo, si la elección (General Británica) fuera convocada mañana, ¿consideraría votar por el Partido Nacional Británico? Los estudiantes les dan una muestra de 10 de estas opiniones.

Al final, hemos demostrado la variación de muestreo, el Teorema del límite central, etc. con datos continuos y binarios.

Graham Cookson
fuente
4

Jugar con el siguiente código, variar el valor My elegir distribuciones distintas al uniforme puede ser una ilustración divertida.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 
The Eremite
fuente
2

Si usa Stata, puede usar el comando -clt- que crea gráficos de distribuciones de muestreo, vea

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm

Michael Mitchell
fuente
Parece que podría ser muy agradable, pero acabo de intentar instalarlo y ejecutarlo en Stata 11.1 (es decir, la última versión) y me sigue dando un error r (3000) al hacer clic en "Listo" en el cuadro de diálogo, incluso si escribo - versión 6: clt-.
parada el
2

En mi experiencia, el CLT es menos útil de lo que parece. Uno nunca sabe en medio de un proyecto si n es lo suficientemente grande como para que la aproximación sea adecuada para la tarea. Y para las pruebas estadísticas, el CLT lo ayuda a proteger el error tipo I, pero hace poco para mantener a raya el error tipo II. Por ejemplo, la prueba t puede tener una potencia arbitrariamente baja para n grande cuando la distribución de datos es extremadamente sesgada.

Frank Harrell
fuente