¿Cuáles son buenos ejemplos para mostrar a los estudiantes de pregrado?

9

Voy a enseñar estadística como asistente de enseñanza durante la segunda mitad de este semestre a estudiantes de pregrado orientados a CS. La mayoría de los estudiantes que tomaron la clase no tienen ningún incentivo para aprender la materia y solo la tomaron para requisitos mayores. Quiero que el tema sea interesante y útil, no solo una clase que aprendan para obtener una B + para aprobar.

Como estudiante de doctorado en matemáticas puras, sabía poco sobre el lado aplicado de la vida real. Quiero pedir algunas aplicaciones de la vida real de estadísticas de pregrado. Los ejemplos que estoy buscando son unos (en espíritu) como:

1) Mostrar el teorema del límite central es útil para ciertos datos de muestra grandes.

2) Proporcione un contraejemplo de que el teorema del límite central no es aplicable (por ejemplo, los que siguen a la distribución de Cauchy).

3) Mostrar cómo funciona la prueba de hipótesis en ejemplos famosos de la vida real usando la prueba Z, la prueba t o algo así.

4) Mostrar cómo el sobreajuste o la hipótesis inicial incorrecta podrían dar resultados incorrectos.

5) Mostrar cómo funciona el valor p y el intervalo de confianza en casos de la vida real (bien conocidos) y donde no funcionan tan bien.

6) De manera similar, errores tipo I, tipo II, potencia estadística, nivel de rechazo , etc.α

Mi problema es que si bien tengo muchos ejemplos en el lado de la probabilidad (lanzamiento de monedas, lanzamiento de dados, ruina del jugador, martingales, caminata aleatoria, paradoja de tres prisioneros, problema de monty hall, métodos de probabilidad en el diseño de algoritmos, etc.), no sé como muchos ejemplos canónicos en el lado de las estadísticas. Lo que quiero decir son ejemplos serios e interesantes que tienen cierto valor pedagógico, y no está inventado de manera extremadamente artificial que parece estar muy alejado de la vida real. No quiero darles a los estudiantes la falsa impresión de que la prueba Z y la prueba t lo son todo. Pero debido a mi formación matemática pura, no conozco suficientes ejemplos para hacer que la clase sea interesante y útil para ellos. Entonces estoy buscando ayuda.

El nivel de mi alumno es de cálculo I y cálculo II. Ellos no pueden siquiera muestran la variación de normal estándar es 1 por definición, ya que no saben cómo evaluar el kernel de Gauss. Por lo tanto, cualquier cosa computacional ligeramente teórica o práctica (como la distribución hipergeométrica, la ley del arco en la caminata aleatoria 1D) no funcionará. Quiero mostrar algunos ejemplos que puedan entender no solo "cómo", sino también "por qué". De lo contrario, no estoy seguro de si probaré lo que dije por intimidación.

Bombyx mori
fuente
2
n=100n=1000n=1010
3
El teorema de Berry-Esseen (que espero que no enseñe a ese nivel) podría usarse con muestras finitas. Informalmente, por supuesto, las medias muestrales de distribuciones particulares se vuelven cada vez más normales a medida que aumenta el tamaño de la muestra, pero realmente no podemos decir "ese es el teorema del límite central", ya que el CLT en realidad no dice nada al respecto. Además, para mostrar que las cosas se acercan constantemente a una distribución normal, necesita una secuencia de tamaños de muestra. En la recopilación de datos del mundo real, eso es común solo en los datos recopilados a lo largo del tiempo (por lo tanto, si está asumiendo iid, puede tener algunas dificultades).
Glen_b -Reinstala Monica
2
Hay un dato real (de un experimento - si es un tanto artificial) conjunto - 40000 lanzamientos de moneda - enlazada desde aquí
Glen_b -Reinstate Mónica
1
Puede mostrarles algo sobre cómo se comportan los medios de muestra en situaciones particulares con el aumento del tamaño de la muestra, eso es bastante útil; simplemente no es estrictamente preciso atribuirlo al CLT. Los datos de lanzamiento de moneda pueden ser útiles para eso (como podrían ser los datos que generan ellos mismos de manera similar). Sin embargo, es posible que desee leer la información en el enlace antes de obtener los datos, porque hay una característica importante de los datos (que también es la motivación para recopilarlos en primer lugar).
Glen_b -Reinstala Monica
1
Se proporcionan ejemplos de casi todo lo que enumera en buenos textos de introducción de estadísticas, como Freedman, Pisani y Purves . (Me vinculé a la Tercera Edición, que puede encontrar fácilmente utilizada por menos de $ 10 US. Cualquier edición funcionará bien; la última edición puede tener ejemplos más actualizados.)
whuber

Respuestas:

1

Una buena manera puede ser instalar R ( http://www.r-project.org/ ) y usar sus ejemplos para la enseñanza. Puede acceder a la ayuda en R con los comandos "? T.test", etc. Al final de cada archivo de ayuda hay ejemplos. Para t.test, por ejemplo:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

ingrese la descripción de la imagen aquí

rnso
fuente
1

Sugiero una aplicación del teorema del límite central para la determinación previa del tamaño de una muestra y para encontrar una respuesta a preguntas como "¿envié suficientes cuestionarios", etc.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf proporciona un buen ejemplo del mundo real de cómo aplicar el teorema del límite central. Una estrategia didáctica podría ser:

Una teoría

* aclare la diferencia entre una distribución de muestreo y la distribución de una estimación, por ejemplo, mediante la distribución "plana" de tirar un dado versus la distribución de la media de N dados (use R o deje que los estudiantes jueguen ellos mismos con Excel dibujando solo -distribuciones de valor versus distribución de medias)

* muestre el cálculo de percentiles basado en fórmulas para la distribución de la media (ya que es un experto en matemáticas, es posible que desee derivar la fórmula); este punto corresponde a las diapositivas 10-17 en la presentación vinculada anteriormente

y luego (como en la diapositiva 20 de la presentación vinculada anteriormente):

B) aplicación

* muestra cómo el teorema del límite central ayuda a determinar los tamaños de muestra para un exacto deseado en las estimaciones de la media

Esta aplicación B) es lo que, en mi experiencia, los no estadísticos esperan de un estadístico: responder preguntas del tipo "¿Tengo suficientes datos?"

Statos
fuente
1

Como está enseñando a estudiantes de CS, una buena aplicación del Teorema del límite central puede ser estimar la media de un conjunto de datos masivo (es decir,> 100 millones de registros). Puede ser instructivo mostrar que no es necesario calcular la media para todo el conjunto de datos, sino tomar muestras del conjunto de datos y usar la media de muestra para estimar la media de todo el conjunto de datos / base de datos. Podría llevar esto un paso más allá si quisiera y simule un conjunto de datos que tenga valores drásticamente diferentes para diferentes subgrupos. Luego, podría hacer que los estudiantes exploren muestras estratificadas para obtener estimaciones más precisas.

Nuevamente, dado que hay estudiantes de CS, es posible que desee hacer un poco de arranque para obtener también intervalos de confianza o estimar las variaciones de estadísticas más complejas. Esta es una buena intersección de las estadísticas y la computadora, ya que, en mi opinión, podría generar un mayor interés en el tema.

EstadísticasEstudiante
fuente
1

Comencé escribiendo un comentario pero se hizo demasiado largo ...

σ

Entonces, en mi opinión, les gustará si presentas inferencia desde un punto de vista de "aprendizaje", y si presentas pruebas desde un punto de vista de "teoría de decisión" o de "clasificación", en resumen, se supone gustar los algoritmos. ¡Para asimilar algoritmos!

Además, intente encontrar conjuntos de datos relacionados con CS; por ejemplo, la duración de las conexiones y el número de solicitudes por unidad de tiempo a un servidor html pueden ayudar a ilustrar muchos conceptos.

Les encantará aprender técnicas de simulación. Los generadores Lehmer son fáciles de implementar. Muéstreles cómo simular otras distribuciones invirtiendo el cdf. Si te gusta esto, muéstrales el algoritmo Ziggurat de Marsaglia. Ah, y el generador MWC256 de Marsaglia es una pequeña joya. Las pruebas Diehard de Marsaglia (pruebas de equidad de generadores uniformes) pueden ayudar a ilustrar muchos conceptos de probabilidad y estadística. Incluso puede optar por presentar la teoría de la probabilidad basada en "flujos (independientes) de dobles aleatorios, oups, quiero decir reales", esto es un poco descarado, pero puede ser grandioso.

t

Si domina su tema lo suficiente, no dude en ser original. Las conferencias "clásicas" están bien cuando enseñas algo con lo que no estás completamente familiarizado. Buena suerte, y si publicas algunas notas de clase, ¡házmelo saber!

Elvis
fuente
1

Dices que esto es estudiantes de informática. ¿Cuáles son sus intereses, esto es principalmente informática teórica, o los estudiantes están motivados principalmente por la preparación para el trabajo? ¡También puede decirnos cuál es la descripción del curso!

Pero, sea cual sea su respuesta a esas preguntas, puede comenzar con algunas estadísticas prácticas que se producen en contextos informáticos, como (por ejemplo) diseño web. Este sitio de vez en cuando tiene preguntas al respecto, como las tasas de conversión a lo largo del tiempo o /stats/96853/comparing-sales-person-conversion-rates o AB Testing otros factores además de la tasa de conversión .

Aquí hay muchas preguntas como estas, aparentemente de personas involucradas en el diseño web. La situación es que tienes alguna página web (por ejemplo, vendes algo). La "tasa de conversión", según tengo entendido, es el porcentaje de visitantes que realizan alguna tarea preferida (como comprar o algún otro objetivo que tenga para sus visitantes). Luego, como diseñador web, pregunta si su diseño de la página influye en este comportamiento. Por lo tanto, programa dos (o más) versiones de la página web, elige aleatoriamente qué versión presentar a algún cliente nuevo, y puede comparar las tasas de conversión, y finalmente elige implementar la versión con la tasa de conversión más alta.

Este es un problema de diseño de un experimento de comparación, y necesita métodos estadísticos para comparar porcentajes, o tal vez directamente la tabla de contingencia de diseños versus convertir / no convertir. ¡Ese ejemplo podría mostrarles que las estadísticas podrían ser útiles para ellos en algún trabajo de desarrollo web! Y, desde el punto de vista estadístico, abre muchas preguntas interesantes sobre la validez de los supuestos ...

Para conectarse con lo que dice sobre el teorema del límite central, puede preguntar cuántas observaciones necesita antes de poder tratar los porcentajes como distribuidos normalmente, y hacer que estudien eso usando la simulación ...

Puede buscar en este sitio otras preguntas sobre estadísticas planteadas por los tipos de programadores ...

revs kjetil b halvorsen
fuente
-2

Sugiero que, antes de cualquier buen ejemplo, es mejor centrarse en definiciones claras. En mi experiencia, la probabilidad y las estadísticas de pregrado es un curso lleno de palabras que ninguno de los estudiantes entiende. Como experimento, pregunte a los estudiantes que acaban de terminar un curso de probabilidad qué es una "variable aleatoria". Pueden darle ejemplos, pero dudo que la mayoría le dé una definición clara de ello. ¿Qué es exactamente la "probabilidad"? ¿Qué es una "distribución"? La terminología en estadística es aún más confusa. La mayoría de los libros de pregrado que he visto hacen un muy mal trabajo al explicar esto. Los ejemplos y los cálculos son buenos, pero sin definiciones claras no es tan útil como uno podría pensar. Hablando desde mi experiencia, esta era exactamente la razón por la que odiaba la teoría de la probabilidad como estudiante universitario. Aunque mis intereses están tan alejados de la probabilidad como uno puede tener, ahora aprecio el tema, porque eventualmente aprendí lo que realmente significa toda la terminología. Pido disculpas porque esto no es exactamente lo que pediste, pero dado que estás enseñando una clase así, pensé que sería un consejo útil.

Nicolas Bourbaki
fuente
1
No estoy seguro de estar de acuerdo, al menos no en la mayoría de los casos. Para algunos, la comprensión conceptual puede, como sugiere, preceder la aplicación a ejemplos particulares, pero para otros estudiantes, la comprensión conceptual (especialmente para temas complicados) puede producirse solo mediante el uso de un ejemplo particularmente esclarecedor.
jsakaluk
Cuando era estudiante universitario, generalmente no me costaba mucho leer matemáticas de posgrado y resolver los problemas allí. Sabía lo que estaba haciendo y lo que tenía que hacer. La teoría de la probabilidad, o estadística, es "más fácil" que las materias que estaba aprendiendo. Pero no tenía idea de lo que estaba haciendo o por qué tenía que hacerlo. Los libros de texto en sí no me sirvieron de nada. Después de leerlos, realmente no entendí el vocabulario. Claro, puedo hacer los cálculos, pero al final del día, lo vi como un tema vacío. Si tuviera esta confusión, al fortiorti, los estudiantes no matemáticos también.
Nicolas Bourbaki
55
Me pregunto si este podría ser un consejo más útil para enseñar probablemente a estudiantes muy brillantes en un título de matemática pura que para enseñar estadísticas aplicadas a estudiantes de CS.
Silverfish
@Silverfish No estoy seguro de si mi consejo solo es aplicable a estudiantes de matemáticas. Se puede desarrollar el lenguaje de la teoría de la medida y mostrar cómo se expresa la probabilidad en él, sin entrar en la teoría. Esto realmente no es diferente del cálculo básico. La mayoría de los libros al menos definen sus términos, pero no entran en la teoría de ellos. Si los estudiantes entendieron que la estadística es el problema inverso de la probabilidad, y que, por ejemplo, nos "importa" la media porque se aproxima al valor esperado de una variable aleatoria, entonces pueden apreciarla mucho más.
Nicolas Bourbaki