Durante más de un año, he estado dando una clase de una hora de "gusto por las estadísticas". Cada vez que vengo un grupo diferente de niños y les doy la clase.
El tema de la clase es que realizamos un experimento en el que 10 niños (a quienes les gusta beber coca-cola) reciben dos tazas (sin marcar), una con coca-cola y otra con pepsi. Se les pide a los niños que detecten, según el gusto y el olfato, qué taza contiene la bebida de coca-cola.
Luego necesito explicarles cómo decidir si los niños están adivinando, o si ellos (o al menos, lo suficiente) realmente tienen la capacidad de saborear la diferencia. ¿Son 10 de 10 éxitos lo suficientemente buenos? ¿Qué pasa con 7 de cada 10?
Incluso después de dar esta clase decenas de veces (en diferentes variaciones), sigo sin sentir que sé cómo transmitir el concepto de una manera que la mayoría de la clase lo entienda.
Si tiene alguna idea sobre cómo se puede explicar el concepto de prueba de hipótesis, hipótesis nula, hipótesis alternativa, regiones de rechazo, etc. de una manera simple (!) E intuitiva , me encantaría saber cómo.
fuente
Respuestas:
Creo que deberías comenzar preguntándoles qué creen que realmente significa decir acerca de una persona que él o ella puede distinguir la diferencia entre coca-cola y pepsi. ¿Qué puede hacer esa persona que otros no pueden hacer?
La mayoría de ellos no tendrá tal definición, y no podrá producir una si se le pregunta. Sin embargo, un significado de esa frase es lo que nos da las estadísticas, y eso es lo que puede aportar con su clase de "gusto por las estadísticas".
Uno de los puntos de las estadísticas es dar una respuesta exacta a la pregunta: "¿qué significa decir de alguien que él o ella puede distinguir la diferencia entre coca-cola y pepsi"?
La respuesta es: él o ella es mejor que una máquina de adivinanzas para clasificar tazas en una prueba a ciegas. La máquina de adivinanzas no puede notar la diferencia, simplemente adivina todo el tiempo. La máquina de adivinanzas es una invención útil para nosotros porque sabemos que no tiene la capacidad. Los resultados de la máquina de adivinanzas son útiles porque muestran lo que deberíamos esperar de alguien que carece de la capacidad que probamos.
Para probar si una persona puede distinguir la diferencia entre coca-cola y pepsi, uno debe comparar sus clasificaciones de tazas en una prueba a ciegas con la clasificación que haría una máquina de adivinanzas. Solo si él / ella es mejor que la máquina de adivinanzas, él / ella puede notar la diferencia.
¿Cómo, entonces, determina si un resultado es mejor que otro? ¿Qué pasa si son casi lo mismo?
Si dos personas clasifican una pequeña cantidad de tazas, no es justo decir que una es mejor que la otra si los resultados son casi los mismos. ¿Quizás el ganador tuvo suerte hoy, y los resultados se habrían revertido si la competencia se repitiera mañana?
Si queremos obtener un resultado confiable, no se puede basar en un pequeño número de clasificaciones, porque entonces la casualidad puede decidir el resultado. Recuerda, no tienes que ser perfecto para tener la habilidad, solo tienes que ser mejor que la máquina de adivinanzas. De hecho, si el número de clasificaciones es demasiado pequeño, ni siquiera una persona que siempre identifica correctamente la coca-cola podrá demostrar que es mejor que la máquina de adivinanzas. Por ejemplo, si solo hay una taza para clasificar, incluso la máquina de adivinanzas tendrá un 50% de posibilidades de clasificar completamente correcta. Eso no es bueno, porque eso significa que en el 50 por ciento de los ensayos, concluiríamos falsamente que un buen identificador de coca-cola no es mejor que la máquina de adivinanzas. Muy injusto.
Cuantas más tazas hay para clasificar, más oportunidades para revelar la incapacidad de la máquina de adivinanzas y más oportunidades para mostrar el buen identificador de coca-cola.
10 tazas pueden ser un buen lugar para comenzar. ¿Cuántas respuestas correctas debe tener un humano para demostrar que es mejor que la máquina?
Pregúnteles qué adivinarían.
Luego, permítales usar la máquina y descubran lo bueno que es, es decir, que todos los alumnos generen una serie de diez conjeturas, por ejemplo. usando un dado o un generador aleatorio en el teléfono inteligente. Para ser pedagógico, debe preparar una serie de diez respuestas correctas, contra las cuales se deben evaluar las conjeturas.
Registre todos los resultados en la pizarra. Imprima los resultados ordenados en la pizarra. Explique que un humano tendría que ser mejor que el 95 por ciento de esos resultados antes de que un estadístico reconozca su capacidad para distinguir entre la coca-cola y la pepsi. Dibuja la línea que separa los peores resultados del 95% de los mejores resultados del 5%.
Luego, deje que algunos alumnos intenten clasificar 10 tazas. A estas alturas, los alumnos deben saber cuántos derechos tienen que tener para demostrar que pueden notar la diferencia.
Sin embargo, todo esto no es factible en 10 minutos.
fuente
Trabajar con refrescos suena divertido, y la prueba de si los adolescentes realmente pueden notar la diferencia entre los refrescos tiene sentido una vez que tenga un conocimiento razonable de las pruebas de hipótesis. El problema podría ser que esta pregunta: "¿puede realmente notar la diferencia entre los refrescos?" es complicado por muchas otras cosas en la mente de los adolescentes, como "¿quién es bueno y quién es malo para probar los refrescos?", "¿hay alguna diferencia entre los refrescos?"
Nunca he enseñado estadísticas de adolescentes, pero siempre he fantaseado con usar un dado cargado o una moneda sesgada. Muere más interesante, pero estadísticamente más desafiante. Con el ejemplo de la moneda, una moneda es o no es justa. No hay nada bueno en lanzar monedas. No se puede decidir si es cara o cruz.
Si lanzamos una moneda por quién gana $ 100, y sale cara (¡tú ganas!), Podría decir: "Oye. ¿Cómo sé si esa moneda es justa? ¡Apuesto a que manipulaste la competencia!". Dices "¿Ah sí? Pruébalo". La solución bastante obvia es voltear la moneda una y otra vez para ver si sale más cara que cruz. Lo volteamos y sale cara. "¡Ahha! Digo. ¡Seee! ¡Está sesgado hacia las cabezas!" Y así.
Las buenas monedas sesgadas no existen, pero los dados sesgados sí, puedes comprar una en Amazon. Podrías ofrecer un premio a los estudiantes si pueden ganar cierto número de rollos. Pero sabes que ganarás. Estarán enojados Dices, OK, te daré el premio si puedes probar que este dado está sesgado, con digamos, 95% de confianza.
Luego pasa a la gaseosa. ¡El premio podría incluso ser una fiesta de gaseosas! "Hey, me pregunto si ustedes pueden notar la diferencia entre coca y pepsi ..."
fuente
Considere a alguien haciendo prácticas de tiro con una escopeta, que dispara ráfagas de perdigones en la dirección del cañón.
Hipótesis nula: soy un buen tirador, y mi cañón está perfectamente en el blanco. No a la izquierda, no a la derecha, sino directamente. Mi error es 0
Hipótesis alternativa: soy un mal tirador y mi cañón está fuera del objetivo. Justo a la izquierda o a la derecha del objetivo. Mi error es e> 0 o e <0.
Dado que cualquier medición tiene un cierto error promedio (es decir, error estándar), es posible una medición que dice "fuera del objetivo", incluso si estoy disparando directamente. Tendré que no "golpear" mi objetivo (en absoluto, incluso con cada disparo como una ráfaga / propagación) un cierto número de veces, antes de que pueda llamarme un mal tirador y elegir la Hipótesis Alternativa.
fuente
Suponga que los niños no pueden notar la diferencia y decidan por casualidad. Entonces cada niño tiene un 50% de posibilidades de adivinarlo bien. Entonces, usted espera (valor esperado) que en este caso, 5 niños lo hagan bien y 5 niños erren. Por supuesto, como es casualidad, también es posible que 6 niños se equivoquen y 4 lo hagan bien, y así sucesivamente. En el lado opuesto, incluso si los niños pueden notar la diferencia, es posible que por casualidad uno de ellos se equivoque.
Intuitivamente, está claro, que si los niños adivinan por casualidad, es bastante improbable que todos los niños den la respuesta correcta. En este caso, uno preferiría creer que los niños realmente podrían saborear la diferencia entre ambas bebidas. En otras palabras, no esperamos que se observen eventos improbables. Entonces, si observamos un evento que es improbable bajo el escándalo 50-50, creemos que este escenario es falso y los niños pueden distinguir entre Coca-Cola y Pepsi.
Este es el momento en el que realizas el experimento. Hágalo a fondo con los 10 alumnos, incluso si acaba de calcular que podría detenerse después del segundo error. Luego registre los resultados y guárdelos. Necesitará los resultados si desea explicarles los metanálisis.
(Por cierto, el ejemplo histórico se trata de probar si la leche o el té se han vertido primero en la taza. La dama de degustación de té).
fuente
Muestre este video, que es la explicación más intuitiva de las pruebas de hipótesis que he visto: https://www.youtube.com/watch?v=UApFKiK4Hi8
fuente
El experimento de degustación de coca de los niños es un buen ejemplo para presentar una prueba de hipótesis, como lo demostró el experimento del té de degustación de mujeres. Sin embargo, evaluar esos experimentos no es muy intuitivo porque la hipótesis nula implica la distribución binomial con p = 0.5, y no es sencilla.
En mi introducción habitual a la prueba de hipótesis, trato de superar este inconveniente utilizando solo el caso de todos los éxitos en la distribución binomial, cuya probabilidad puede calcularse como p ^ n incluso por personas que no conocen la probabilidad binomial.
En mi ejemplo favorito, me gustan las castañas asadas y compro un puñado de ellas de un vendedor ambulante. Los obtengo a un precio de descuento porque provienen de una bolsa grande donde el 10% de las castañas tienen un agujero de gusano; aquí trato de aclarar que la bolsa se ha mezclado bien para que mi puñado de castañas sea una muestra aleatoria de las castañas en la bolsa y la declaración del vendedor significa que cada castaño tiene una probabilidad independiente del 10% de tener un agujero de gusano.
Cuando empiezo a disfrutar mis castañas asadas, las tomo una por una y las reviso en busca de agujeros de gusanos antes de comerlas.
Cuando reviso la primera castaña, veo un agujero de gusano, y me pregunto si el vendedor me mintió; explico aquí que me pregunto si eso establece mi hipótesis nula p = 10% y mi hipótesis alternativa p> 10%, y pongo ellos en la pizarra. ¿Tengo alguna razón para dudar de que p = 10% cuando obtuve una castaña mala de una? Bueno, el 10% de las personas que realizan el mismo experimento obtendrían el mismo resultado, así que puedo pensar que tuve mala suerte.
Luego, tomo la segunda castaña y también tiene un agujero de gusano. Dos de cada dos tienen una probabilidad de solo 1% si el vendedor no me ha mentido. Podría haber tenido muy mala suerte, pero sospecho mucho del vendedor.
El tercer castaño también tiene un agujero de gusano. Obtener las tres castañas con gusanos de tres no sería imposible suponiendo que el vendedor es justo y p = 10%, pero sería muy poco probable (probabilidad = 0.1%). Por lo tanto, ahora tengo una buena razón para dudar sobre el trabajo del proveedor y planteo una queja y solicito que me devuelvan el dinero.
Por supuesto, este tipo de prueba sucesiva tiene algunos problemas teóricos, pero no importa mucho mostrar la idea de una prueba de hipótesis. De hecho, la idea más importante que no se cubre en ese ejemplo es que en las pruebas de hipótesis calculamos la probabilidad de los resultados que obtenemos o algo peor; en mi ejemplo, esto se evitó simplemente obteniendo el peor resultado posible.
He usado este ejemplo varias veces con estudiantes de primer año en la universidad, que todavía son técnicamente adolescentes, pero creo que también podría funcionar bien con adolescentes más jóvenes.
fuente