Después de tomar un curso de estadística y luego tratar de ayudar a otros estudiantes, noté que un tema que inspira mucho golpear el escritorio es interpretar los resultados de las pruebas de hipótesis estadísticas. Parece que los estudiantes aprenden fácilmente cómo realizar los cálculos requeridos por una prueba determinada, pero se obsesionan con la interpretación de los resultados. Muchas herramientas informatizadas informan los resultados de las pruebas en términos de "valores p" o "valores t".
¿Cómo explicaría los siguientes puntos a los estudiantes universitarios que toman su primer curso de estadística:
¿Qué significa un "valor p" en relación con la hipótesis que se está probando? ¿Hay casos en los que uno debería estar buscando un valor p alto o un valor p bajo?
¿Cuál es la relación entre un valor p y un valor t?
fuente
Respuestas:
Comprender el valorp
Suponga que quiere probar la hipótesis de que la altura promedio de los estudiantes varones en su universidad es de pies y pulgadas. Recolecta alturas de estudiantes seleccionados al azar y calcula la media de la muestra (digamos que resulta ser pies pulgadas). Usando una fórmula / rutina estadística apropiada, calcula el valor para su hipótesis y dice que resulta ser .7 100 5 9 p 0,065 7 100 5 9 p 0.06
Para interpretar adecuadamente, debemos tener en cuenta varias cosas:p=0.06
El primer paso bajo la prueba de hipótesis clásica es la suposición de que la hipótesis considerada es verdadera. (En nuestro contexto, suponemos que la altura promedio real es de pies y pulgadas).75 7
Imagínese haciendo el siguiente cálculo: Calcule la probabilidad de que la media de la muestra sea mayor que pies pulgadas, suponiendo que nuestra hipótesis sea correcta (ver punto 1).95 9
En otras palabras, queremos saber
El cálculo en el paso 2 es lo que se llama el valor . Por lo tanto, un valor de significaría que si tuviéramos que repetir nuestro experimento muchas, muchas veces (cada vez que seleccionamos estudiantes al azar y calculamos la media de la muestra), entonces cada podemos esperar ver una muestra significa mayor o igual a pies y pulgadas.p 0.06 100 6 100 5 9p p 0.06 100 6 100 5 9
Dado el entendimiento anterior, ¿deberíamos mantener nuestra suposición de que nuestra hipótesis es verdadera (ver paso 1)? Bueno, una indica que ha sucedido una de dos cosas:p=0.06
o
La forma tradicional de elegir entre (A) y (B) es elegir un corte arbitrario para . Elegimos (A) si y (B) si .p > 0.05 p < 0.05p p>0.05 p<0.05
fuente
Un diálogo entre un maestro y un estudiante reflexivo
Humildemente presentado en la creencia de que hasta ahora no se han usado suficientes crayones en este hilo. Una breve sinopsis ilustrada aparece al final.
Estudiante : ¿Qué significa un valor p? Mucha gente parece estar de acuerdo en que es la posibilidad de que "veamos un promedio de muestra mayor o igual que" un estadístico o es "la probabilidad de observar este resultado ... dado que la hipótesis nula es verdadera" o donde "el estadístico de mi muestra cayó en una distribución [simulada] " e incluso " la probabilidad de observar una estadística de prueba al menos tan grande como la calculada suponiendo que la hipótesis nula es verdadera " .
Maestro : Bien entendido, todas esas declaraciones son correctas en muchas circunstancias.
Estudiante : No veo cómo la mayoría de ellos son relevantes. ¿No nos enseñó que tenemos que establecer una hipótesis nula y una hipótesis alternativa ? ¿Cómo están involucrados en estas ideas de "mayor o igual que" o "al menos tan grande" o el muy popular "más extremo"?H AH0 HA
Maestro : Debido a que puede parecer complicado en general, ¿nos ayudaría explorar un ejemplo concreto?
Estudiante : Claro. Pero si puede, hágalo realista pero simple.
Maestro : Esta teoría de la prueba de hipótesis comenzó históricamente con la necesidad de los astrónomos de analizar los errores de observación, entonces, ¿qué tal si comenzamos allí? Estaba revisando algunos documentos antiguos un día en que un científico describió sus esfuerzos para reducir el error de medición en su aparato. Había tomado muchas medidas de una estrella en una posición conocida y registró sus desplazamientos delante o detrás de esa posición. Para visualizar esos desplazamientos, dibujó un histograma que, cuando se suavizó un poco, se parecía a este.
Estudiante : Recuerdo cómo funcionan los histogramas: el eje vertical está etiquetado como "Densidad" para recordarme que las frecuencias relativas de las mediciones están representadas por área en lugar de altura.
Maestro : Eso es correcto. Un valor "inusual" o "extremo" se ubicaría en una región con un área bastante pequeña. Aquí hay un crayón. ¿Crees que podrías colorear en una región cuya área es solo una décima parte del total?
Estudiante : Claro; eso es fácil. [Colores en la figura.]
Maestra : Muy bien! Eso me parece aproximadamente el 10% del área. Sin embargo, recuerde que las únicas áreas en el histograma que importan son aquellas entre líneas verticales: representan la posibilidad o probabilidad de que el desplazamiento se ubique entre esas líneas en el eje horizontal. Eso significa que necesita colorear todo el camino hasta el fondo y eso sería más de la mitad del área, ¿no?
Estudiante : Oh, ya veo. Déjame intentar de nuevo. Voy a querer colorear donde la curva es realmente baja, ¿no? Es más bajo en los dos extremos. ¿Tengo que colorear solo en un área o estaría bien dividirlo en varias partes?
Maestro : Usar varias partes es una idea inteligente. ¿Dónde estarían ellos?
Estudiante (señalando): Aquí y aquí. Debido a que este crayón no es muy afilado, usé un bolígrafo para mostrarle las líneas que estoy usando.
Maestra : ¡Muy bien! Déjame contarte el resto de la historia. El científico hizo algunas mejoras en su dispositivo y luego tomó medidas adicionales. Escribió que el desplazamiento del primero fue de solo , lo que pensó que era una buena señal, pero como era un científico cuidadoso, procedió a tomar más medidas como un control. Desafortunadamente, esas otras medidas se pierden, el manuscrito se rompe en este punto, y todo lo que tenemos es ese número único, .0.10.1 0.1
Estudiante : Eso es muy malo. Pero, ¿no es mucho mejor que la amplia distribución de desplazamientos en su figura?
Maestro : Esa es la pregunta que me gustaría que respondieras. Para empezar, ¿qué deberíamos plantear como ?H0
Estudiante : Bueno, un escéptico se preguntaría si las mejoras realizadas en el dispositivo tuvieron algún efecto. La carga de la prueba recae en el científico: le gustaría mostrar que el escéptico está equivocado. Eso me hace pensar que la hipótesis nula es algo mala para el científico: dice que todas las nuevas mediciones, incluido el valor de que conocemos, deberían comportarse como se describe en el primer histograma. O tal vez incluso peor que eso: podrían estar aún más dispersos.0.1
Maestro : Continúa, te va bien.
Estudiante : Y entonces la alternativa es que las nuevas medidas estarían menos extendidas, ¿verdad?
Maestra : Muy bien! ¿Podrías dibujarme una imagen de cómo se vería un histograma con menos difusión? Aquí hay otra copia del primer histograma; puedes dibujar encima como referencia.
Estudiante (dibujo): estoy usando un bolígrafo para delinear el nuevo histograma y coloreo el área debajo de él. He hecho que la mayor parte de la curva esté cerca de cero en el eje horizontal y que la mayor parte de su área esté cerca de un valor (horizontal) de cero: eso es lo que significa estar menos extendido o más preciso.
Maestro : Ese es un buen comienzo. Pero recuerde que un histograma que muestre posibilidades debe tener un área total de . El área total del primer histograma, por lo tanto, es . ¿Cuánta área hay dentro de su nuevo histograma?11 1
Estudiante : menos de la mitad, creo. Veo que es un problema, pero no sé cómo solucionarlo. ¿Qué tengo que hacer?
Maestro : El truco es hacer que el nuevo histograma sea más alto que el anterior para que su área total sea . Aquí, te mostraré una versión generada por computadora para ilustrar.1
Estudiante : Ya veo: lo estiró verticalmente para que su forma realmente no cambiara, pero ahora el área roja y el área gris (incluida la parte debajo del rojo) son las mismas cantidades.
Maestra : bien. Está viendo una imagen de la hipótesis nula (en azul, extendida) y parte de la hipótesis alternativa (en rojo, con menos extensión).
Estudiante : ¿Qué quieres decir con "parte" de la alternativa? ¿No es solo la hipótesis alternativa?
Maestro : Los estadísticos y la gramática no parecen mezclarse. :-) En serio, lo que quieren decir con una "hipótesis" generalmente es un gran conjunto de posibilidades. Aquí, la alternativa (como dijiste tan bien antes) es que las mediciones están "menos extendidas" que antes. Pero cuanto menos ? Hay muchas posibilidades Aquí, déjame mostrarte otro. Lo dibujé con rayas amarillas. Está entre los dos anteriores.
Estudiante : Ya veo: puede tener diferentes cantidades de propagación, pero no sabe de antemano cuánto será realmente la propagación. Pero, ¿por qué hiciste el sombreado divertido en esta imagen?
Maestro : Quería resaltar dónde y cómo difieren los histogramas. Los sombreé en gris donde los histogramas alternativos son más bajos que los nulos y en rojo donde las alternativas son más altas .
Estudiante : ¿Por qué eso importaría?
Maestro : ¿Recuerdas cómo coloreaste el primer histograma en ambas colas? [Mirando a través de los papeles.] Ah, aquí está. Vamos a colorear esta imagen de la misma manera.
Estudiante : Recuerdo: esos son los valores extremos. Encontré los lugares donde la densidad nula era lo más pequeña posible y coloreé el 10% del área allí.
Maestro : Cuéntame sobre las alternativas en esas áreas extremas.
Estudiante : Es difícil de ver, porque el crayón lo cubrió, pero parece que casi no hay posibilidad de que haya otra alternativa en las áreas que coloreé. Sus histogramas están justo debajo del eje de valores y no hay espacio para ningún área debajo de ellos.
Maestro : Continuemos con ese pensamiento. Si te dijera, hipotéticamente, que una medida tiene un desplazamiento de , y te pido que elijas de cuál de estos tres histogramas es el que probablemente proviene, ¿cuál sería?−2
Estudiante : El primero, el azul. Es el más extendido y es el único donde parece tener alguna posibilidad de ocurrir.−2
Maestro : ¿Y qué hay del valor de en el manuscrito?0.1
Estudiante : Hmmm ... esa es una historia diferente. Los tres histogramas están bastante por encima del suelo en .0.1
Maestra : Ok, lo suficientemente justo. Pero supongamos que le dije que el valor estaba en algún lugar cerca de , como entre y . ¿Eso te ayuda a leer algunas probabilidades de estos gráficos?0.1 0 0.2
Estudiante : Claro, porque puedo usar áreas. Solo tengo que estimar las áreas debajo de cada curva entre y . Pero eso parece bastante difícil.0 0.2
Maestro : No necesitas ir tan lejos. ¿Puedes decir qué área es la más grande?
Estudiante : El que está debajo de la curva más alta, por supuesto. Las tres áreas tienen la misma base, por lo que cuanto más alta es la curva, más área hay debajo de ella y la base. Eso significa que el histograma más alto, el que dibujé, con guiones rojos, es el más probable para un desplazamiento de . Creo que veo a dónde vas con esto, pero estoy un poco preocupado: ¿no tengo que mirar todos los histogramas para todas las alternativas, no solo las que se muestran aquí? ¿Cómo podría hacer eso?0.1
Maestro : Eres bueno para elegir patrones, así que dime: a medida que el aparato de medición se hace cada vez más preciso, ¿qué sucede con su histograma?
Estudiante : Se vuelve más angosto, oh, y también tiene que ser más alto, por lo que su área total permanece igual. Eso hace que sea bastante difícil comparar los histogramas. Las alternativas son todas más altas que la nula derecha en , eso es obvio. ¡Pero a otros valores, a veces las alternativas son más altas y otras más bajas! Por ejemplo, [apuntando a un valor cercano a ], aquí mi histograma rojo es el más bajo, el histograma amarillo es el más alto y el histograma nulo original está entre ellos. Pero a la derecha, el nulo es el más alto.0 3/4
Maestro : En general, comparar histogramas es un negocio complicado. Para ayudarnos a hacerlo, le he pedido a la computadora que haga otro diagrama: ha dividido cada una de las alturas alternativas de histograma (o "densidades") por la altura nula del histograma, creando valores conocidos como "razones de probabilidad". Como resultado, un valor mayor que significa que la alternativa es más probable, mientras que un valor menor que significa que la alternativa es menos probable. Ha dibujado una alternativa más: está más extendido que los otros dos, pero aún menos extendido que el aparato original.1 1
Maestro (continuando): ¿Podría mostrarme dónde las alternativas tienden a ser más probables que las nulas?
Estudiante (coloración): Aquí en el medio, obviamente. Y debido a que estos ya no son histogramas, supongo que deberíamos mirar las alturas en lugar de las áreas, por lo que solo estoy marcando un rango de valores en el eje horizontal. Pero, ¿cómo sé cuánto del medio colorear? ¿Dónde dejo de colorear?
Maestro : No hay una regla firme. Todo depende de cómo planeemos usar nuestras conclusiones y cuán feroces sean los escépticos. Pero siéntese y piense en lo que ha logrado: ahora se da cuenta de que los resultados con grandes índices de probabilidad son evidencia de la alternativa y los resultados con pequeños índices de probabilidad son evidencia contra la alternativa. Lo que le pediré que haga es colorear en un área que, en la medida de lo posible, tiene una pequeña posibilidad de ocurrir bajo la hipótesis nula y una probabilidad relativamente grande de ocurrir bajo las alternativas. Volviendo al primer diagrama que coloreó, al comienzo de nuestra conversación, coloreó las dos colas del nulo porque eran "extremas". ¿Seguirían haciendo un buen trabajo?
Estudiante : No lo creo. Aunque eran bastante extremos y raros bajo la hipótesis nula, son prácticamente imposibles para cualquiera de las alternativas. Si mi nueva medición fuera, digamos , creo que me pondría del lado del escéptico y negaría que hubiera ocurrido alguna mejora, a pesar de que fue un resultado inusual en cualquier caso. Quiero cambiar ese color. Aquí, déjame tener otro crayón.3.0 3.0
Maestro : ¿Qué representa eso?
Estudiante : Comenzamos con usted pidiéndome que dibujara solo el 10% del área bajo el histograma original, el que describe el nulo. Así que ahora dibujé en el 10% del área donde las alternativas parecen más probables. Creo que cuando hay una nueva medición en esa área, nos dice que debemos creer la alternativa.
Maestro : ¿Y cómo debe reaccionar el escéptico a eso?
Estudiante : Un escéptico nunca tiene que admitir que está equivocado, ¿verdad? Pero creo que su fe debería estar un poco sacudida. Después de todo, lo organizamos de modo que, aunque una medición podría estar dentro del área que acabo de dibujar, solo tiene un 10% de posibilidades de estar allí cuando el valor nulo es verdadero. Y tiene una mayor probabilidad de estar allí cuando la alternativa es verdadera. Simplemente no puedo decirte qué tan grande es esa posibilidad, porque dependería de cuánto haya mejorado el científico el aparato. Solo sé que es más grande. Entonces la evidencia estaría en contra del escéptico.
Maestra : Muy bien. ¿Te importaría resumir tu comprensión para que tengamos perfectamente claro lo que has aprendido?
Estudiante : Aprendí que para comparar hipótesis alternativas con hipótesis nulas, debemos comparar sus histogramas. Dividimos las densidades de las alternativas por la densidad de la nula: eso es lo que usted llamó la "razón de probabilidad". Para hacer una buena prueba, debería elegir un pequeño número como 10% o lo que sea suficiente para sacudir a un escéptico. Entonces debería encontrar valores donde la razón de probabilidad sea lo más alta posible y colorearlos hasta que se haya coloreado el 10% (o lo que sea).
Maestro : ¿Y cómo usarías ese color?
Estudiante : Como me recordó anteriormente, el color debe estar entre líneas verticales. Los valores (en el eje horizontal) que se encuentran debajo del color son evidencia contra la hipótesis nula. Otros valores: bueno, es difícil decir lo que podrían significar sin echar un vistazo más detallado a todos los histogramas involucrados.
Maestro : Volviendo al valor de en el manuscrito, ¿qué concluiría?0.1
Estudiante : Eso está dentro del área que coloreé por última vez, así que creo que el científico probablemente tenía razón y el aparato realmente mejoró.
Maestro : Una última cosa. Su conclusión se basó en elegir el 10% como criterio o "tamaño" de la prueba. A muchas personas les gusta usar el 5% en su lugar. Algunos prefieren el 1%. ¿Qué les podrías decir?
Estudiante : ¡No podría hacer todas esas pruebas a la vez! Bueno, tal vez podría de alguna manera. Puedo ver que no importa el tamaño de la prueba, debo comenzar a colorear desde , que es en este sentido el valor "más extremo", y trabajar hacia afuera en ambas direcciones desde allí. Si tuviera que parar justo en valor realmente observado, creo que habría coloreado un área en algún lugar entre y , digamos . El 5% y el 1% de las personas podrían decir de inmediato que coloreé demasiado: si quisieran colorear solo el 5% o el 1%, podrían hacerlo, pero no llegarían a0 0.1 0.05 0.1 0.08 0.1 . No llegarían a la misma conclusión que yo: dirían que no hay pruebas suficientes de que realmente haya ocurrido un cambio.
Maestro : Me acabas de decir qué significan realmente todas esas citas al principio . Debería ser obvio a partir de este ejemplo que no pueden pretender "más extremos" o "mayores o iguales" o "al menos tan grandes" en el sentido de tener un valor mayor o incluso tener un valor donde la densidad nula es pequeña. Realmente significan estas cosas en el sentido de las grandes razones de probabilidad que usted ha descrito. Por cierto, el número alrededor de que calculó se llama "valor p". Solo puede entenderse correctamente de la manera que ha descrito: con respecto a un análisis de alturas relativas de histograma, las razones de probabilidad.0.08
Estudiante : Gracias No estoy seguro de comprender completamente todo esto todavía, pero me has dado mucho en qué pensar.
Maestro : Si desea ir más allá, eche un vistazo al Lema de Neyman-Pearson . Probablemente esté listo para entenderlo ahora.
Sinopsis
Muchas pruebas que se basan en una estadística única como la del cuadro de diálogo lo llamarán " " o " ". Estas son formas de insinuar cómo se ve el histograma nulo, pero son solo sugerencias: lo que llamamos este número realmente no importa. La construcción resumida por el alumno, como se ilustra aquí, muestra cómo se relaciona con el valor p. El valor p es el tamaño de prueba más pequeño que causaría que una observación de conduzca a un rechazo de la hipótesis nula.z t t=0.1
En esta figura, que se amplía para mostrar detalles, la hipótesis nula se traza en azul sólido y dos alternativas típicas se trazan con líneas discontinuas. La región donde esas alternativas tienden a ser mucho más grandes que la nula está sombreada. El sombreado comienza donde las probabilidades relativas de las alternativas son mayores (en ). El sombreado se detiene cuando la observación se alcanza. El valor p es el área de la región sombreada bajo el histograma nulo: es la posibilidad, suponiendo que el nulo sea verdadero, de observar un resultado cuyas razones de probabilidad tienden a ser grandes independientemente de qué alternativa sea verdadera. En particular, esta construcción depende íntimamente de la hipótesis alternativa. No puede llevarse a cabo sin especificar las posibles alternativas.0 t=0.1
fuente
Antes de tocar este tema, siempre me aseguro de que los estudiantes estén contentos moviéndose entre porcentajes, decimales, probabilidades y fracciones. Si no están completamente contentos con esto, pueden confundirse muy rápidamente.
Me gusta explicar la prueba de hipótesis por primera vez (y, por lo tanto, los valores p y las estadísticas de prueba) a través del experimento clásico de té de Fisher. Tengo varias razones para esto:
(i) Creo que trabajar a través de un experimento y definir los términos a medida que avanzamos tiene más sentido que simplemente definir todos estos términos para empezar. (ii) No necesita confiar explícitamente en distribuciones de probabilidad, áreas bajo la curva, etc. para superar los puntos clave de la prueba de hipótesis. (iii) Explica esta noción ridícula de "como o más extrema que las observadas" de una manera bastante sensata (iv) Encuentro que a los estudiantes les gusta entender la historia, los orígenes y la historia de fondo de lo que están estudiando, ya que lo hace más real que algunas teorías abstractas. (v) No importa de qué disciplina o materia provengan los estudiantes, pueden relacionarse con el ejemplo del té (Nota: algunos estudiantes internacionales tienen dificultades con esta institución particularmente británica de té con leche).
[Nota: Originalmente obtuve esta idea del maravilloso artículo de Dennis Lindley "El análisis de los datos experimentales: la apreciación del té y el vino" en el que demuestra por qué los métodos bayesianos son superiores a los métodos clásicos.]
La historia de fondo es que Muriel Bristol visita a Fisher una tarde en la década de 1920 en la estación experimental Rothamsted para tomar una taza de té. Cuando Fisher puso la leche por última vez, se quejó diciendo que también podía decir si la leche se vertió primero (o la última) y que prefería la primera. Para poner esto a prueba, diseñó su experimento clásico de té en el que a Muriel se le presentan un par de tazas de té y ella debe identificar cuál tuvo la leche agregada primero. Esto se repite con seis pares de tazas de té. Sus elecciones son Correctas (R) o Incorrectas (W) y sus resultados son: RRRRRW.
Supongamos que Muriel en realidad solo está adivinando y no tiene la capacidad de discriminar en absoluto. Esto se llama la hipótesis nula . Según Fisher, el propósito del experimento es desacreditar esta hipótesis nula. Si Muriel está adivinando, identificará la taza de té correctamente con una probabilidad de 0.5 en cada turno y, como son independientes, el resultado observado tiene 0.5 = 0.016 (o 1/64). Fisher luego argumenta que:6
(a) la hipótesis nula (Muriel está adivinando) es cierta y se ha producido un evento de baja probabilidad o,
(b) la hipótesis nula es falsa y Muriel tiene poderes discriminatorios.
El valor p (o valor de probabilidad) es la probabilidad de observar este resultado (RRRRRW) dado que la hipótesis nula es verdadera; es la pequeña probabilidad mencionada en (a), arriba. En este caso es 0.016. Dado que los eventos con pequeñas probabilidades solo ocurren raramente (por definición), la situación (b) podría ser una explicación más preferible de lo que ocurrió que la situación (a). Cuando rechazamos la hipótesis nula, de hecho estamos aceptando la hipótesis opuesta que llamamos hipótesis alternativa. En este ejemplo, Muriel tiene poderes discriminatorios es la hipótesis alternativa.
Una consideración importante es ¿qué clasificamos como una probabilidad "pequeña"? ¿Cuál es el punto de corte en el que estamos dispuestos a decir que un evento es poco probable? El punto de referencia estándar es 5% (0.05) y esto se llama nivel de significancia. Cuando el valor p es menor que el nivel de significancia, rechazamos la hipótesis nula como falsa y aceptamos nuestra hipótesis alternativa. Es común decir que un resultado es "significativo" cuando el valor p es menor que el nivel de significación, es decir, cuando la probabilidad de que ocurra lo que observamos dada la hipótesis nula es verdadera es menor que nuestro punto de corte. Es importante tener claro que usar 5% es completamente subjetivo (como lo es usar los otros niveles de significancia comunes de 1% y 10%).
Fisher se dio cuenta de que esto no funciona; cada posible resultado con un par incorrecto sugería igualmente poderes discriminatorios. La probabilidad relevante para la situación (a), arriba, es por lo tanto 6 (0.5) ^ 6 = 0.094 (o 6/64) que ahora no es significativa a un nivel de significancia del 5%. Para superar esto, Fisher argumentó que si 1 error en 6 se considera evidencia de poderes discriminatorios, entonces no hay errores, es decir, se deben incluir resultados que indiquen más poder discriminatorio que el observado al calcular el valor p. Esto dio como resultado la siguiente enmienda al razonamiento:
(a) la hipótesis nula (Muriel está adivinando) es verdadera y la probabilidad de eventos como, o más, extremos que los observados es pequeña, o
(b) la hipótesis nula es falsa y Muriel tiene poderes discriminatorios.
Volviendo a nuestro experimento del té y encontramos que el valor p bajo esta configuración es 7 (0.5) ^ 6 = 0.109, que todavía no es significativo en el umbral del 5%.
Luego hago que los estudiantes trabajen con otros ejemplos, como tirar monedas, para determinar si una moneda es justa o no. Esto profundiza en los conceptos de hipótesis nula / alternativa, valores p y niveles de significación. Luego pasamos al caso de una variable continua e introducimos la noción de estadística de prueba. Como ya hemos cubierto la distribución normal, la distribución normal estándar y la transformación z en profundidad, es simplemente una cuestión de unir varios conceptos.
Además de calcular las estadísticas de las pruebas, los valores p y tomar una decisión (significativo / no significativo), hago que los estudiantes trabajen a través de los documentos publicados en un juego de relleno en el juego de espacios en blanco que faltan.
fuente
Ninguna cantidad de explicaciones o cálculos verbales realmente me ayudó a comprender a nivel intestinal qué eran los valores p, pero realmente se enfocó en mí una vez que tomé un curso que involucraba simulación. Eso me dio la capacidad de ver realmente los datos generados por la hipótesis nula y trazar los medios / etc. de muestras simuladas, luego mire dónde cayó la estadística de mi muestra en esa distribución.
Creo que la ventaja clave de esto es que les permite a los estudiantes olvidarse de las distribuciones de estadísticas de matemáticas y pruebas por un minuto y enfocarse en los conceptos en cuestión. De acuerdo, es necesario que aprenda cómo simular eso, lo que provocará problemas de un conjunto totalmente diferente de los estudiantes. Pero funcionó para mí, y he usado la simulación innumerables veces para ayudar a explicar las estadísticas a otros con gran éxito (por ejemplo, "Así es como se ven sus datos; así es como se ve una distribución de Poisson superpuesta. ¿Está SEGURO que desea hacer una regresión de Poisson? ").
Esto no responde exactamente las preguntas que planteaste, pero para mí, al menos, las hizo triviales.
fuente
Una buena definición del valor p es "la probabilidad de observar una estadística de prueba al menos tan grande como la calculada suponiendo que la hipótesis nula es verdadera".
El problema con eso es que requiere una comprensión de "estadística de prueba" e "hipótesis nula". Pero, eso es fácil de transmitir. Si la hipótesis nula es cierta, por lo general, algo como "el parámetro de la población A es igual al parámetro de la población B", y calcula estadísticas para estimar esos parámetros, ¿cuál es la probabilidad de ver una estadística de prueba que dice: "son esto diferente"?
Por ejemplo, si la moneda es justa, ¿cuál es la probabilidad de que vea 60 caras de 100 lanzamientos? Eso prueba la hipótesis nula, "la moneda es justa" o "p = .5" donde p es la probabilidad de cara.
La estadística de prueba en ese caso sería el número de cabezas.
Ahora, supongo que lo que está llamando "valor t" es un "estadístico de prueba" genérico, no un valor de una "distribución t". No son lo mismo, y el término "valor t" no es (necesariamente) ampliamente utilizado y podría ser confuso.
Lo que usted llama "valor t" es probablemente lo que yo llamo "estadística de prueba". Para calcular un valor p (recuerde, es solo una probabilidad) necesita una distribución y un valor para conectarse a esa distribución que devolverá una probabilidad. Una vez que haga eso, la probabilidad de que regrese es su valor p. Puede ver que están relacionados porque, bajo la misma distribución, diferentes estadísticas de prueba devolverán diferentes valores p. Las estadísticas de prueba más extremas arrojarán valores p más bajos, lo que da una mayor indicación de que la hipótesis nula es falsa.
He ignorado el problema de los valores p unilaterales y bilaterales aquí.
fuente
Imagine que tiene una bolsa que contiene 900 canicas negras y 100 blancas, es decir, el 10% de las canicas son blancas. Ahora imagine que saca 1 canica, mírela y registre su color, saque otra, registre su color, etc. y haga esto 100 veces. Al final de este proceso, tendrá un número para canicas blancas que, idealmente, esperaríamos que sea 10, es decir, 10% de 100, pero en realidad puede ser 8, o 13 o lo que sea simplemente debido a la aleatoriedad. Si repite este experimento de extracción de 100 canicas muchas, muchas veces y luego traza un histograma del número de canicas blancas dibujadas por experimento, encontrará que tendrá una curva de campana centrada alrededor de 10.
Esto representa su hipótesis del 10%: con cualquier bolsa que contenga 1000 canicas, de las cuales el 10% son blancas, si saca al azar 100 canicas, encontrará 10 canicas blancas en la selección, más o menos 4 o más. El valor p se trata de este "dar o tomar 4 más o menos". Digamos que al referirse a la curva de campana creada anteriormente, puede determinar que menos del 5% del tiempo obtendría 5 o menos canicas blancas y otro <5% del tiempo representa 15 o más canicas blancas, es decir,> 90% del tiempo. su selección de 100 canicas contendrá entre 6 y 14 canicas blancas inclusive.
Ahora, suponiendo que alguien deje caer una bolsa de 1000 canicas con un número desconocido de canicas blancas, tenemos las herramientas para responder estas preguntas
i) ¿Hay menos de 100 canicas blancas?
ii) ¿Hay más de 100 canicas blancas?
iii) ¿La bolsa contiene 100 canicas blancas?
Simplemente saque 100 canicas de la bolsa y cuente cuántas de esta muestra son blancas.
a) Si hay de 6 a 14 blancos en la muestra, no puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 6 a 14 serán> 0.05.
b) Si hay 5 o menos blancos en la muestra, puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 5 o menos serán <0.05. Es de esperar que la bolsa contenga <10% de canicas blancas.
c) Si hay 15 o más blancos en la muestra, puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 15 o más serán <0.05. Es de esperar que la bolsa contenga> 10% de canicas blancas.
En respuesta al comentario de Baltimark
Dado el ejemplo anterior, hay aproximadamente: -
4.8% de probabilidad de obtener 5 bolas blancas o menos
1.85% de probabilidad de 4 o menos
0,55% de probabilidad de 3 o menos
0.1% de probabilidad de 2 o menos
6.25% de probabilidad de 15 o más
3.25% de probabilidad de 16 o más
1.5% de probabilidad de 17 o más
0.65% de probabilidad de 18 o más
0.25% de probabilidad de 19 o más
0.1% de probabilidad de 20 o más
0.05% de probabilidad de 21 o más
Estos números se estimaron a partir de una distribución empírica generada por una simple rutina de Monte Carlo ejecutada en R y los cuantiles resultantes de la distribución de muestreo.
Para responder a la pregunta original, suponga que saca 5 bolas blancas, solo hay una probabilidad aproximada de 4.8% de que si la bolsa de mármol 1000 realmente contiene 10% de bolas blancas, solo sacaría 5 blancos en una muestra de 100. Esto equivale a un valor p <0.05. Ahora tienes que elegir entre
i) Realmente hay un 10% de bolas blancas en la bolsa y he tenido "mala suerte" de dibujar tan pocas
o
ii) He dibujado tan pocas bolas blancas que realmente no puede haber un 10% de bolas blancas (rechace la hipótesis del 10% de bolas blancas)
fuente
Lo que el valor p no le dice es qué tan probable es que la hipótesis nula sea cierta. Bajo el marco de prueba de significancia convencional (Fisher) primero calculamos la probabilidad de observar los datos suponiendo que la hipótesis nula es verdadera, este es el valor p. Parece intuitivamente razonable, entonces, asumir que la hipótesis nula es probablemente falsa si es poco probable que los datos se observen bajo la hipótesis nula. Esto es completamente razonable. Los estadísticos usan tradicionalmente un umbral y "rechazan la hipótesis nula al nivel de significación del 95%" si (1 - p)> 0,95; sin embargo, esta es solo una convención que ha demostrado ser razonable en la práctica: no significa que haya menos del 5% de probabilidad de que la hipótesis nula sea falsa (y, por lo tanto, una probabilidad del 95% de que la hipótesis alternativa sea verdadera).
Imagen de una función f () que mapea el valor p en la probabilidad de que la hipótesis alternativa sea verdadera. Sería razonable afirmar que esta función está disminuyendo estrictamente (de modo que cuanto más probable es que las observaciones bajo la hipótesis nula, menos probable es que la hipótesis alternativa sea verdadera), y que proporcione valores entre 0 y 1 (ya que proporciona una estimación de probabilidad). Sin embargo, eso es todo lo que sabemos sobre f (), por lo que si bien existe una relación entre p y la probabilidad de que la hipótesis alternativa sea cierta, no está calibrada. Esto significa que no podemos usar el valor p para hacer declaraciones cuantitativas sobre la plausibilidad de las hipótesis nulll y alternave.
Lector de advertencia: No está realmente dentro del marco frecuentista hablar de la probabilidad de que una hipótesis sea verdadera, ya que no es una variable aleatoria, ya sea verdadera o no. Entonces, cuando he hablado de la probabilidad de la verdad de una hipótesis, me he trasladado implícitamente a una interpretación bayesiana. Es incorrecto mezclar bayesiano y frecuentista, sin embargo, siempre existe la tentación de hacerlo, ya que lo que realmente queremos es una indicación cuantitativa de la plausibilidad / probabilidad relativa de las hipótesis. Pero esto no es lo que proporciona el valor p.
fuente
En las estadísticas, nunca se puede decir que algo es absolutamente seguro, por lo que los estadísticos utilizan otro enfoque para evaluar si una hipótesis es cierta o no. Intentan rechazar todas las otras hipótesis que no son compatibles con los datos.
Para hacer esto, las pruebas estadísticas tienen una hipótesis nula y una hipótesis alternativa. El valor p informado de una prueba estadística es la probabilidad del resultado dado que la hipótesis nula era correcta. Es por eso que queremos valores p pequeños. Cuanto más pequeños sean, menos probable será el resultado si la hipótesis nula fuera correcta. Si el valor p es lo suficientemente pequeño (es decir, es muy poco probable que el resultado haya ocurrido si la hipótesis nula era correcta), entonces la hipótesis nula se rechaza.
De esta manera, se pueden formular hipótesis nulas y posteriormente rechazarlas. Si se rechaza la hipótesis nula, acepta la hipótesis alternativa como la mejor explicación. Sin embargo, recuerde que la hipótesis alternativa nunca es segura, ya que la hipótesis nula podría haber generado, por casualidad, los resultados.
fuente
No estoy seguro de revivir el viejo tema, pero salté desde aquí , así que publico esto como respuesta a la pregunta en el enlace.
El valor p es un término concreto, no debe haber lugar para malentendidos. Pero, de alguna manera es místico que las traducciones coloquiales de la definición del valor p conduzcan a muchas interpretaciones erróneas diferentes. Creo que la raíz del problema está en el uso de las frases "al menos tan adversas a la hipótesis nula" o "al menos tan extremas como la de sus datos de muestra", etc.
Por ejemplo, Wikipedia dice
El significado del valor ve borroso cuando las personas tropiezan por primera vez con "(o un resultado más extremo)" y comienzan a pensar "¿ más extreeeme ?".p
Creo que es mejor dejar el "resultado más extremo" a algo como el acto indirecto del habla . Entonces, mi opinión es
Para concretar la idea, suponga que tiene una muestra queμ0=20 N(20,1)
x
consta de 10 observaciones y plantea la hipótesis de que la media de la población es . Entonces, en su mundo hipotético, la distribución de la población es .Calcula t-stat como , y descubre quet0=n−−√X¯−μ0s
Entonces, ¿cuál es la probabilidad de observartan grande como 2.97 ("más extremo" viene aquí) en el mundo imaginario? En el mundo imaginario , por lo tanto, el valor debe ser t 0 ∼ t ( 9 ) p - v a l u e = P r ( | t 0 | ≥ 2.97 ) = 0.01559054|t0| t0∼t(9)
Dado que el valor p es pequeño, es muy poco probable que la muestra
x
se haya extraído en el mundo hipotético. Por lo tanto, concluimos que es muy poco probable que el mundo hipotético fuera, de hecho, el mundo real.fuente
Me resulta útil seguir una secuencia en la que explica los conceptos en el siguiente orden: (1) La puntuación z y las proporciones por encima y por debajo de la puntuación z suponiendo una curva normal. (2) La noción de una distribución de muestreo y la puntuación z para una muestra media determinada cuando se conoce la desviación estándar de la población (y de ahí la prueba z de una muestra) (3) La prueba t de una muestra y la probabilidad de una media de la muestra cuando se desconoce la desviación estándar de la población (repleta de historias sobre la identidad secreta de cierto estadístico industrial y por qué Guinness es bueno para las estadísticas). (4) La prueba t de dos muestras y la distribución muestral de las diferencias de medias. La facilidad con que los estudiantes introductorios comprenden la prueba t tiene mucho que ver con el trabajo preliminar que se prepara para este tema.
/ * instructor de estudiantes aterrorizados en modo apagado * /
fuente
También he encontrado que las simulaciones son útiles en la enseñanza.
Aquí hay una simulación para el caso posiblemente más básico en el que muestreamos veces desde (por lo tanto, es conocido por simplicidad) y probamos contra una izquierda alternativa alternativa.n N(μ,1) σ2=1 H0:μ=μ0
Entonces, la estadística es bajo , de modo que el valor es simplemente o en R.t tstat:=n−−√(X¯−μ0) N(0,1) H0 p Φ(tstat)
pnorm(tstat)
En la simulación, es la fracción de veces que los datos generados bajo el nulo (aquí, ) arrojan medias de muestra almacenadas que son menos (es decir, `` más extremas '' en este prueba del lado izquierdo) que la calculada a partir de los datos observados.N(μ0,1) μ0=2
nullMeans
fuente
En un sentido ontológico (¿qué es la verdad?), No significa nada . Cualquier prueba de hipótesis se basa en supuestos no probados . Esto normalmente forma parte de la prueba en sí, pero también forma parte del modelo que esté utilizando (por ejemplo, en un modelo de regresión). Como simplemente estamos asumiendo esto, no podemos saber si la razón por la cual el valor p está por debajo de nuestro umbral es porque el valor nulo es falso. No es sequitur deducir incondicionalmente que debido a un valor p bajo debemos rechazar el valor nulo. Por ejemplo, algo en el modelo podría estar mal.
En un sentido epistemológico (¿qué podemos aprender?), Significa algo . Obtiene conocimiento condicional en que las premisas no probadas sean verdaderas. Dado que (al menos hasta ahora) no podemos probar cada edificio de la realidad, todo nuestro conocimiento será necesariamente condicional. Nunca llegaremos a la "verdad".
fuente
Creo que los ejemplos que involucran canicas o monedas o medición de altura pueden ser buenos para practicar las matemáticas, pero no son buenos para desarrollar la intuición. A los estudiantes universitarios les gusta cuestionar a la sociedad, ¿verdad? ¿Qué tal usar un ejemplo político?
Digamos que un candidato político realizó una campaña prometiendo que alguna política ayudará a la economía. Fue elegida, se promulgó la política y, 2 años después, la economía está en auge. Está lista para la reelección y afirma que su política es la razón de la prosperidad de todos. ¿Deberías reelegirla?
El ciudadano reflexivo debería decir "bueno, es cierto que a la economía le está yendo bien, pero ¿podemos realmente atribuir eso a su política?" Para responder realmente a esto, debemos considerar la pregunta "¿le habría ido bien a la economía en los últimos 2 años sin ella?" Si la respuesta es sí (por ejemplo, la economía está en auge debido a un nuevo desarrollo tecnológico no relacionado), entonces rechazamos la explicación política de los datos.
Es decir, para examinar una hipótesis (la política ayudó a la economía), debemos construir un modelo del mundo donde esa hipótesis sea nula (la política nunca se promulgó). Luego hacemos una predicción bajo ese modelo. Llamamos a la probabilidad de observar estos datos en ese mundo alternativo el valor p . Si el valor p es demasiado alto, entonces la hipótesis no nos convence: la política no hizo ninguna diferencia. Si el valor p es bajo, entonces confiamos en la hipótesis: la política era esencial.
fuente
Todavía tengo que demostrar el siguiente argumento para que pueda contener errores, pero realmente quiero tirar mis dos centavos (con suerte, lo actualizaré con una prueba rigurosa pronto). Otra forma de ver el valor esp
Específicamente, si tiene una distribución continua y no está utilizando aproximación, entoncesX
Puede considerar esto como una descripción generalizada de los valores .p
fuente
El valor p no es tan misterioso como la mayoría de los analistas dicen que es. Es una forma de no tener que calcular el intervalo de confianza para una prueba t, sino simplemente determinar el nivel de confianza con el que se puede rechazar la hipótesis nula.
ILUSTRACIÓN. Realizas una prueba. El valor p aparece como 0.1866 para la variable Q, 0.0023 para la variable R. (Estos se expresan en%).
Si está probando a un nivel de confianza del 95% para rechazar el hipo nulo;
para Q: 100-18.66 = 81.34%
para R: 100-0.23 = 99.77%.
Con un nivel de confianza del 95%, Q ofrece una confianza del 81,34% para rechazar. Esto cae por debajo del 95% y es inaceptable. ACEPTAR NULL.
R da un 99.77% de confianza para rechazar nulo. Claramente por encima del deseado 95%. Rechazamos así el nulo.
Acabo de ilustrar la lectura del valor p a través de una "forma inversa" de medirlo hasta el nivel de confianza en el que rechazamos el hipo nulo.
fuente
****** El valor p en la prueba de hipótesis mide la sensibilidad de la prueba. Cuanto menor es el valor p, mayor es la sensibilidad. Si el nivel de significancia se establece en 0.05, el valor p de 0.0001 indica una alta probabilidad de que los resultados de la prueba sean correctos ******
fuente