¿Cuál es el significado de los valores p y los valores t en las pruebas estadísticas?

246

Después de tomar un curso de estadística y luego tratar de ayudar a otros estudiantes, noté que un tema que inspira mucho golpear el escritorio es interpretar los resultados de las pruebas de hipótesis estadísticas. Parece que los estudiantes aprenden fácilmente cómo realizar los cálculos requeridos por una prueba determinada, pero se obsesionan con la interpretación de los resultados. Muchas herramientas informatizadas informan los resultados de las pruebas en términos de "valores p" o "valores t".

¿Cómo explicaría los siguientes puntos a los estudiantes universitarios que toman su primer curso de estadística:

¿Qué significa un "valor p" en relación con la hipótesis que se está probando? ¿Hay casos en los que uno debería estar buscando un valor p alto o un valor p bajo?
¿Cuál es la relación entre un valor p y un valor t?

hypothesis-testing p-value interpretation intuition canonical-question marcador, rotulador
fuente

11

Un poco de esto está cubierto básicamente por la primera oración del artículo de Wikipedia sobre los valores p , que define correctamente un valor p. Si eso se entiende, mucho queda claro.

Glen_b

1

Solo obtén el libro: Estadísticas sin lágrimas. ¡Podría salvar tu cordura!

77

@ user48700 ¿Podría resumir cómo las estadísticas sin lágrimas explican esto?

Matt Krause

55

Alguien debería dibujar un gráfico de preguntas relacionadas con el valor p a lo largo del tiempo y apuesto a que veremos la estacionalidad y la correlación con los calendarios académicos en universidades o clases de ciencias de datos de Coursera

Aksakal

Además de otras recomendaciones de libros agradables y relevantes en las respuestas y comentarios, me gustaría sugerir otro libro, apropiadamente llamado "¿Qué es un valor p de todos modos?" .

Aleksandr Blekh

150

Comprender el valor $p$

Suponga que quiere probar la hipótesis de que la altura promedio de los estudiantes varones en su universidad es de pies y pulgadas. Recolecta alturas de estudiantes seleccionados al azar y calcula la media de la muestra (digamos que resulta ser pies pulgadas). Usando una fórmula / rutina estadística apropiada, calcula el valor para su hipótesis y dice que resulta ser . $5$ $7$ $100$ $5$ $9$ $p$ $0.06$

Para interpretar adecuadamente, debemos tener en cuenta varias cosas: $p=0.06$

El primer paso bajo la prueba de hipótesis clásica es la suposición de que la hipótesis considerada es verdadera. (En nuestro contexto, suponemos que la altura promedio real es de pies y pulgadas). $5$ $7$
Imagínese haciendo el siguiente cálculo: Calcule la probabilidad de que la media de la muestra sea mayor que pies pulgadas, suponiendo que nuestra hipótesis sea correcta (ver punto 1). $5$ $9$

En otras palabras, queremos saber

P (S a m p l e m e a n \geq 5 f t 9 i n c h e s | T r u e v a l u e = 5 f t 7 i n c h e s) .

$\mathrm{P}(\mathrm{Sample\: mean} \ge 5 \:\mathrm{ft} \:9 \:\mathrm{inches} \:|\: \mathrm{True\: value} = 5 \:\mathrm{ft}\: 7\: \mathrm{inches}).$

El cálculo en el paso 2 es lo que se llama el valor . Por lo tanto, un valor de significaría que si tuviéramos que repetir nuestro experimento muchas, muchas veces (cada vez que seleccionamos estudiantes al azar y calculamos la media de la muestra), entonces cada podemos esperar ver una muestra significa mayor o igual a pies y pulgadas. $p$ $p$ $0.06$ $100$ $6$ $100$ $5$ $9$

Dado el entendimiento anterior, ¿deberíamos mantener nuestra suposición de que nuestra hipótesis es verdadera (ver paso 1)? Bueno, una indica que ha sucedido una de dos cosas: $p=0.06$

(A) O nuestra hipótesis es correcta y ha ocurrido un evento extremadamente improbable (por ejemplo, los estudiantes son atletas estudiantes) $100$

o

(B) Nuestra suposición es incorrecta y la muestra que hemos obtenido no es tan inusual.

La forma tradicional de elegir entre (A) y (B) es elegir un corte arbitrario para . Elegimos (A) si y (B) si . $p$ $p > 0.05$ $p < 0.05$

derechos
fuente

3

¡Tome su tiempo! No pensaré en seleccionar una "Mejor respuesta" durante una semana más o menos.

Sharpie

1

Ahora que he tenido la oportunidad de volver y leer la respuesta completa, un gran +1 para el ejemplo de altura del estudiante. Muy claro y bien distribuido.

Sharpie

3

Buen trabajo ... pero necesitamos agregar (C) nuestro modelo (incorporado en la fórmula / rutina estadística) está mal.

Andrew Robinson

66

Un valor t (o cualquier otra estadística de prueba) es principalmente un paso intermedio. Básicamente, se trata de una estadística probada, según algunos supuestos, que tiene una distribución bien conocida. Como conocemos la distribución del estadístico de prueba bajo nulo, podemos usar tablas estándar (hoy en su mayoría software) para obtener un valor p.

Gala

1

¿No se deriva el valor p como resultado de hacer la prueba de chi-cuadrado y luego de la tabla de chi-cuadrado? ¿Me pregunto cómo es que la probabilidad calculada anteriormente indica el valor p en sí mismo?

Chico de Londres

123

Un diálogo entre un maestro y un estudiante reflexivo

Humildemente presentado en la creencia de que hasta ahora no se han usado suficientes crayones en este hilo. Una breve sinopsis ilustrada aparece al final.

Estudiante : ¿Qué significa un valor p? Mucha gente parece estar de acuerdo en que es la posibilidad de que "veamos un promedio de muestra mayor o igual que" un estadístico o es "la probabilidad de observar este resultado ... dado que la hipótesis nula es verdadera" o donde "el estadístico de mi muestra cayó en una distribución [simulada] " e incluso " la probabilidad de observar una estadística de prueba al menos tan grande como la calculada suponiendo que la hipótesis nula es verdadera " .

Maestro : Bien entendido, todas esas declaraciones son correctas en muchas circunstancias.

Estudiante : No veo cómo la mayoría de ellos son relevantes. ¿No nos enseñó que tenemos que establecer una hipótesis nula y una hipótesis alternativa ? ¿Cómo están involucrados en estas ideas de "mayor o igual que" o "al menos tan grande" o el muy popular "más extremo"? $H_0$ $H_A$

Maestro : Debido a que puede parecer complicado en general, ¿nos ayudaría explorar un ejemplo concreto?

Estudiante : Claro. Pero si puede, hágalo realista pero simple.

Maestro : Esta teoría de la prueba de hipótesis comenzó históricamente con la necesidad de los astrónomos de analizar los errores de observación, entonces, ¿qué tal si comenzamos allí? Estaba revisando algunos documentos antiguos un día en que un científico describió sus esfuerzos para reducir el error de medición en su aparato. Había tomado muchas medidas de una estrella en una posición conocida y registró sus desplazamientos delante o detrás de esa posición. Para visualizar esos desplazamientos, dibujó un histograma que, cuando se suavizó un poco, se parecía a este.

Figura 1: Histograma de desplazamientos.

Estudiante : Recuerdo cómo funcionan los histogramas: el eje vertical está etiquetado como "Densidad" para recordarme que las frecuencias relativas de las mediciones están representadas por área en lugar de altura.

Maestro : Eso es correcto. Un valor "inusual" o "extremo" se ubicaría en una región con un área bastante pequeña. Aquí hay un crayón. ¿Crees que podrías colorear en una región cuya área es solo una décima parte del total?

Estudiante : Claro; eso es fácil. [Colores en la figura.]

Figura 2: La primera coloración del alumno.

Maestra : Muy bien! Eso me parece aproximadamente el 10% del área. Sin embargo, recuerde que las únicas áreas en el histograma que importan son aquellas entre líneas verticales: representan la posibilidad o probabilidad de que el desplazamiento se ubique entre esas líneas en el eje horizontal. Eso significa que necesita colorear todo el camino hasta el fondo y eso sería más de la mitad del área, ¿no?

Estudiante : Oh, ya veo. Déjame intentar de nuevo. Voy a querer colorear donde la curva es realmente baja, ¿no? Es más bajo en los dos extremos. ¿Tengo que colorear solo en un área o estaría bien dividirlo en varias partes?

Maestro : Usar varias partes es una idea inteligente. ¿Dónde estarían ellos?

Estudiante (señalando): Aquí y aquí. Debido a que este crayón no es muy afilado, usé un bolígrafo para mostrarle las líneas que estoy usando.

Figura 3: La segunda coloración del alumno.

Maestra : ¡Muy bien! Déjame contarte el resto de la historia. El científico hizo algunas mejoras en su dispositivo y luego tomó medidas adicionales. Escribió que el desplazamiento del primero fue de solo , lo que pensó que era una buena señal, pero como era un científico cuidadoso, procedió a tomar más medidas como un control. Desafortunadamente, esas otras medidas se pierden, el manuscrito se rompe en este punto, y todo lo que tenemos es ese número único, . $0.1$ $0.1$

Estudiante : Eso es muy malo. Pero, ¿no es mucho mejor que la amplia distribución de desplazamientos en su figura?

Maestro : Esa es la pregunta que me gustaría que respondieras. Para empezar, ¿qué deberíamos plantear como ? $H_0$

Estudiante : Bueno, un escéptico se preguntaría si las mejoras realizadas en el dispositivo tuvieron algún efecto. La carga de la prueba recae en el científico: le gustaría mostrar que el escéptico está equivocado. Eso me hace pensar que la hipótesis nula es algo mala para el científico: dice que todas las nuevas mediciones, incluido el valor de que conocemos, deberían comportarse como se describe en el primer histograma. O tal vez incluso peor que eso: podrían estar aún más dispersos. $0.1$

Maestro : Continúa, te va bien.

Estudiante : Y entonces la alternativa es que las nuevas medidas estarían menos extendidas, ¿verdad?

Maestra : Muy bien! ¿Podrías dibujarme una imagen de cómo se vería un histograma con menos difusión? Aquí hay otra copia del primer histograma; puedes dibujar encima como referencia.

Estudiante (dibujo): estoy usando un bolígrafo para delinear el nuevo histograma y coloreo el área debajo de él. He hecho que la mayor parte de la curva esté cerca de cero en el eje horizontal y que la mayor parte de su área esté cerca de un valor (horizontal) de cero: eso es lo que significa estar menos extendido o más preciso.

Figura 4: el nuevo histograma del alumno

Maestro : Ese es un buen comienzo. Pero recuerde que un histograma que muestre posibilidades debe tener un área total de . El área total del primer histograma, por lo tanto, es . ¿Cuánta área hay dentro de su nuevo histograma? $1$ $1$

Estudiante : menos de la mitad, creo. Veo que es un problema, pero no sé cómo solucionarlo. ¿Qué tengo que hacer?

Maestro : El truco es hacer que el nuevo histograma sea más alto que el anterior para que su área total sea . Aquí, te mostraré una versión generada por computadora para ilustrar. $1$

Figura 5: el nuevo histograma del profesor

Estudiante : Ya veo: lo estiró verticalmente para que su forma realmente no cambiara, pero ahora el área roja y el área gris (incluida la parte debajo del rojo) son las mismas cantidades.

Maestra : bien. Está viendo una imagen de la hipótesis nula (en azul, extendida) y parte de la hipótesis alternativa (en rojo, con menos extensión).

Estudiante : ¿Qué quieres decir con "parte" de la alternativa? ¿No es solo la hipótesis alternativa?

Maestro : Los estadísticos y la gramática no parecen mezclarse. :-) En serio, lo que quieren decir con una "hipótesis" generalmente es un gran conjunto de posibilidades. Aquí, la alternativa (como dijiste tan bien antes) es que las mediciones están "menos extendidas" que antes. Pero cuanto menos ? Hay muchas posibilidades Aquí, déjame mostrarte otro. Lo dibujé con rayas amarillas. Está entre los dos anteriores.

Figura 6: el nulo junto con dos elementos de la alternativa

Estudiante : Ya veo: puede tener diferentes cantidades de propagación, pero no sabe de antemano cuánto será realmente la propagación. Pero, ¿por qué hiciste el sombreado divertido en esta imagen?

Maestro : Quería resaltar dónde y cómo difieren los histogramas. Los sombreé en gris donde los histogramas alternativos son más bajos que los nulos y en rojo donde las alternativas son más altas .

Estudiante : ¿Por qué eso importaría?

Maestro : ¿Recuerdas cómo coloreaste el primer histograma en ambas colas? [Mirando a través de los papeles.] Ah, aquí está. Vamos a colorear esta imagen de la misma manera.

Figura 7: La nula y alternativa, coloreada.

Estudiante : Recuerdo: esos son los valores extremos. Encontré los lugares donde la densidad nula era lo más pequeña posible y coloreé el 10% del área allí.

Maestro : Cuéntame sobre las alternativas en esas áreas extremas.

Estudiante : Es difícil de ver, porque el crayón lo cubrió, pero parece que casi no hay posibilidad de que haya otra alternativa en las áreas que coloreé. Sus histogramas están justo debajo del eje de valores y no hay espacio para ningún área debajo de ellos.

Maestro : Continuemos con ese pensamiento. Si te dijera, hipotéticamente, que una medida tiene un desplazamiento de , y te pido que elijas de cuál de estos tres histogramas es el que probablemente proviene, ¿cuál sería? $-2$

Estudiante : El primero, el azul. Es el más extendido y es el único donde parece tener alguna posibilidad de ocurrir. $-2$

Maestro : ¿Y qué hay del valor de en el manuscrito? $0.1$

Estudiante : Hmmm ... esa es una historia diferente. Los tres histogramas están bastante por encima del suelo en . $0.1$

Maestra : Ok, lo suficientemente justo. Pero supongamos que le dije que el valor estaba en algún lugar cerca de , como entre y . ¿Eso te ayuda a leer algunas probabilidades de estos gráficos? $0.1$ $0$ $0.2$

Estudiante : Claro, porque puedo usar áreas. Solo tengo que estimar las áreas debajo de cada curva entre y . Pero eso parece bastante difícil. $0$ $0.2$

Maestro : No necesitas ir tan lejos. ¿Puedes decir qué área es la más grande?

Estudiante : El que está debajo de la curva más alta, por supuesto. Las tres áreas tienen la misma base, por lo que cuanto más alta es la curva, más área hay debajo de ella y la base. Eso significa que el histograma más alto, el que dibujé, con guiones rojos, es el más probable para un desplazamiento de . Creo que veo a dónde vas con esto, pero estoy un poco preocupado: ¿no tengo que mirar todos los histogramas para todas las alternativas, no solo las que se muestran aquí? ¿Cómo podría hacer eso? $0.1$

Maestro : Eres bueno para elegir patrones, así que dime: a medida que el aparato de medición se hace cada vez más preciso, ¿qué sucede con su histograma?

Estudiante : Se vuelve más angosto, oh, y también tiene que ser más alto, por lo que su área total permanece igual. Eso hace que sea bastante difícil comparar los histogramas. Las alternativas son todas más altas que la nula derecha en , eso es obvio. ¡Pero a otros valores, a veces las alternativas son más altas y otras más bajas! Por ejemplo, [apuntando a un valor cercano a ], aquí mi histograma rojo es el más bajo, el histograma amarillo es el más alto y el histograma nulo original está entre ellos. Pero a la derecha, el nulo es el más alto. $0$ $3/4$

Maestro : En general, comparar histogramas es un negocio complicado. Para ayudarnos a hacerlo, le he pedido a la computadora que haga otro diagrama: ha dividido cada una de las alturas alternativas de histograma (o "densidades") por la altura nula del histograma, creando valores conocidos como "razones de probabilidad". Como resultado, un valor mayor que significa que la alternativa es más probable, mientras que un valor menor que significa que la alternativa es menos probable. Ha dibujado una alternativa más: está más extendido que los otros dos, pero aún menos extendido que el aparato original. $1$ $1$

Figura 8: razones de probabilidad

Maestro (continuando): ¿Podría mostrarme dónde las alternativas tienden a ser más probables que las nulas?

Estudiante (coloración): Aquí en el medio, obviamente. Y debido a que estos ya no son histogramas, supongo que deberíamos mirar las alturas en lugar de las áreas, por lo que solo estoy marcando un rango de valores en el eje horizontal. Pero, ¿cómo sé cuánto del medio colorear? ¿Dónde dejo de colorear?

Figura 9: Gráficos de razón de probabilidad marcada

Maestro : No hay una regla firme. Todo depende de cómo planeemos usar nuestras conclusiones y cuán feroces sean los escépticos. Pero siéntese y piense en lo que ha logrado: ahora se da cuenta de que los resultados con grandes índices de probabilidad son evidencia de la alternativa y los resultados con pequeños índices de probabilidad son evidencia contra la alternativa. Lo que le pediré que haga es colorear en un área que, en la medida de lo posible, tiene una pequeña posibilidad de ocurrir bajo la hipótesis nula y una probabilidad relativamente grande de ocurrir bajo las alternativas. Volviendo al primer diagrama que coloreó, al comienzo de nuestra conversación, coloreó las dos colas del nulo porque eran "extremas". ¿Seguirían haciendo un buen trabajo?

Estudiante : No lo creo. Aunque eran bastante extremos y raros bajo la hipótesis nula, son prácticamente imposibles para cualquiera de las alternativas. Si mi nueva medición fuera, digamos , creo que me pondría del lado del escéptico y negaría que hubiera ocurrido alguna mejora, a pesar de que fue un resultado inusual en cualquier caso. Quiero cambiar ese color. Aquí, déjame tener otro crayón. $3.0$ $3.0$

Figura 10: marcado mejorado

Maestro : ¿Qué representa eso?

Estudiante : Comenzamos con usted pidiéndome que dibujara solo el 10% del área bajo el histograma original, el que describe el nulo. Así que ahora dibujé en el 10% del área donde las alternativas parecen más probables. Creo que cuando hay una nueva medición en esa área, nos dice que debemos creer la alternativa.

Maestro : ¿Y cómo debe reaccionar el escéptico a eso?

Estudiante : Un escéptico nunca tiene que admitir que está equivocado, ¿verdad? Pero creo que su fe debería estar un poco sacudida. Después de todo, lo organizamos de modo que, aunque una medición podría estar dentro del área que acabo de dibujar, solo tiene un 10% de posibilidades de estar allí cuando el valor nulo es verdadero. Y tiene una mayor probabilidad de estar allí cuando la alternativa es verdadera. Simplemente no puedo decirte qué tan grande es esa posibilidad, porque dependería de cuánto haya mejorado el científico el aparato. Solo sé que es más grande. Entonces la evidencia estaría en contra del escéptico.

Maestra : Muy bien. ¿Te importaría resumir tu comprensión para que tengamos perfectamente claro lo que has aprendido?

Estudiante : Aprendí que para comparar hipótesis alternativas con hipótesis nulas, debemos comparar sus histogramas. Dividimos las densidades de las alternativas por la densidad de la nula: eso es lo que usted llamó la "razón de probabilidad". Para hacer una buena prueba, debería elegir un pequeño número como 10% o lo que sea suficiente para sacudir a un escéptico. Entonces debería encontrar valores donde la razón de probabilidad sea lo más alta posible y colorearlos hasta que se haya coloreado el 10% (o lo que sea).

Maestro : ¿Y cómo usarías ese color?

Estudiante : Como me recordó anteriormente, el color debe estar entre líneas verticales. Los valores (en el eje horizontal) que se encuentran debajo del color son evidencia contra la hipótesis nula. Otros valores: bueno, es difícil decir lo que podrían significar sin echar un vistazo más detallado a todos los histogramas involucrados.

Maestro : Volviendo al valor de en el manuscrito, ¿qué concluiría? $0.1$

Estudiante : Eso está dentro del área que coloreé por última vez, así que creo que el científico probablemente tenía razón y el aparato realmente mejoró.

Maestro : Una última cosa. Su conclusión se basó en elegir el 10% como criterio o "tamaño" de la prueba. A muchas personas les gusta usar el 5% en su lugar. Algunos prefieren el 1%. ¿Qué les podrías decir?

Estudiante : ¡No podría hacer todas esas pruebas a la vez! Bueno, tal vez podría de alguna manera. Puedo ver que no importa el tamaño de la prueba, debo comenzar a colorear desde , que es en este sentido el valor "más extremo", y trabajar hacia afuera en ambas direcciones desde allí. Si tuviera que parar justo en valor realmente observado, creo que habría coloreado un área en algún lugar entre y , digamos . El 5% y el 1% de las personas podrían decir de inmediato que coloreé demasiado: si quisieran colorear solo el 5% o el 1%, podrían hacerlo, pero no llegarían a $0$ $0.1$ $0.05$ $0.1$ $0.08$ $0.1$ . No llegarían a la misma conclusión que yo: dirían que no hay pruebas suficientes de que realmente haya ocurrido un cambio.

Maestro : Me acabas de decir qué significan realmente todas esas citas al principio . Debería ser obvio a partir de este ejemplo que no pueden pretender "más extremos" o "mayores o iguales" o "al menos tan grandes" en el sentido de tener un valor mayor o incluso tener un valor donde la densidad nula es pequeña. Realmente significan estas cosas en el sentido de las grandes razones de probabilidad que usted ha descrito. Por cierto, el número alrededor de que calculó se llama "valor p". Solo puede entenderse correctamente de la manera que ha descrito: con respecto a un análisis de alturas relativas de histograma, las razones de probabilidad. $0.08$

Estudiante : Gracias No estoy seguro de comprender completamente todo esto todavía, pero me has dado mucho en qué pensar.

Maestro : Si desea ir más allá, eche un vistazo al Lema de Neyman-Pearson . Probablemente esté listo para entenderlo ahora.

Sinopsis

Muchas pruebas que se basan en una estadística única como la del cuadro de diálogo lo llamarán " " o " ". Estas son formas de insinuar cómo se ve el histograma nulo, pero son solo sugerencias: lo que llamamos este número realmente no importa. La construcción resumida por el alumno, como se ilustra aquí, muestra cómo se relaciona con el valor p. El valor p es el tamaño de prueba más pequeño que causaría que una observación de conduzca a un rechazo de la hipótesis nula. $z$ $t$ $t=0.1$

Figura 11: valor p como área.

En esta figura, que se amplía para mostrar detalles, la hipótesis nula se traza en azul sólido y dos alternativas típicas se trazan con líneas discontinuas. La región donde esas alternativas tienden a ser mucho más grandes que la nula está sombreada. El sombreado comienza donde las probabilidades relativas de las alternativas son mayores (en ). El sombreado se detiene cuando la observación se alcanza. El valor p es el área de la región sombreada bajo el histograma nulo: es la posibilidad, suponiendo que el nulo sea verdadero, de observar un resultado cuyas razones de probabilidad tienden a ser grandes independientemente de qué alternativa sea verdadera. En particular, esta construcción depende íntimamente de la hipótesis alternativa. No puede llevarse a cabo sin especificar las posibles alternativas. $0$ $t=0.1$

whuber
fuente

44

Esto ha tratado excelentemente mi comentario sobre otra respuesta, que ninguna de las respuestas anteriores a esta pregunta había abordado, en general, el aspecto "o más extremo" comúnmente escuchado de un valor p . (Aunque la respuesta "prueba de té" incluía un buen ejemplo específico). Admiro particularmente la forma en que este ejemplo se ha construido deliberadamente para resaltar que "más extremo" puede significar todo lo contrario de "más grande" o "más lejos de cero".

Silverfish

44

Ojalá los maestros y los libros de texto no usaran la frase "o más extrema", realmente. Dos variantes que he escuchado podrían parafrasearse como "más favorable hacia " o "más persuasivo de ". En este caso, los valores más cercanos a cero serían de hecho más persuasivos de que el telescopio se haya vuelto más confiable, pero requiere algunas acrobacias lingüísticas (discutidas de manera plausible, pero potencialmente confusas) para describirlas como "más extremas".

H_{1}

$H_1$

H_{1}

$H_1$

Silverfish

3

Tan perspicaz como siempre, gracias por tomarse el tiempo para escribir esas respuestas increíblemente útiles. Realmente me pregunto por qué los libros de texto nunca se escriben de una manera que ofrezca cerca de estos niveles de claridad e intuición.

jeremy radcliff

Creo que un enlace a una definición de probabilidad WRT este ejemplo podría ser beneficiosa

BAXX

1

Es peligroso usar el sarcasmo en un comentario, @baxx, porque no hay suficiente espacio que nos permita hacerlo de manera cortés y elegante. Por lo tanto, generalmente no es una buena idea suponer que un comentario es sarcástico a menos que se lo diga explícitamente. Solo asuma que los comentarios están destinados a ayudarlo. Si simplemente siguiera el primer resultado en la búsqueda que proporcioné, creo que sus preguntas serían respondidas.

whuber

44

Antes de tocar este tema, siempre me aseguro de que los estudiantes estén contentos moviéndose entre porcentajes, decimales, probabilidades y fracciones. Si no están completamente contentos con esto, pueden confundirse muy rápidamente.

Me gusta explicar la prueba de hipótesis por primera vez (y, por lo tanto, los valores p y las estadísticas de prueba) a través del experimento clásico de té de Fisher. Tengo varias razones para esto:

(i) Creo que trabajar a través de un experimento y definir los términos a medida que avanzamos tiene más sentido que simplemente definir todos estos términos para empezar. (ii) No necesita confiar explícitamente en distribuciones de probabilidad, áreas bajo la curva, etc. para superar los puntos clave de la prueba de hipótesis. (iii) Explica esta noción ridícula de "como o más extrema que las observadas" de una manera bastante sensata (iv) Encuentro que a los estudiantes les gusta entender la historia, los orígenes y la historia de fondo de lo que están estudiando, ya que lo hace más real que algunas teorías abstractas. (v) No importa de qué disciplina o materia provengan los estudiantes, pueden relacionarse con el ejemplo del té (Nota: algunos estudiantes internacionales tienen dificultades con esta institución particularmente británica de té con leche).

[Nota: Originalmente obtuve esta idea del maravilloso artículo de Dennis Lindley "El análisis de los datos experimentales: la apreciación del té y el vino" en el que demuestra por qué los métodos bayesianos son superiores a los métodos clásicos.]

La historia de fondo es que Muriel Bristol visita a Fisher una tarde en la década de 1920 en la estación experimental Rothamsted para tomar una taza de té. Cuando Fisher puso la leche por última vez, se quejó diciendo que también podía decir si la leche se vertió primero (o la última) y que prefería la primera. Para poner esto a prueba, diseñó su experimento clásico de té en el que a Muriel se le presentan un par de tazas de té y ella debe identificar cuál tuvo la leche agregada primero. Esto se repite con seis pares de tazas de té. Sus elecciones son Correctas (R) o Incorrectas (W) y sus resultados son: RRRRRW.

Supongamos que Muriel en realidad solo está adivinando y no tiene la capacidad de discriminar en absoluto. Esto se llama la hipótesis nula . Según Fisher, el propósito del experimento es desacreditar esta hipótesis nula. Si Muriel está adivinando, identificará la taza de té correctamente con una probabilidad de 0.5 en cada turno y, como son independientes, el resultado observado tiene 0.5 = 0.016 (o 1/64). Fisher luego argumenta que: $^6$

(a) la hipótesis nula (Muriel está adivinando) es cierta y se ha producido un evento de baja probabilidad o,

(b) la hipótesis nula es falsa y Muriel tiene poderes discriminatorios.

El valor p (o valor de probabilidad) es la probabilidad de observar este resultado (RRRRRW) dado que la hipótesis nula es verdadera; es la pequeña probabilidad mencionada en (a), arriba. En este caso es 0.016. Dado que los eventos con pequeñas probabilidades solo ocurren raramente (por definición), la situación (b) podría ser una explicación más preferible de lo que ocurrió que la situación (a). Cuando rechazamos la hipótesis nula, de hecho estamos aceptando la hipótesis opuesta que llamamos hipótesis alternativa. En este ejemplo, Muriel tiene poderes discriminatorios es la hipótesis alternativa.

Una consideración importante es ¿qué clasificamos como una probabilidad "pequeña"? ¿Cuál es el punto de corte en el que estamos dispuestos a decir que un evento es poco probable? El punto de referencia estándar es 5% (0.05) y esto se llama nivel de significancia. Cuando el valor p es menor que el nivel de significancia, rechazamos la hipótesis nula como falsa y aceptamos nuestra hipótesis alternativa. Es común decir que un resultado es "significativo" cuando el valor p es menor que el nivel de significación, es decir, cuando la probabilidad de que ocurra lo que observamos dada la hipótesis nula es verdadera es menor que nuestro punto de corte. Es importante tener claro que usar 5% es completamente subjetivo (como lo es usar los otros niveles de significancia comunes de 1% y 10%).

Fisher se dio cuenta de que esto no funciona; cada posible resultado con un par incorrecto sugería igualmente poderes discriminatorios. La probabilidad relevante para la situación (a), arriba, es por lo tanto 6 (0.5) ^ 6 = 0.094 (o 6/64) que ahora no es significativa a un nivel de significancia del 5%. Para superar esto, Fisher argumentó que si 1 error en 6 se considera evidencia de poderes discriminatorios, entonces no hay errores, es decir, se deben incluir resultados que indiquen más poder discriminatorio que el observado al calcular el valor p. Esto dio como resultado la siguiente enmienda al razonamiento:

(a) la hipótesis nula (Muriel está adivinando) es verdadera y la probabilidad de eventos como, o más, extremos que los observados es pequeña, o

(b) la hipótesis nula es falsa y Muriel tiene poderes discriminatorios.

Volviendo a nuestro experimento del té y encontramos que el valor p bajo esta configuración es 7 (0.5) ^ 6 = 0.109, que todavía no es significativo en el umbral del 5%.

Luego hago que los estudiantes trabajen con otros ejemplos, como tirar monedas, para determinar si una moneda es justa o no. Esto profundiza en los conceptos de hipótesis nula / alternativa, valores p y niveles de significación. Luego pasamos al caso de una variable continua e introducimos la noción de estadística de prueba. Como ya hemos cubierto la distribución normal, la distribución normal estándar y la transformación z en profundidad, es simplemente una cuestión de unir varios conceptos.

Además de calcular las estadísticas de las pruebas, los valores p y tomar una decisión (significativo / no significativo), hago que los estudiantes trabajen a través de los documentos publicados en un juego de relleno en el juego de espacios en blanco que faltan.

Graham Cookson
fuente

2

Sé que estoy reviviendo un hilo muy antiguo, pero aquí está ... Realmente disfruté tu respuesta, pero extraño la parte del valor t :( ¿Podrías usar tus ejemplos dados para hablar sobre ello? Nadie respondió sobre la parte de la prueba t

Sosi

@sosi Probablemente se deba a que los valores p son mucho más generales que los valores t. Es como hacer una pregunta sobre los autos y luego sobre los frenos de un Ford Fiesta.

conjeturas

2

La respuesta es muy interesante (+1), pero algunas cosas se confunden al final. 1. ¿Qué significa que un valor sea "significativo al nivel del 5%"? O el valor está por debajo del 5%, o no lo está. No veo el punto de usar una oración tan oscura, dejando "significado" indefinido. 2. ¿Qué significa "decidir" si un valor es significativo? No parece justificado incorporar la teoría de la decisión a la mezcla de esta manera (especialmente porque Fisher era un fuerte oponente de la aplicación del marco de pruebas de Neyman-Pearson en las ciencias).

p

$p$

p

$p$

p

$p$

Olivier

27

Ninguna cantidad de explicaciones o cálculos verbales realmente me ayudó a comprender a nivel intestinal qué eran los valores p, pero realmente se enfocó en mí una vez que tomé un curso que involucraba simulación. Eso me dio la capacidad de ver realmente los datos generados por la hipótesis nula y trazar los medios / etc. de muestras simuladas, luego mire dónde cayó la estadística de mi muestra en esa distribución.

Creo que la ventaja clave de esto es que les permite a los estudiantes olvidarse de las distribuciones de estadísticas de matemáticas y pruebas por un minuto y enfocarse en los conceptos en cuestión. De acuerdo, es necesario que aprenda cómo simular eso, lo que provocará problemas de un conjunto totalmente diferente de los estudiantes. Pero funcionó para mí, y he usado la simulación innumerables veces para ayudar a explicar las estadísticas a otros con gran éxito (por ejemplo, "Así es como se ven sus datos; así es como se ve una distribución de Poisson superpuesta. ¿Está SEGURO que desea hacer una regresión de Poisson? ").

Esto no responde exactamente las preguntas que planteaste, pero para mí, al menos, las hizo triviales.

Matt Parker
fuente

10

Estoy totalmente de acuerdo con el uso de la simulación para explicar esto. Pero solo una pequeña nota sobre el ejemplo al final: encuentro que a las personas (no solo a los estudiantes) les resulta difícil distinguir para cualquier supuesto de distribución particular, por ejemplo, el poisson, entre estar distribuido marginalmente y distribuido condicionalmente . Dado que solo lo último es importante para un modelo de regresión, un grupo de valores de variables dependientes que no son Poisson no necesariamente deben ser motivo de preocupación.

conjugateprior

1

Tengo que confesar que no lo sabía. Realmente aprecié sus comentarios en este sitio durante los últimos días de su membresía, espero que se quede.

Matt Parker el

@MattParker, ¿conoce algún recurso de aprendizaje centrado en el uso de la simulación para desarrollar la comprensión? ¿O es solo un caso de reunir algunos scripts python / R y ejecutar un montón de pruebas?

baxx

1

@baxx El [sitio web de Seeing Theory por Daniel Kunin] (students.brown.edu/seeing-theory/) tiene algunas herramientas interesantes para esto, pero aún está en construcción. De lo contrario, sí, acabo de experimentar en gran medida con las herramientas integradas de R para la simulación, utilizándolas para probarme a mí mismo cómo funciona algún método, o para ver qué sucedería si un predictor fuera reemplazado por una variable aleatoria, etc. Lo siento, ¡Ojalá supiera mejores recursos para esto!

Matt Parker el

@MattParker genial gracias. Sí, un poco de gallina y huevo en eso, para construir los experimentos que (supongo) necesita al menos obtener lo suficiente para escribirlos. No se preocupe, aunque ..... acaba de comprobar que el sitio se ha vinculado, es agradable, gracias

BAXX

16

Una buena definición del valor p es "la probabilidad de observar una estadística de prueba al menos tan grande como la calculada suponiendo que la hipótesis nula es verdadera".

El problema con eso es que requiere una comprensión de "estadística de prueba" e "hipótesis nula". Pero, eso es fácil de transmitir. Si la hipótesis nula es cierta, por lo general, algo como "el parámetro de la población A es igual al parámetro de la población B", y calcula estadísticas para estimar esos parámetros, ¿cuál es la probabilidad de ver una estadística de prueba que dice: "son esto diferente"?

Por ejemplo, si la moneda es justa, ¿cuál es la probabilidad de que vea 60 caras de 100 lanzamientos? Eso prueba la hipótesis nula, "la moneda es justa" o "p = .5" donde p es la probabilidad de cara.

La estadística de prueba en ese caso sería el número de cabezas.

Ahora, supongo que lo que está llamando "valor t" es un "estadístico de prueba" genérico, no un valor de una "distribución t". No son lo mismo, y el término "valor t" no es (necesariamente) ampliamente utilizado y podría ser confuso.

Lo que usted llama "valor t" es probablemente lo que yo llamo "estadística de prueba". Para calcular un valor p (recuerde, es solo una probabilidad) necesita una distribución y un valor para conectarse a esa distribución que devolverá una probabilidad. Una vez que haga eso, la probabilidad de que regrese es su valor p. Puede ver que están relacionados porque, bajo la misma distribución, diferentes estadísticas de prueba devolverán diferentes valores p. Las estadísticas de prueba más extremas arrojarán valores p más bajos, lo que da una mayor indicación de que la hipótesis nula es falsa.

He ignorado el problema de los valores p unilaterales y bilaterales aquí.

Baltimark
fuente

11

Imagine que tiene una bolsa que contiene 900 canicas negras y 100 blancas, es decir, el 10% de las canicas son blancas. Ahora imagine que saca 1 canica, mírela y registre su color, saque otra, registre su color, etc. y haga esto 100 veces. Al final de este proceso, tendrá un número para canicas blancas que, idealmente, esperaríamos que sea 10, es decir, 10% de 100, pero en realidad puede ser 8, o 13 o lo que sea simplemente debido a la aleatoriedad. Si repite este experimento de extracción de 100 canicas muchas, muchas veces y luego traza un histograma del número de canicas blancas dibujadas por experimento, encontrará que tendrá una curva de campana centrada alrededor de 10.

Esto representa su hipótesis del 10%: con cualquier bolsa que contenga 1000 canicas, de las cuales el 10% son blancas, si saca al azar 100 canicas, encontrará 10 canicas blancas en la selección, más o menos 4 o más. El valor p se trata de este "dar o tomar 4 más o menos". Digamos que al referirse a la curva de campana creada anteriormente, puede determinar que menos del 5% del tiempo obtendría 5 o menos canicas blancas y otro <5% del tiempo representa 15 o más canicas blancas, es decir,> 90% del tiempo. su selección de 100 canicas contendrá entre 6 y 14 canicas blancas inclusive.

Ahora, suponiendo que alguien deje caer una bolsa de 1000 canicas con un número desconocido de canicas blancas, tenemos las herramientas para responder estas preguntas

i) ¿Hay menos de 100 canicas blancas?

ii) ¿Hay más de 100 canicas blancas?

iii) ¿La bolsa contiene 100 canicas blancas?

Simplemente saque 100 canicas de la bolsa y cuente cuántas de esta muestra son blancas.

a) Si hay de 6 a 14 blancos en la muestra, no puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 6 a 14 serán> 0.05.

b) Si hay 5 o menos blancos en la muestra, puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 5 o menos serán <0.05. Es de esperar que la bolsa contenga <10% de canicas blancas.

c) Si hay 15 o más blancos en la muestra, puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 15 o más serán <0.05. Es de esperar que la bolsa contenga> 10% de canicas blancas.

En respuesta al comentario de Baltimark

Dado el ejemplo anterior, hay aproximadamente: -

4.8% de probabilidad de obtener 5 bolas blancas o menos

1.85% de probabilidad de 4 o menos

0,55% de probabilidad de 3 o menos

0.1% de probabilidad de 2 o menos

6.25% de probabilidad de 15 o más

3.25% de probabilidad de 16 o más

1.5% de probabilidad de 17 o más

0.65% de probabilidad de 18 o más

0.25% de probabilidad de 19 o más

0.1% de probabilidad de 20 o más

0.05% de probabilidad de 21 o más

Estos números se estimaron a partir de una distribución empírica generada por una simple rutina de Monte Carlo ejecutada en R y los cuantiles resultantes de la distribución de muestreo.

Para responder a la pregunta original, suponga que saca 5 bolas blancas, solo hay una probabilidad aproximada de 4.8% de que si la bolsa de mármol 1000 realmente contiene 10% de bolas blancas, solo sacaría 5 blancos en una muestra de 100. Esto equivale a un valor p <0.05. Ahora tienes que elegir entre

i) Realmente hay un 10% de bolas blancas en la bolsa y he tenido "mala suerte" de dibujar tan pocas

o

ii) He dibujado tan pocas bolas blancas que realmente no puede haber un 10% de bolas blancas (rechace la hipótesis del 10% de bolas blancas)

lector de babelproof
fuente

En primer lugar, este es solo un gran ejemplo y realmente no explica el concepto de valor p y estadística de prueba. En segundo lugar, solo está afirmando que si obtiene menos de 5 o más de 15 canicas blancas, rechaza la hipótesis nula. ¿Cuál es su distribución de la que calcula esas probabilidades? Esto se puede aproximar con un dist normal. centrado en 10, con una desviación estándar de 3. Sus criterios de rechazo no son lo suficientemente estrictos.

Baltimark

Estoy de acuerdo en que esto es solo un ejemplo, y es cierto que acabo de elegir los números 5 y 15 del aire con fines ilustrativos. Cuando tenga tiempo, publicaré una segunda respuesta, que espero sea más completa.

babelproofreader

10

Lo que el valor p no le dice es qué tan probable es que la hipótesis nula sea cierta. Bajo el marco de prueba de significancia convencional (Fisher) primero calculamos la probabilidad de observar los datos suponiendo que la hipótesis nula es verdadera, este es el valor p. Parece intuitivamente razonable, entonces, asumir que la hipótesis nula es probablemente falsa si es poco probable que los datos se observen bajo la hipótesis nula. Esto es completamente razonable. Los estadísticos usan tradicionalmente un umbral y "rechazan la hipótesis nula al nivel de significación del 95%" si (1 - p)> 0,95; sin embargo, esta es solo una convención que ha demostrado ser razonable en la práctica: no significa que haya menos del 5% de probabilidad de que la hipótesis nula sea falsa (y, por lo tanto, una probabilidad del 95% de que la hipótesis alternativa sea verdadera).

Imagen de una función f () que mapea el valor p en la probabilidad de que la hipótesis alternativa sea verdadera. Sería razonable afirmar que esta función está disminuyendo estrictamente (de modo que cuanto más probable es que las observaciones bajo la hipótesis nula, menos probable es que la hipótesis alternativa sea verdadera), y que proporcione valores entre 0 y 1 (ya que proporciona una estimación de probabilidad). Sin embargo, eso es todo lo que sabemos sobre f (), por lo que si bien existe una relación entre p y la probabilidad de que la hipótesis alternativa sea cierta, no está calibrada. Esto significa que no podemos usar el valor p para hacer declaraciones cuantitativas sobre la plausibilidad de las hipótesis nulll y alternave.

Lector de advertencia: No está realmente dentro del marco frecuentista hablar de la probabilidad de que una hipótesis sea verdadera, ya que no es una variable aleatoria, ya sea verdadera o no. Entonces, cuando he hablado de la probabilidad de la verdad de una hipótesis, me he trasladado implícitamente a una interpretación bayesiana. Es incorrecto mezclar bayesiano y frecuentista, sin embargo, siempre existe la tentación de hacerlo, ya que lo que realmente queremos es una indicación cuantitativa de la plausibilidad / probabilidad relativa de las hipótesis. Pero esto no es lo que proporciona el valor p.

Dikran Marsupial
fuente

7

En las estadísticas, nunca se puede decir que algo es absolutamente seguro, por lo que los estadísticos utilizan otro enfoque para evaluar si una hipótesis es cierta o no. Intentan rechazar todas las otras hipótesis que no son compatibles con los datos.

Para hacer esto, las pruebas estadísticas tienen una hipótesis nula y una hipótesis alternativa. El valor p informado de una prueba estadística es la probabilidad del resultado dado que la hipótesis nula era correcta. Es por eso que queremos valores p pequeños. Cuanto más pequeños sean, menos probable será el resultado si la hipótesis nula fuera correcta. Si el valor p es lo suficientemente pequeño (es decir, es muy poco probable que el resultado haya ocurrido si la hipótesis nula era correcta), entonces la hipótesis nula se rechaza.

De esta manera, se pueden formular hipótesis nulas y posteriormente rechazarlas. Si se rechaza la hipótesis nula, acepta la hipótesis alternativa como la mejor explicación. Sin embargo, recuerde que la hipótesis alternativa nunca es segura, ya que la hipótesis nula podría haber generado, por casualidad, los resultados.

DaRob
fuente

un valor p es la probabilidad de un resultado como o más "extremo" que el resultado dado, no del resultado real. El valor p es y no (T es el estadístico de prueba y t es su valor observado).

P r (T \geq t | H_{0})

$Pr(T\geq t|H_0)$

P r (T = t | H_{0})

$Pr(T=t|H_0)$

probabilityislogic

5

No estoy seguro de revivir el viejo tema, pero salté desde aquí , así que publico esto como respuesta a la pregunta en el enlace.

El valor p es un término concreto, no debe haber lugar para malentendidos. Pero, de alguna manera es místico que las traducciones coloquiales de la definición del valor p conduzcan a muchas interpretaciones erróneas diferentes. Creo que la raíz del problema está en el uso de las frases "al menos tan adversas a la hipótesis nula" o "al menos tan extremas como la de sus datos de muestra", etc.

Por ejemplo, Wikipedia dice

... el valor p es la probabilidad de obtener los resultados de la muestra observada (o un resultado más extremo) cuando la hipótesis nula es realmente cierta.

El significado del valor ve borroso cuando las personas tropiezan por primera vez con "(o un resultado más extremo)" y comienzan a pensar "¿ más extreeeme ?". $p$

Creo que es mejor dejar el "resultado más extremo" a algo como el acto indirecto del habla . Entonces, mi opinión es

El valor p es la probabilidad de ver lo que ves en un "mundo imaginario" donde la hipótesis nula es verdadera.

Para concretar la idea, suponga que tiene una muestra que xconsta de 10 observaciones y plantea la hipótesis de que la media de la población es . Entonces, en su mundo hipotético, la distribución de la población es . $\mu_0=20$ $N(20,1)$

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

Calcula t-stat como , y descubre que $t_0=\sqrt{n}\frac{\bar{X}-\mu_0}{s}$

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

Entonces, ¿cuál es la probabilidad de observartan grande como 2.97 ("más extremo" viene aquí) en el mundo imaginario? En el mundo imaginario , por lo tanto, el valor debe ser $|t_0|$ $t_0\sim t(9)$

p - v a l u e = P r (| t_{0} | \geq 2.97) = 0.01559054

$p-value=Pr(|t_0|\geq 2.97)= 0.01559054$

2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Dado que el valor p es pequeño, es muy poco probable que la muestra xse haya extraído en el mundo hipotético. Por lo tanto, concluimos que es muy poco probable que el mundo hipotético fuera, de hecho, el mundo real.

Khashaa
fuente

2

+1, pero cuando escribe "probabilidad de ver lo que ve" y omite la parte "más extrema", esta oración se vuelve estrictamente falsa (y potencialmente engañosa, aunque quizás sea menos confusa). No es la probabilidad de ver lo que ves (generalmente es cero). Es la probabilidad de ver lo que ves "o más extremo". Aunque esto puede ser un poco confuso para muchos, sigue siendo crucial (y uno puede discutir sin cesar sobre el grado de subjetividad que se esconde detrás de esta redacción "más extrema").

ameba

@amoeba Pensé que, cuando se proporcionara un ejemplo adecuado, podría servir como un proxy para "obtener los resultados de la muestra observada (o un resultado más extremo)". Tal vez, se necesita una mejor redacción.

Khashaa

1

Iba a hacer la misma observación que @amoeba; la parte "o más extrema" se maneja bien por ejemplo en las alturas de los estudiantes y las respuestas de la fiesta del té, pero no creo que ninguna respuesta en este hilo haya encontrado una explicación general clara de la misma, particularmente una que cubra diferentes hipótesis alternativas. Estoy de acuerdo con esta respuesta que sugiere que la parte "o más extrema" es un punto de conflicto conceptual para muchos estudiantes.

Silverfish

@Silverfish: y no solo estudiantes. ¡Cuántas diatribas bayesianas vs frecuentistas he leído que discuten el tema de la subjetividad / objetividad de este bit "más extremo"!

ameba

1

@Silver Estoy de acuerdo con su crítica y he publicado una respuesta tratando de abordarla. "O más extremo" es el quid de la cuestión.

whuber

4

Me resulta útil seguir una secuencia en la que explica los conceptos en el siguiente orden: (1) La puntuación z y las proporciones por encima y por debajo de la puntuación z suponiendo una curva normal. (2) La noción de una distribución de muestreo y la puntuación z para una muestra media determinada cuando se conoce la desviación estándar de la población (y de ahí la prueba z de una muestra) (3) La prueba t de una muestra y la probabilidad de una media de la muestra cuando se desconoce la desviación estándar de la población (repleta de historias sobre la identidad secreta de cierto estadístico industrial y por qué Guinness es bueno para las estadísticas). (4) La prueba t de dos muestras y la distribución muestral de las diferencias de medias. La facilidad con que los estudiantes introductorios comprenden la prueba t tiene mucho que ver con el trabajo preliminar que se prepara para este tema.

/ * instructor de estudiantes aterrorizados en modo apagado * /

StatisticsDoc Consulting
fuente

4

También he encontrado que las simulaciones son útiles en la enseñanza.

Aquí hay una simulación para el caso posiblemente más básico en el que muestreamos veces desde (por lo tanto, es conocido por simplicidad) y probamos contra una izquierda alternativa alternativa. $n$ $N(\mu,1)$ $\sigma^2=1$ $H_0:\mu=\mu_0$

Entonces, la estadística es bajo , de modo que el valor es simplemente o en R. $t$ $\text{tstat}:=\sqrt{n}(\bar{X}-\mu_0)$ $N(0,1)$ $H_0$ $p$ $\Phi(\text{tstat})$ pnorm(tstat)

En la simulación, es la fracción de veces que los datos generados bajo el nulo (aquí, ) arrojan medias de muestra almacenadas que son menos (es decir, `` más extremas '' en este prueba del lado izquierdo) que la calculada a partir de los datos observados. $N(\mu_0,1)$ $\mu_0=2$ nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

Christoph Hanck
fuente

0

¿Qué significa un "valor p" en relación con la hipótesis que se está probando?

En un sentido ontológico (¿qué es la verdad?), No significa nada . Cualquier prueba de hipótesis se basa en supuestos no probados . Esto normalmente forma parte de la prueba en sí, pero también forma parte del modelo que esté utilizando (por ejemplo, en un modelo de regresión). Como simplemente estamos asumiendo esto, no podemos saber si la razón por la cual el valor p está por debajo de nuestro umbral es porque el valor nulo es falso. No es sequitur deducir incondicionalmente que debido a un valor p bajo debemos rechazar el valor nulo. Por ejemplo, algo en el modelo podría estar mal.

En un sentido epistemológico (¿qué podemos aprender?), Significa algo . Obtiene conocimiento condicional en que las premisas no probadas sean verdaderas. Dado que (al menos hasta ahora) no podemos probar cada edificio de la realidad, todo nuestro conocimiento será necesariamente condicional. Nunca llegaremos a la "verdad".

luchonacho
fuente

-1

Creo que los ejemplos que involucran canicas o monedas o medición de altura pueden ser buenos para practicar las matemáticas, pero no son buenos para desarrollar la intuición. A los estudiantes universitarios les gusta cuestionar a la sociedad, ¿verdad? ¿Qué tal usar un ejemplo político?

Digamos que un candidato político realizó una campaña prometiendo que alguna política ayudará a la economía. Fue elegida, se promulgó la política y, 2 años después, la economía está en auge. Está lista para la reelección y afirma que su política es la razón de la prosperidad de todos. ¿Deberías reelegirla?

El ciudadano reflexivo debería decir "bueno, es cierto que a la economía le está yendo bien, pero ¿podemos realmente atribuir eso a su política?" Para responder realmente a esto, debemos considerar la pregunta "¿le habría ido bien a la economía en los últimos 2 años sin ella?" Si la respuesta es sí (por ejemplo, la economía está en auge debido a un nuevo desarrollo tecnológico no relacionado), entonces rechazamos la explicación política de los datos.

Es decir, para examinar una hipótesis (la política ayudó a la economía), debemos construir un modelo del mundo donde esa hipótesis sea nula (la política nunca se promulgó). Luego hacemos una predicción bajo ese modelo. Llamamos a la probabilidad de observar estos datos en ese mundo alternativo el valor p . Si el valor p es demasiado alto, entonces la hipótesis no nos convence: la política no hizo ninguna diferencia. Si el valor p es bajo, entonces confiamos en la hipótesis: la política era esencial.

cgreen
fuente

1

No estoy de acuerdo con la definición de p como "Llamamos a la probabilidad de observar estos datos en ese mundo alternativo el valor p" y también la fuerza de la conclusión que se extrae (especialmente el fracaso para rechazar el valor nulo).

Silverfish

@Silverfish ¿Podrías dar más detalles? Probablemente sería más correcto llamar al valor p la probabilidad de hacer esa observación O una observación más extrema. Pero parece que tienes una crítica más profunda.

cgreen

1

Como la pregunta original es preguntar qué es un valor p, pensé que transmitir esa definición claramente era importante. Simplemente decir "más extremo" no es en sí mismo muy útil sin explicar lo que podría significar "más extremo", creo que esa es una debilidad de la mayoría de las respuestas en este hilo. Solo la respuesta de Whuber y la "prueba del té" parecen explicar realmente por qué el "más extremo" también importa.

Silverfish

También sentí que sus conclusiones están redactadas con demasiada fuerza. Si rechazamos el nulo, tenemos evidencia significativa en su contra, pero no sabemos si es falso. Cuando fallamos en rechazar el nulo, eso ciertamente no significa que el nulo sea verdadero (aunque bien podría serlo). Como comentario más general, tengo la sensación de que la prueba que está describiendo, en términos bastante abstractos, no es clara para un alumno que solo está aprendiendo cómo realizar una prueba. La falta de una estadística de prueba claramente definida no encaja bien con la pregunta original que pregunta cómo interpretar t -statistic también.

Silverfish

Una característica de esta respuesta que me gusta mucho es la explicación clara de que los valores p se calculan utilizando un modelo nulo, incluso si no creemos (subjetivamente) que el modelo nulo es realmente cierto. Creo que las estadísticas de las pruebas de hecho se calculan bajo un modelo es un punto clave con el que muchos estudiantes luchan.

Silverfish

-1

Todavía tengo que demostrar el siguiente argumento para que pueda contener errores, pero realmente quiero tirar mis dos centavos (con suerte, lo actualizaré con una prueba rigurosa pronto). Otra forma de ver el valor es $p$

$p$ -value - Una estadística tal que donde es la función de distribución de bajo . $X$
$\forall 0 \leq c \leq 1, F_{X | H_{0}} (inf {x : F_{X | H_{0}} (x) \geq c}) = c$ $\forall 0 \le c \le 1, F_{X|H_0}(\inf\{x: F_{X|H_0}(x) \ge c\}) = c$ $F_{X|H_0}$ $X$ $H_0$

Específicamente, si tiene una distribución continua y no está utilizando aproximación, entonces $X$

Cada valor es una estadística con una distribución uniforme en , y $p$ $[0, 1]$
Cada estadística con una distribución uniforme en es un valor . $[0, 1]$ $p$

Puede considerar esto como una descripción generalizada de los valores . $p$

nalzok
fuente

Esta definición tiene sentido solo para distribuciones discretas (y luego no es correcta), porque la segunda aparición de " " deja en claro que se refiere a probabilidades, no a densidades de probabilidad. Además, hay muy pocas distribuciones (si las hay) que tengan la propiedad indicada, lo que sugiere que debe haber errores tipográficos en la declaración. En lo que respecta a sus afirmaciones posteriores, (1) es idealmente cierto, pero (2) no lo es, ¡a menos que permita que la hipótesis nula dependa de la estadística!

P

$P$

whuber

@whuber Gracias por el aporte. He editado la definición, ¡y debería tener más sentido ahora!

nalzok

1

Tiene sentido, gracias: si lo estoy leyendo correctamente, afirma que la distribución nula de es uniforme enSin embargo, eso captura solo una parte de las propiedades de los valores p; no caracteriza los valores p; y no dice nada acerca de lo que significan o cómo interpretarlos. Considere estudiar algunas de las otras respuestas en este hilo para obtener información sobre lo que falta.

X

$X$

[0, 1] .

$[0,1].$

whuber

Aquí hay un ejemplo que puede encontrar interesante. La familia de distribución es Uniforme para la hipótesis nula es y la alternativa es su complemento. Considere una muestra aleatoriaDefina la estadísticaObviamente, esto tiene una distribución uniforme en bajo pero ¿en qué sentido es un valor p? ¿Cuál es la prueba de hipótesis correspondiente? Supongamos que tomamos una muestra de tamaño y observamos el valor ¿estás afirmando que el valor p es ?

(θ, θ + 1)

$(\theta,\theta+1)$

θ \in R,

$\theta\in\mathbb{R},$

θ = 0,

$\theta=0,$

X = (X_{1}, \dots, X_{n}) .

$\mathbf{X}=(X_1,\ldots,X_n).$

X (X) = X_{1} .

$X(\mathbf{X}) = X_1.$

[0, 1]

$[0,1]$

H_{0} :

$H_0:$

n = 1

$n=1$

X_{1} = - 2 :

$X_1=-2:$

- 2

$-2$

whuber

-4

El valor p no es tan misterioso como la mayoría de los analistas dicen que es. Es una forma de no tener que calcular el intervalo de confianza para una prueba t, sino simplemente determinar el nivel de confianza con el que se puede rechazar la hipótesis nula.

ILUSTRACIÓN. Realizas una prueba. El valor p aparece como 0.1866 para la variable Q, 0.0023 para la variable R. (Estos se expresan en%).

Si está probando a un nivel de confianza del 95% para rechazar el hipo nulo;

para Q: 100-18.66 = 81.34%

para R: 100-0.23 = 99.77%.

Con un nivel de confianza del 95%, Q ofrece una confianza del 81,34% para rechazar. Esto cae por debajo del 95% y es inaceptable. ACEPTAR NULL.

R da un 99.77% de confianza para rechazar nulo. Claramente por encima del deseado 95%. Rechazamos así el nulo.

Acabo de ilustrar la lectura del valor p a través de una "forma inversa" de medirlo hasta el nivel de confianza en el que rechazamos el hipo nulo.

dytchay
fuente

66

Bienvenido al sitio. ¿Qué quiere decir con variable y variable? Por favor aclarar Además, el uso de la frase "aceptar nulo" generalmente se considera bastante indeseable, incluso engañoso.

Q

$Q$

R

$R$

cardenal

@cardinal señala un punto importante. No vas a aceptar el nulo.

Patrick Coulombe

-8

****** El valor p en la prueba de hipótesis mide la sensibilidad de la prueba. Cuanto menor es el valor p, mayor es la sensibilidad. Si el nivel de significancia se establece en 0.05, el valor p de 0.0001 indica una alta probabilidad de que los resultados de la prueba sean correctos ******

DR.HKLAKSHMANRAO
fuente

66

-1 Esto está claramente mal. Es posible que desee leer las respuestas más votadas primero.

Momo

¿Cuál es el significado de los valores p y los valores t en las pruebas estadísticas?

Respuestas:

Comprender el valorppp

Un diálogo entre un maestro y un estudiante reflexivo

Sinopsis

Comprender el valor $p$