Explicando las pruebas de dos colas

Esta es una gran pregunta y espero con ansias la versión para todos de explicar el valor p y la prueba de dos colas frente a la de una cola. He estado enseñando estadísticas a otros cirujanos ortopédicos y, por lo tanto, traté de mantenerlo lo más básico posible, ya que la mayoría de ellos no han hecho ninguna matemática avanzada durante 10-30 años.

Mi forma de explicar el cálculo de los valores p y las colas

Comienzo explicando que si creemos que tenemos una moneda justa, sabemos que debería terminar con el 50% de los lanzamientos en promedio ( ). Ahora, si se pregunta cuál es la probabilidad de obtener solo 2 colas de 10 lanzamientos con esta moneda justa, puede calcular esa probabilidad como lo hice en el gráfico de barras. En el gráfico puede ver que la probabilidad de obtener 8 de cada 10 lanzamientos con una moneda justa es de aproximadamente . $=H_0$ $\approx 4.4\%$

Dado que cuestionaríamos la equidad de la moneda si obtuviéramos 9 o 10 colas, tenemos que incluir estas posibilidades, la cola de la prueba. Al sumar los valores, obtenemos que la probabilidad ahora es un poco más de de obtener 2 colas o menos. $\approx 5.5\%$

Ahora, si obtuviéramos solo 2 caras, es decir, 8 caras (la otra cola), probablemente estaríamos igualmente dispuestos a cuestionar la equidad de la moneda. Esto significa que terminará con una probabilidad de para una prueba de dos colas . $5.4...\%+5.4...\% \approx 10.9\%$

Como en medicina generalmente estamos interesados en estudiar los fracasos, debemos incluir el lado opuesto de la probabilidad, incluso si nuestra intención es hacer el bien e introducir un tratamiento beneficioso.

Mi gráfico de monedas volteando

Reflexiones ligeramente fuera de tema

Este simple ejemplo también muestra cuán dependientes somos de la hipótesis nula para calcular el valor p. También me gusta señalar la semejanza entre la curva binomial y la curva de campana. Al cambiar a 200 lanzamientos, obtienes una forma natural de explicar por qué la probabilidad de obtener exactamente 100 lanzamientos comienza a carecer de relevancia. Los intervalos de interés definitorios son una transición natural a funciones de función de densidad / masa de probabilidad y sus contrapartes acumulativas.

En mi clase, les recomiendo los videos de estadísticas de la academia Khan y también uso algunas de sus explicaciones para ciertos conceptos. También pueden lanzar monedas cuando observamos la aleatoriedad del lanzamiento de la moneda; lo que trato de mostrar es que la aleatoriedad es más aleatoria de lo que generalmente creemos que está inspirado en este episodio de Radiolab .

El código

Por lo general, tengo un gráfico / diapositiva, el código R que usé para crear el gráfico:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

Max Gordon
fuente

Gran respuesta Max, y gracias por reconocer la no trivialidad de mi pregunta :)

Tal Galili, el

+1 buena respuesta, muy minuciosa. Perdóname, pero voy a discutir dos cosas. 1) el valor p se entiende como la probabilidad de que los datos sean tan extremos o más extremos como los suyos bajo nulo, por lo tanto, su respuesta es correcta. Sin embargo, cuando se utilizan datos discretos, como los lanzamientos de monedas, esto es inapropiadamente conservador. Es mejor usar lo que se llama el "valor p medio", es decir, la mitad de la probabilidad de que los datos sean tan extremos como los suyos + la probabilidad de que los datos sean más extremos. Una discusión fácil de estos temas se puede encontrar en Agresti (2007) 2.6.3. (cont.)

gung - Restablece a Monica

2) Usted afirma que la aleatoriedad es más aleatoria de lo que creemos. Puedo adivinar qué quieres decir con eso (no he tenido la oportunidad de escuchar el episodio de Radiolab que vinculas, pero lo haré). Curiosamente, siempre les he dicho a los estudiantes que la aleatoriedad es menos aleatoria de lo que crees. Me refiero aquí a la percepción de rayas (por ejemplo, en juegos de azar). La gente cree que los eventos aleatorios deberían alternar mucho más de lo que realmente hacen los eventos aleatorios, y como resultado creen que ven rayas. Ver Falk (1997) Dar sentido a la aleatoriedad Psych Rev 104,2. Una vez más, no te equivocas, solo alimento para pensar.

gung - Restablece a Monica

Gracias @gung por tu aporte. En realidad no he oído hablar del valor medio, aunque tiene sentido. No estoy seguro de si es algo que mencionaría al enseñar estadísticas básicas, ya que puede dar la sensación de perder la sensación práctica que trato de dar. Con respecto a la aleatoriedad, queremos decir exactamente lo mismo: cuando vemos un número verdaderamente aleatorio, nos engañan al pensar que hay un patrón. Creo que escuché en la locura de predicción del podcast de Freakonomics que ...

Max Gordon

... a lo largo de los años, la mente humana ha aprendido que no detectar un depredador es más costoso que pensar que probablemente no sea nada. Me gusta esa analogía y trato de decirles a mis colegas que una de las principales razones para usar estadísticas es ayudarnos con este defecto con el que todos nacemos.

Max Gordon

Suponga que quiere probar la hipótesis de que la altura promedio de los hombres es "5 pies 7 pulgadas". Selecciona una muestra aleatoria de hombres, mide sus alturas y calcula la media de la muestra. Su hipótesis entonces es:

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

En la situación anterior, realiza una prueba de dos colas ya que rechazaría su valor nulo si el promedio de la muestra es demasiado bajo o demasiado alto.

En este caso, el valor p representa la probabilidad de obtener una media muestral que es al menos tan extrema como la que obtuvimos realmente suponiendo que el valor nulo es verdadero. Por lo tanto, si observamos que la media de la muestra es "5 pies y 8 pulgadas", entonces el valor p representará la probabilidad de que observemos alturas mayores que "5 pies y 8 pulgadas" o alturas menores que "5 pies y 6 pulgadas" siempre que el valor nulo es verdad.

Si, por otro lado, su alternativa se enmarca así:

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

En la situación anterior, haría una prueba de una cola en el lado derecho. La razón es que preferiría rechazar el valor nulo a favor de la alternativa solo si la media de la muestra es extremadamente alta.

La interpretación del valor p se mantiene igual con el ligero matiz de que ahora estamos hablando de la probabilidad de obtener una media muestral mayor que la que obtuvimos realmente. Por lo tanto, si observamos que la media de la muestra es "5 pies y 8 pulgadas", entonces el valor p representará la probabilidad de que observemos alturas mayores que "5 pies y 8 pulgadas" siempre que el valor nulo sea verdadero.

varty
fuente

H_{A}

$H_A$

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$

@chl estoy de acuerdo. Sin embargo, para una persona a la que recién se le están presentando ideas estadísticas, volver a escribir el valor nulo para una prueba de una cola puede ser una distracción cuando se centra en cómo y por qué cambian las cosas con respecto a la interpretación del valor p.

varty

Lo suficientemente justo. Sin embargo, vale la pena mencionarlo, incluso con fines de enseñanza.

chl

Explicando las pruebas de dos colas

Respuestas:

Mi forma de explicar el cálculo de los valores p y las colas

Reflexiones ligeramente fuera de tema

El código