¿Es suficiente un valor p de 0.04993 para rechazar la hipótesis nula?

20

En una prueba de significación estadística de rangos con signo de Wilcoxon, encontramos algunos datos que producen un valor de 0.04993 . Con un umbral de p < 0.05 , ¿es este resultado suficiente para rechazar la hipótesis nula, o es más seguro decir que la prueba no fue concluyente, ya que si redondeamos el valor p a 3 decimales se convierte en 0.050 ?p0.04993p<0.050.050

Islam El-Nabarawy
fuente
24
0.04993 <0.05, por lo que es más bajo. Su instinto es bueno de que no se puede confiar en ningún valor P a varios decimales, pero si el programa dice menos de 0.05, la gente generalmente lo toma como entregado. El problema real aquí es hacer un fetiche de las pruebas de significancia de nivel fijo de modo que <0.05 significa "real", "publicable", "causa de felicidad" y lo contrario significa "ilusorio", "no publicable", "causa de miseria" . La mayoría de los buenos textos introductorios sobre estadísticas discuten esto hasta cierto punto. Uno bueno es Freedman, Pisani, Purves, Statistics . Nueva York: WW Norton, cualquier edición.
Nick Cox
8
Tiene que preguntarse cuál sería su decisión si el valor p es 0.051? ¿Qué pasa si es 0.049? ¿Tomarías decisiones diferentes? ¿Por qué?
AlefSin
2
Gracias por tus comentarios. En nuestro caso, no estamos considerando si los datos son publicables o no, etc. Simplemente estamos considerando hacer una declaración en el documento sobre la importancia estadística de este resultado, y queremos asegurarnos de que nuestra declaración no sea incorrecta o inexacta .
Islam El-Nabarawy
3
Informar P = 0.04993 es lo que me viene a la mente. Es difícil predecir los comentarios de los revisores o editores. Si desea redondear, especificar una convención de redondeo consistente siempre es una buena idea y es ampliamente aceptable. Algunas personas redondearían a 3 dp y también podrían usar algún tipo de convención de estrellas, por lo que informar 0.050 (3 dp) y marcarlo como <0.05 son consistentes.
Nick Cox
2
No sé ... ¡tal vez deberíamos ejecutar un doble bootstrap y calcular un intervalo de confianza para el valor ! Con toda honestidad, informaría: "Los hallazgos fueron casi significativos, 0.049 < p < 0.050 ". En ese momento, estás partiendo pelos, y todos de repente recuerdan que las probabilidades de 1/20 de un falso positivo es una forma completamente arbitraria de ejecutar la ciencia. p0.049<p<0.050
AdamO

Respuestas:

21

Hay dos problemas aquí:

1) Si está haciendo una prueba de hipótesis formal (y si está yendo tan lejos como para citar un valor p en mi libro, ya lo está haciendo), ¿cuál es la regla de rechazo formal?

Al comparar estadísticas de prueba con valores críticos, el valor crítico está en la región de rechazo . Si bien esta formalidad no importa mucho cuando todo es continuo, sí importa cuando la distribución de la estadística de prueba es discreta.

En consecuencia, al comparar valores p y niveles de significación, la regla es:

          Rechazar si pα

Tenga en cuenta que, incluso si redondeó su valor p a 0.05, incluso si el valor p era exactamente 0.05, formalmente, aún debe rechazarlo .

2) En términos de 'cuál es nuestro valor p que nos dice', suponiendo que incluso pueda interpretar un valor p como 'evidencia contra el nulo' (digamos que la opinión al respecto está algo dividida), 0.0499 y 0.0501 no están Realmente decir cosas diferentes sobre los datos (los tamaños de los efectos tienden a ser casi idénticos).

Mi sugerencia sería (1) rechazar formalmente el nulo, y tal vez señalar que incluso si fuera exactamente 0.05, aún debería rechazarse; (2) tenga en cuenta que no hay nada particularmente especial sobre α=0.05 y está muy cerca de ese límite, incluso un umbral de significación ligeramente menor no conduciría al rechazo.

Glen_b -Reinstate a Monica
fuente
2
Pero, de nuevo, puede usar argumentos muy similares para no rechazar nulo. No hay nada especial en 0.05, si hubiera elegido 0.06 como su límite, probablemente no estaría haciendo la pregunta, pero la situación no sería muy diferente ... Más bien, en estas situaciones, preguntaría: "¿cuál es el verdadero- significado de la vida de este resultado? ". Por ejemplo, si se tratara de un experimento biológico, buscaría la importancia biológica del resultado específico, informaría el valor p tal como es y, más bien, comentaría la biología.
nico
@nico este ya era el punto de mi artículo (2); argumenta en contra de la excesiva dependencia del enfoque formal en (1)
Glen_b -Reinstate Monica
Gracias Glen y Nico. Esta parte de los datos era secundaria a nuestros experimentos, por lo que terminamos informando el valor tal como está. En cualquier caso, estoy marcando esto como la respuesta aceptada. Gracias nuevamente a todos los que participaron con respuestas o comentarios.
Islam El-Nabarawy
5

Se encuentra en el ojo del espectador.

αα=0.05

Así que realmente se reduce a lo que AlefSin comentó antes. No puede haber una "respuesta correcta" a su pregunta. Informe lo que obtuvo, redondeado o no.

Existe una gran literatura sobre el "significado de la importancia"; véase, por ejemplo, el reciente artículo de uno de los principales estadísticos alemanes, Walter Krämer, sobre "El culto a la significación estadística: lo que los economistas deben y no deben hacer para que sus datos hablen", Schmollers Jahrbuch 131 , 455-468, 2011.

Skullduggery
fuente
-6

pags=0,05

El problema clave es esta frase: "Nos encontramos con algunos datos ...".

pagspags

Hay un nombre para este tipo de malversación estadística: dragado de datos . Soy ambivalente sobre informarlo en el periódico como una hipótesis interesante; ¿Tiene alguna razón física que espera que se mantenga?

Hay, sin embargo, una salida. Tal vez se decidió a priori para realizar sólo esta una prueba en sólo esta un conjunto de datos. Lo escribiste en tu cuaderno de laboratorio, frente a alguien para poder probarlo más tarde. Entonces hiciste tu prueba.

pags=0,05

Mike McCoy
fuente
14
Esto puede depender demasiado de una elección particular de fraseo; estás asumiendo bastante de lo que podría ser simplemente una mala elección de palabras: no todos aquí tienen el inglés como primer idioma. Definitivamente vale la pena plantearlo como un problema potencial, pero simplemente decir las cosas tan calvamente ("absolutamente no") implica que sabes más de lo que podemos decir de lo que hay aquí. (Por otra parte, la referencia a un 'cuaderno de laboratorio' implica el PO está haciendo un trabajo en un laboratorio Dudo que esto es el caso Una vez más, da a entender que sabe más de lo que tenemos aquí...)
Glen_b -Reinstate Mónica
10
Mike McCoy, gracias por tu respuesta, pero me temo que Glen_b es correcto en este caso. No soy un hablante nativo de inglés, y aunque me esfuerzo por escribir y hablar con la mayor fluidez que me permitan mis habilidades, el uso y la connotación continúan eludiéndome. Entonces, en este caso particular, no probamos cosas diferentes hasta que encontramos algo que fuera significativo. En realidad, lo que estábamos tratando de demostrar es que no hubo un aumento estadísticamente significativo en algún valor de error, y en un caso particular descubrimos que el error se redujo realmente, y cuando realizamos la prueba W, aquí es donde obtuvimos el 0.0499 .
Islam El-Nabarawy
1
Mike, tampoco vi un problema en la formulación de la pregunta. Y parece que nadie más vio signos de espionaje de datos, minería, dragado, lo que sea aquí ... Y definitivamente está en el ojo del espectador. No existe un hecho matemático sino una regla de decisión elegida por el estadístico. Vuelva a leer lo que AlefSin, Glen en su punto (2) y yo escribimos.
Skullduggery
3
@ IslamEl-Nabarawy Si desea establecer equivalencia / falta de diferencia, tiene muchos otros problemas además de cómo interpretar un valor cercano al umbral o la indagación potencial de datos. Simplemente encontrar un valor p ligeramente por encima de .05 (o cualquier nivel de error que elija) definitivamente no es suficiente. Busque “pruebas de equivalencia” aquí y en otros lugares o haga una pregunta específicamente sobre eso porque es un problema completamente diferente.
Gala del
44
"Sin embargo, hay una salida. Tal vez decidiste a priori realizar solo esta prueba en este único conjunto de datos. Lo escribiste en tu cuaderno de laboratorio, frente a alguien para poder probarlo más tarde. Luego hiciste tu prueba. Si hiciste esto, entonces tu resultado es válido en el nivel p = 0.05, y puedes respaldarlo a escépticos como yo. De lo contrario, lo siento, no es un resultado estadísticamente significativo " Habla de culpable hasta que se demuestre inocente. Entonces, en ausencia de evidencia forense que descarte la deshonestidad académica, ¿un análisis no tiene valor? Sheesh
GoF_Logistic