¿Los valores p más pequeños son más convincentes?

31

He estado leyendo sobre valores , tasas de error tipo 1, niveles de significancia, cálculos de potencia, tamaños de efectos y el debate de Fisher vs Neyman-Pearson. Esto me ha dejado un poco abrumado. Pido disculpas por el muro de texto, pero sentí que era necesario proporcionar una visión general de mi comprensión actual de estos conceptos, antes de pasar a mis preguntas reales.p


Por lo que he reunido, un valor es simplemente una medida de sorpresa, la probabilidad de obtener un resultado al menos igual de extrema, dado que la hipótesis nula es cierta. Originalmente, Fisher pretendía que fuera una medida continua.p

En el marco de Neyman-Pearson, selecciona de antemano un nivel de significación y lo utiliza como punto de corte (arbitrario). El nivel de significancia es igual a la tasa de error tipo 1. Se define por la frecuencia a largo plazo, es decir, si repitiera un experimento 1000 veces y la hipótesis nula es cierta, aproximadamente 50 de esos experimentos tendrían un efecto significativo , debido a la variabilidad del muestreo. Al elegir un nivel de significancia, nos estamos protegiendo de estos falsos positivos con una cierta probabilidad. valores tradicionalmente no aparecen en este marco.P

Si encontramos un valor de 0.01, esto no significa que la tasa de error de tipo 1 sea 0.01, el error de tipo 1 se indica a priori. Creo que este es uno de los principales argumentos en el debate de Fisher vs NP, porque los valores menudo se informan como 0.05 *, 0.01 **, 0.001 ***. Esto podría inducir a error a las personas a decir que el efecto es significativo con un cierto valor , en lugar de un cierto valor de significación.pppp

También me doy cuenta de que el valor es una función del tamaño de la muestra. Por lo tanto, no se puede usar como una medida absoluta. Un valor pequeño podría apuntar a un efecto pequeño y no relevante en un experimento de muestra grande. Para contrarrestar esto, es importante realizar un cálculo del tamaño de potencia / efecto al determinar el tamaño de la muestra para su experimento. valores nos dicen si hay un efecto, no qué tan grande es. Ver Sullivan 2012 .p PppP

Mi pregunta: ¿cómo puedo conciliar los hechos de que el valor es una medida de sorpresa (más pequeño = más convincente) mientras que al mismo tiempo no puede verse como una medida absoluta?p

Lo que me confunde es lo siguiente: ¿podemos tener más confianza en un valor pequeño que en uno grande? En el sentido de los pescadores, diría que sí, estamos más sorprendidos. En el marco de NP, elegir un nivel de significancia menor implicaría que nos estamos protegiendo con más fuerza contra los falsos positivos.p

Pero, por otro lado, los valores dependen del tamaño de la muestra. No son una medida absoluta. Por lo tanto, no podemos decir simplemente que 0.001593 es más significativo que 0.0439. Sin embargo, esto es lo que estaría implícito en el marco de Fisher: estaríamos más sorprendidos ante un valor tan extremo. Incluso hay discusión sobre el término altamente significativo como un nombre inapropiado: ¿Es incorrecto referirse a los resultados como "altamente significativo"?p

Escuché que los valores en algunos campos de la ciencia solo se consideran importantes cuando son menores que 0.0001, mientras que en otros campos, los valores alrededor de 0.01 ya se consideran altamente significativos.p

Preguntas relacionadas:

Zenit
fuente
Además, no olvide que un valor p "significativo" no le dice nada acerca de su teoría. Esto es incluso admitido por los defensores más ardientes: precisión de significación estadística: justificación, validez y utilidad. Siu L. Chow. CIENCIAS DEL COMPORTAMIENTO Y DEL CEREBRO (1998) 21, 169–239 Los datos se interpretan cuando se convierten en evidencia. Los supuestos en los que se basa una interpretación deben enumerarse y luego, si es posible, verificarse. ¿Qué se está midiendo?
Lívido
2
+1, pero le animo a que enfoque la pregunta y elimine las preguntas secundarias. Si le interesa por qué algunas personas argumentan que los intervalos de confianza son mejores que los valores p, haga una pregunta por separado (pero asegúrese de que no se haya hecho antes).
ameba dice Reinstate Monica
3
Aparte de eso, ¿cómo es que su pregunta no es un duplicado de ¿Por qué los valores p más bajos no son más pruebas contra el valor nulo? ¿Has visto ese hilo? Quizás pueda agregarlo a la lista al final de su publicación. Vea también una pregunta similar ¿ Qué sentido tiene comparar los valores p entre sí? , pero soy reacio a recomendar ese hilo, porque la respuesta aceptada allí es IMHO incorrecta / engañosa (vea la discusión en los comentarios).
ameba dice Reinstate Monica
2
Gelman tiene mucha relevancia que decir sobre los valores p. ej. 1. aquí (Gelman y Stern, Am.Stat. 2006 pdf) , 2. aquí en su blog , 3. su blog nuevamente y quizás también 4. aquí (Gelman, 2013 publicó comentario en otro documento, pdf)
Glen_b - Reinstale a Mónica
2
Gracias por los enlaces, @Glen_b; Conozco bien el documento de Gelman & Stern y a menudo me refiero a mí mismo, pero no he visto este documento de 2013 o su discusión antes. Sin embargo, me gustaría advertir a OP sobre la interpretación de Gelman & Stern en el contexto de su pregunta. G&S ofrece un buen ejemplo con dos estudios que estiman un efecto como y ; en un caso , en otro , pero la diferencia entre las estimaciones no es significativa. Es importante tener esto en cuenta, pero si ahora, después de la OP, preguntamos si el primer estudio es más convincente, ciertamente diría que sí. 10 ± 10 p < 0.01 p > 0.0525±1010±10p<0.01p>0.05
ameba dice Reinstate Monica

Respuestas:

18

¿Son los valores más pequeños "más convincentes"? Sí, por supuesto que lo son.p

En el marco de Fisher, el valor es una cuantificación de la cantidad de evidencia contra la hipótesis nula. La evidencia puede ser más o menos convincente; cuanto menor es el valor , más convincente es. Tenga en cuenta que en cualquier experimento con un tamaño de muestra fijo , el valor está relacionado monotónicamente con el tamaño del efecto, como @Scortchi señala muy bien en su respuesta (+1). Por lo tanto, los valores más pequeños corresponden a tamaños de efectos más grandes; ¡por supuesto que son más convincentes!p n p pppnpp

En el marco de Neyman-Pearson, el objetivo es obtener una decisión binaria: la evidencia es "significativa" o no lo es. Al elegir el umbral , garantizamos que no tendremos más de falsos positivos. Tenga en cuenta que diferentes personas pueden tener diferentes en mente al mirar los mismos datos; quizás cuando leo un artículo de un campo sobre el que soy escéptico, no consideraría personalmente como resultados "significativos" con, por ejemplo, aunque los autores los llamen significativos. Mi personal podría estar configurado en o algo así. Obviamente, cuanto menor sea la informadaα α p = 0.03 α 0.001 p pαααp=0.03α0.001p-valor, ¡los lectores más escépticos podrán convencer! Por lo tanto, nuevamente, los valores más bajos son más convincentes.p

La práctica estándar actual es combinar los enfoques de Fisher y Neyman-Pearson: si , entonces los resultados se denominan "significativos" y el valor de se informa [exactamente o aproximadamente] y se usa como una medida convincente (marcando con estrellas, usando expresiones como "altamente significativo", etc.); si , los resultados se denominan "no significativos" y eso es todo.p p > αp<αpp>α

Esto generalmente se conoce como un "enfoque híbrido", y de hecho es híbrido. Algunas personas argumentan que este híbrido es incoherente; Tiendo a estar en desacuerdo. ¿Por qué sería inválido hacer dos cosas válidas al mismo tiempo?

Otras lecturas:

ameba dice Reinstate Monica
fuente
1
(+1) Pero vea la Sección 4.4 del artículo de Michael Lew: algunos prefieren equiparar la cantidad de evidencia con la probabilidad que con el valor p, lo que hace la diferencia cuando se comparan los valores p de experimentos con diferentes espacios de muestreo. Entonces hablan de "indexar" o "calibrar" la evidencia / probabilidad.
Scortchi - Restablece a Monica
Lo siento, quería decir, más precisamente, que, en esta opinión, la "evidencia" (o "soporte") relativa para los diferentes valores que puede tomar un parámetro es la relación de sus funciones de probabilidad evaluadas para los datos observados. Entonces, en el ejemplo de Lew, uno de cada seis lanzamientos es la misma evidencia contra la hipótesis nula, independientemente de si el esquema de muestreo es binomial o binomial negativo; sin embargo, los valores p difieren: podría decirse que bajo un esquema de muestreo era menos probable que acumulara tanta evidencia contra el nulo. (Por supuesto, los derechos de la palabra "evidencia", como con "significativo", ...
Scortchi - Restablecer a Monica
... aún no se ha establecido firmemente.)
Scortchi - Restablece a Monica
Hmmm, muchas gracias por llamar mi atención sobre esta sección; Lo leí antes pero aparentemente perdí su importancia. Debo decir que en este momento estoy confundido por eso. Lew escribe que los valores p no deben "ajustarse" teniendo en cuenta las reglas de detención; pero no veo ningún ajuste en sus fórmulas 5-6. ¿Cuáles serían los valores p "no ajustados"?
ameba dice Reinstate Monica
1
@Scortchi: Hmmm. Realmente no entiendo por qué uno de estos valores p está "ajustado" y otro no; ¿Por qué no viceversa? No estoy del todo convencido por el argumento de Lew aquí, y ni siquiera lo entiendo completamente. Pensando en eso, encontré la pregunta de Lew de 2012 sobre el principio de probabilidad y los valores p, y publiqué una respuesta allí. El punto es que uno no necesita reglas de detención diferentes para obtener valores p diferentes; uno simplemente puede considerar diferentes estadísticas de prueba. Quizás podamos continuar discutiendo allí, agradecería su aporte.
ameba dice Reinstate Monica
9

No sé qué significa que los valores p más pequeños sean "mejores", o que "tengamos más confianza" en ellos. Pero considerar los valores de p como una medida de cuán sorprendidos deberíamos estar con los datos, si creemos que la hipótesis nula, parece bastante razonable; el valor p es una función monotónica del estadístico de prueba que ha elegidopara medir la discrepancia con la hipótesis nula en una dirección que le interese, calibrándola con respecto a sus propiedades bajo un procedimiento relevante de muestreo de una población o asignación aleatoria de tratamientos experimentales. "Importancia" se ha convertido en un término técnico para referirse a que los valores p están por encima o por debajo de algún valor especificado; por lo tanto, incluso aquellos que no tienen interés en especificar niveles de significancia y aceptar o rechazar hipótesis tienden a evitar frases como "altamente significativo": simple adhesión a la convención.

Con respecto a la dependencia de los valores p del tamaño de la muestra y el tamaño del efecto, quizás surja cierta confusión porque, por ejemplo, podría parecer que 474 caras de 1000 lanzamientos deberían ser menos sorprendentes que 2 de 10 para alguien que piensa que la moneda es justa, después de todo la proporción de la muestra solo se desvía un poco del 50% en el primer caso; sin embargo, los valores p son casi iguales. Pero verdadero o falso no admite grados; el valor p hace lo que se le pide: a menudo, los intervalos de confianza para un parámetro son realmente lo que se quiere evaluar con qué precisión se ha medido un efecto y la importancia práctica o teórica de su magnitud estimada.

Scortchi - Restablece a Monica
fuente
1
p=0.04p=0.000004
1

Gracias por los comentarios y lecturas sugeridas. He tenido más tiempo para reflexionar sobre este problema y creo que he logrado aislar mis principales fuentes de confusión.

  • Inicialmente, pensé que había una dicotomía entre ver el valor p como una medida de sorpresa versus afirmar que no es una medida absoluta. Ahora me doy cuenta de que estas declaraciones no necesariamente se contradicen entre sí. El primero nos permite tener más o menos confianza en la extrema (¿a diferencia incluso?) De un efecto observado, en comparación con otros resultados hipotéticos del mismo experimento. Mientras que este último solo nos dice que lo que podría considerarse un valor p convincente en un experimento, podría no ser impresionante en otro, por ejemplo, si los tamaños de muestra difieren.

  • El hecho de que algunos campos de la ciencia utilicen una línea de base diferente de valores p fuertes, podría ser un reflejo de la diferencia en los tamaños de muestra comunes (astronomía, experimentos clínicos, psicológicos) y / o un intento de transmitir el tamaño del efecto en un p- valor. Pero esto último es una combinación incorrecta de los dos.

  • La importancia es una pregunta de sí / no basada en el alfa que se eligió antes del experimento. Por lo tanto, un valor p no puede ser más significativo que otro, ya que son más pequeños o más grandes que el nivel de significancia elegido. Por otro lado, un valor p menor será más convincente que uno mayor (para un tamaño de muestra similar / experimento idéntico, como se mencionó en mi primer punto).

  • Los intervalos de confianza transmiten inherentemente el tamaño del efecto, lo que los convierte en una buena opción para protegerse contra los problemas mencionados anteriormente.

Zenit
fuente
0

El valor p no puede ser una medida de sorpresa porque es solo una medida de probabilidad cuando el nulo es verdadero. Si el nulo es verdadero, entonces cada valor posible de p es igualmente probable. Uno no puede sorprenderse de ningún valor p antes de decidir rechazar el valor nulo. Una vez que uno decide que hay un efecto, el significado del valor p desaparece. Uno simplemente lo informa como un enlace en una cadena inductiva relativamente débil para justificar el rechazo, o no, de la nula. Pero si fue rechazado, en realidad ya no tiene ningún significado.

John
fuente
1 por el hecho "cuando la hipótesis nula es verdadera entonces cada valor de p es igualmente probable '' Sin embargo, creo que esto es sólo para variables aleatorias continuas?
Tenga en cuenta que dije, cada valor "posible" de p es igualmente probable. Entonces esto es cierto para variables discretas o continuas. Con variables discretas, el número de valores posibles es menor.
John
H0
Creo que la respuesta principal demuestra que esto no es un problema. La razón por la que la distribución parece no uniforme es porque los posibles valores p están espaciados de manera desigual. Glenn incluso lo llama cuasi uniforme. Supongo que es posible que con algunas pruebas muy escasas de datos binomiales con N pequeñas, entonces tal vez la probabilidad de valores p específicos sea desigual, pero si considera la probabilidad de valores p en un rango dado, estará más cerca de ser uniforme.
John
1
H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45