He estado leyendo sobre valores , tasas de error tipo 1, niveles de significancia, cálculos de potencia, tamaños de efectos y el debate de Fisher vs Neyman-Pearson. Esto me ha dejado un poco abrumado. Pido disculpas por el muro de texto, pero sentí que era necesario proporcionar una visión general de mi comprensión actual de estos conceptos, antes de pasar a mis preguntas reales.
Por lo que he reunido, un valor es simplemente una medida de sorpresa, la probabilidad de obtener un resultado al menos igual de extrema, dado que la hipótesis nula es cierta. Originalmente, Fisher pretendía que fuera una medida continua.
En el marco de Neyman-Pearson, selecciona de antemano un nivel de significación y lo utiliza como punto de corte (arbitrario). El nivel de significancia es igual a la tasa de error tipo 1. Se define por la frecuencia a largo plazo, es decir, si repitiera un experimento 1000 veces y la hipótesis nula es cierta, aproximadamente 50 de esos experimentos tendrían un efecto significativo , debido a la variabilidad del muestreo. Al elegir un nivel de significancia, nos estamos protegiendo de estos falsos positivos con una cierta probabilidad. valores tradicionalmente no aparecen en este marco.
Si encontramos un valor de 0.01, esto no significa que la tasa de error de tipo 1 sea 0.01, el error de tipo 1 se indica a priori. Creo que este es uno de los principales argumentos en el debate de Fisher vs NP, porque los valores menudo se informan como 0.05 *, 0.01 **, 0.001 ***. Esto podría inducir a error a las personas a decir que el efecto es significativo con un cierto valor , en lugar de un cierto valor de significación.p
También me doy cuenta de que el valor es una función del tamaño de la muestra. Por lo tanto, no se puede usar como una medida absoluta. Un valor pequeño podría apuntar a un efecto pequeño y no relevante en un experimento de muestra grande. Para contrarrestar esto, es importante realizar un cálculo del tamaño de potencia / efecto al determinar el tamaño de la muestra para su experimento. valores nos dicen si hay un efecto, no qué tan grande es. Ver Sullivan 2012 .p P
Mi pregunta: ¿cómo puedo conciliar los hechos de que el valor es una medida de sorpresa (más pequeño = más convincente) mientras que al mismo tiempo no puede verse como una medida absoluta?
Lo que me confunde es lo siguiente: ¿podemos tener más confianza en un valor pequeño que en uno grande? En el sentido de los pescadores, diría que sí, estamos más sorprendidos. En el marco de NP, elegir un nivel de significancia menor implicaría que nos estamos protegiendo con más fuerza contra los falsos positivos.
Pero, por otro lado, los valores dependen del tamaño de la muestra. No son una medida absoluta. Por lo tanto, no podemos decir simplemente que 0.001593 es más significativo que 0.0439. Sin embargo, esto es lo que estaría implícito en el marco de Fisher: estaríamos más sorprendidos ante un valor tan extremo. Incluso hay discusión sobre el término altamente significativo como un nombre inapropiado: ¿Es incorrecto referirse a los resultados como "altamente significativo"?
Escuché que los valores en algunos campos de la ciencia solo se consideran importantes cuando son menores que 0.0001, mientras que en otros campos, los valores alrededor de 0.01 ya se consideran altamente significativos.
Preguntas relacionadas:
Respuestas:
¿Son los valores más pequeños "más convincentes"? Sí, por supuesto que lo son.p
En el marco de Fisher, el valor es una cuantificación de la cantidad de evidencia contra la hipótesis nula. La evidencia puede ser más o menos convincente; cuanto menor es el valor , más convincente es. Tenga en cuenta que en cualquier experimento con un tamaño de muestra fijo , el valor está relacionado monotónicamente con el tamaño del efecto, como @Scortchi señala muy bien en su respuesta (+1). Por lo tanto, los valores más pequeños corresponden a tamaños de efectos más grandes; ¡por supuesto que son más convincentes!p n p pp p n p p
En el marco de Neyman-Pearson, el objetivo es obtener una decisión binaria: la evidencia es "significativa" o no lo es. Al elegir el umbral , garantizamos que no tendremos más de falsos positivos. Tenga en cuenta que diferentes personas pueden tener diferentes en mente al mirar los mismos datos; quizás cuando leo un artículo de un campo sobre el que soy escéptico, no consideraría personalmente como resultados "significativos" con, por ejemplo, aunque los autores los llamen significativos. Mi personal podría estar configurado en o algo así. Obviamente, cuanto menor sea la informadaα α p = 0.03 α 0.001 p pα α α p=0.03 α 0.001 p -valor, ¡los lectores más escépticos podrán convencer! Por lo tanto, nuevamente, los valores más bajos son más convincentes.p
La práctica estándar actual es combinar los enfoques de Fisher y Neyman-Pearson: si , entonces los resultados se denominan "significativos" y el valor de se informa [exactamente o aproximadamente] y se usa como una medida convincente (marcando con estrellas, usando expresiones como "altamente significativo", etc.); si , los resultados se denominan "no significativos" y eso es todo.p p > αp<α p p>α
Esto generalmente se conoce como un "enfoque híbrido", y de hecho es híbrido. Algunas personas argumentan que este híbrido es incoherente; Tiendo a estar en desacuerdo. ¿Por qué sería inválido hacer dos cosas válidas al mismo tiempo?
Otras lecturas:
¿Es el "híbrido" entre los enfoques de Fisher y Neyman-Pearson para las pruebas estadísticas realmente una "mezcla incoherente"? - Mi pregunta sobre el "híbrido". Generó un poco de discusión, pero todavía no estoy satisfecho con ninguna de las respuestas, y planeo volver a ese hilo en algún momento.
¿Es incorrecto referirse a los resultados como "altamente significativos"? - vea mi respuesta de ayer, que esencialmente dice: no está mal (pero quizás un poco descuidado).
¿Por qué los valores p más bajos no son más pruebas contra el nulo? Argumentos de Johansson 2011 : un ejemplo de un documento anti-Fisher que argumenta que los valores no proporcionan evidencia contra el nulo; la respuesta principal de @Momo hace un buen trabajo al desacreditar los argumentos. Mi respuesta a la pregunta del título es: Pero, por supuesto, lo son.p
fuente
No sé qué significa que los valores p más pequeños sean "mejores", o que "tengamos más confianza" en ellos. Pero considerar los valores de p como una medida de cuán sorprendidos deberíamos estar con los datos, si creemos que la hipótesis nula, parece bastante razonable; el valor p es una función monotónica del estadístico de prueba que ha elegidopara medir la discrepancia con la hipótesis nula en una dirección que le interese, calibrándola con respecto a sus propiedades bajo un procedimiento relevante de muestreo de una población o asignación aleatoria de tratamientos experimentales. "Importancia" se ha convertido en un término técnico para referirse a que los valores p están por encima o por debajo de algún valor especificado; por lo tanto, incluso aquellos que no tienen interés en especificar niveles de significancia y aceptar o rechazar hipótesis tienden a evitar frases como "altamente significativo": simple adhesión a la convención.
Con respecto a la dependencia de los valores p del tamaño de la muestra y el tamaño del efecto, quizás surja cierta confusión porque, por ejemplo, podría parecer que 474 caras de 1000 lanzamientos deberían ser menos sorprendentes que 2 de 10 para alguien que piensa que la moneda es justa, después de todo la proporción de la muestra solo se desvía un poco del 50% en el primer caso; sin embargo, los valores p son casi iguales. Pero verdadero o falso no admite grados; el valor p hace lo que se le pide: a menudo, los intervalos de confianza para un parámetro son realmente lo que se quiere evaluar con qué precisión se ha medido un efecto y la importancia práctica o teórica de su magnitud estimada.
fuente
Gracias por los comentarios y lecturas sugeridas. He tenido más tiempo para reflexionar sobre este problema y creo que he logrado aislar mis principales fuentes de confusión.
Inicialmente, pensé que había una dicotomía entre ver el valor p como una medida de sorpresa versus afirmar que no es una medida absoluta. Ahora me doy cuenta de que estas declaraciones no necesariamente se contradicen entre sí. El primero nos permite tener más o menos confianza en la extrema (¿a diferencia incluso?) De un efecto observado, en comparación con otros resultados hipotéticos del mismo experimento. Mientras que este último solo nos dice que lo que podría considerarse un valor p convincente en un experimento, podría no ser impresionante en otro, por ejemplo, si los tamaños de muestra difieren.
El hecho de que algunos campos de la ciencia utilicen una línea de base diferente de valores p fuertes, podría ser un reflejo de la diferencia en los tamaños de muestra comunes (astronomía, experimentos clínicos, psicológicos) y / o un intento de transmitir el tamaño del efecto en un p- valor. Pero esto último es una combinación incorrecta de los dos.
La importancia es una pregunta de sí / no basada en el alfa que se eligió antes del experimento. Por lo tanto, un valor p no puede ser más significativo que otro, ya que son más pequeños o más grandes que el nivel de significancia elegido. Por otro lado, un valor p menor será más convincente que uno mayor (para un tamaño de muestra similar / experimento idéntico, como se mencionó en mi primer punto).
Los intervalos de confianza transmiten inherentemente el tamaño del efecto, lo que los convierte en una buena opción para protegerse contra los problemas mencionados anteriormente.
fuente
El valor p no puede ser una medida de sorpresa porque es solo una medida de probabilidad cuando el nulo es verdadero. Si el nulo es verdadero, entonces cada valor posible de p es igualmente probable. Uno no puede sorprenderse de ningún valor p antes de decidir rechazar el valor nulo. Una vez que uno decide que hay un efecto, el significado del valor p desaparece. Uno simplemente lo informa como un enlace en una cadena inductiva relativamente débil para justificar el rechazo, o no, de la nula. Pero si fue rechazado, en realidad ya no tiene ningún significado.
fuente