Tuve una discusión con un estadístico en 2009 donde afirmó que el valor exacto de un valor p es irrelevante: lo único que es importante es si es significativo o no. Es decir, un resultado no puede ser más significativo que otro; sus muestras, por ejemplo, provienen de la misma población o no.
Tengo algunos reparos con esto, pero tal vez pueda entender la ideología:
El umbral del 5% es arbitrario, es decir que p = 0.051 no es significativo y que p = 0.049 sí, no debería cambiar realmente la conclusión de su observación o experimento, a pesar de que un resultado es significativo y el otro no es significativo.
La razón por la que menciono esto ahora es que estoy estudiando para una maestría en Bioinformática, y después de hablar con personas en el campo, parece haber un impulso determinado para obtener un valor p exacto para cada conjunto de estadísticas que hacen. Por ejemplo, si 'logran' un valor p de p <1.9 × 10-12 , quieren demostrar cuán significativo es su resultado, y que este resultado es SUPER informativo. Este problema se ejemplifica con preguntas como: ¿Por qué no puedo obtener un valor p menor que 2.2e-16? , por lo que desean registrar un valor que indique que por casualidad esto sería MUCHO menos de 1 en un billón. Pero veo poca diferencia en demostrar que este resultado ocurriría menos de 1 en un billón en comparación con 1 en un billón.
Puedo apreciar entonces que p <0.01 muestra que hay menos del 1% de posibilidades de que esto ocurra, mientras que p <0.001 indica que un resultado como este es aún más improbable que el valor p antes mencionado, pero si sus conclusiones se sacan completamente ¿diferente? Después de todo, ambos son valores p significativos. La única forma en que puedo concebir querer registrar el valor p exacto es durante una corrección de Bonferroni por la cual el umbral cambia debido al número de comparaciones realizadas, disminuyendo así el error tipo I. Pero aún así, ¿por qué querría mostrar un valor p que sea 12 órdenes de magnitud más pequeño que su umbral de importancia?
¿Y no es la aplicación de la corrección de Bonferroni en sí misma un poco arbitraria también? En el sentido de que inicialmente la corrección se considera muy conservadora y, por lo tanto, hay otras correcciones que uno puede elegir para acceder al nivel de significancia que el observador podría usar para sus comparaciones múltiples. Pero debido a esto, no es el punto en el que algo se vuelve significativo, esencialmente variable, dependiendo de qué estadísticas quiera usar el investigador. ¿Deberían las estadísticas estar tan abiertas a la interpretación?
En conclusión, ¿no deberían ser menos subjetivas las estadísticas (aunque supongo que la necesidad de que sean subjetivas es consecuencia de un sistema multivariado), pero en última instancia quiero alguna aclaración: ¿puede algo ser más significativo que otra cosa? ¿Y será suficiente p <0.001 con respecto a tratar de registrar el valor p exacto?
fuente
Respuestas:
La tasa de error de tipo 1 / falso rechazo no es completamente arbitraria, pero sí, está cerca. Es algo preferible a α = .051 porque es menos complejo cognitivamente (a las personas les gustan los números redondos y los múltiplos de cinco ). Es un compromiso decente entre el escepticismo y la practicidad, aunque tal vez un poco desactualizado: los métodos modernos y los recursos de investigación pueden hacer que estándares más altos (es decir, valores p más bajos) sean preferibles, si los estándares deben existir ( Johnson, 2013 )α = .05 α = .051 pags .
En mi opinión, el mayor problema que la elección del umbral es la opción a menudo no examinada de usar un umbral donde no es necesario o útil. En situaciones en las que se debe hacer una elección práctica, puedo ver el valor, pero mucha investigación básica no requiere la decisión de descartar la evidencia y renunciar a la posibilidad de rechazar el nulo solo porque la evidencia de una muestra dada en su contra se queda corta. de casi cualquier umbral razonable. Sin embargo, gran parte de los autores de esta investigación se sienten obligados a hacerlo por convención y se resisten incómodamente, inventando términos como significado "marginal" para pedir atención cuando pueden sentir que se escapa porque su público a menudo no se preocupa por s ≥ . 05 .pags ≥ .05 pags interpretación del valor, verá mucha disensión sobre la interpretación de los valores por binario / decisiones con respecto al nulo.pags
fail to
reject
fail to
reject
Referencias
- Johnson, VE (2013). Normas revisadas para la evidencia estadística. Actas de la Academia Nacional de Ciencias, 110 (48), 19313–19317. Recuperado de http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Para P o no para P: Sobre la naturaleza evidencial de los valores P y su lugar en la inferencia científica. arXiv: 1311.0081 [stat.ME]. Recuperado de http://arxiv.org/abs/1311.0081 .
fuente
fail to
/reject
decisión, creo que es mucho mejor para hacer el juicio de lo valioso de una evidencia se basa en mucho más que la probabilidad de que la muestra dada la nula.Me parece que, si un valor es significativo, su valor exacto es significativo.
El valor p responde a esta pregunta:
¿Qué pasa con esta definición hace que un valor exacto no tenga sentido?
Esta es una pregunta diferente de las sobre valores extremos de p. El problema con las declaraciones que involucran p con muchos ceros es acerca de qué tan bien podemos estimar p en los extremos. Como no podemos hacerlo muy bien, no tiene sentido usar estimaciones tan precisas de p. Esta es la misma razón por la que no decimos que p = 0.0319281010012981. No conocemos esos últimos dígitos con ninguna confianza.
¿Deberían ser diferentes nuestras conclusiones si p <0.001 en lugar de p <0.05? O, para usar números precisos, ¿deberían ser diferentes nuestras conclusiones si p = 0.00023 en lugar de p = 0.035?
Creo que el problema es con la forma en que generalmente concluimos cosas sobre p. Decimos "significativo" o "no significativo" en base a un nivel arbitrario. Si usamos estos niveles arbitrarios, entonces, sí, nuestras conclusiones serán diferentes. Pero no es así como deberíamos pensar sobre estas cosas. Deberíamos analizar el peso de la evidencia y las pruebas estadísticas son solo una parte de esa evidencia. Conectaré (una vez más) los "criterios MÁGICOS" de Robert Abelson:
Magnitud: ¿qué tan grande es el efecto?
Articulación: ¿con qué precisión se dice? ¿Hay muchas excepciones?
Generalidad: ¿a qué grupo se aplica?
Intereses: ¿le importará a la gente?
Credibilidad: ¿tiene sentido?
Es la combinación de todos estos lo que importa. Tenga en cuenta que Abelson no menciona los valores de p en absoluto, aunque sí son una especie de híbrido de magnitud y articulación.
fuente