¿Por qué los estadísticos nos desalientan de referirnos a los resultados como " altamente significativos" cuando el valor está muy por debajo del nivel α convencional de 0.05 ?
¿Es realmente incorrecto confiar en un resultado que tiene una probabilidad del 99.9% de no ser un error Tipo I ( ) más que un resultado que solo le da esa oportunidad al 99% ( p = 0.01 )?
Respuestas:
Creo que no hay mucho de malo en decir que los resultados son "altamente significativos" (aunque sí, es un poco descuidado).
Esto significa que si se hubiera establecido un nivel de significación mucho más pequeño , a pesar de ello has juzgado los resultados tan significativos. O, equivalentemente, si algunos de sus lectores tienen una mucho menor α en mente, entonces se puede juzgar todavía sus resultados como significativo.α α
Tenga en cuenta que el nivel de significancia está en el ojo del espectador, mientras que el valor p es (con algunas advertencias) una propiedad de los datos.α p
El término "altamente significativo" no es preciso y no necesita serlo. Es un juicio experto subjetivo, similar a observar un tamaño de efecto sorprendentemente grande y llamarlo "enorme" (o tal vez simplemente "muy grande"). No hay nada de malo en usar descripciones cualitativas y subjetivas de sus datos, incluso en la escritura científica; siempre que, por supuesto, también se presente el análisis cuantitativo objetivo.
Vea también algunos excelentes comentarios anteriores, +1 a @whuber, @Glen_b y @COOLSerdash.
fuente
Esta es una pregunta común.
Una pregunta similar puede ser "¿Por qué p <= 0.05 se considera significativo?" ( http://www.jerrydallal.com/LHSP/p05.htm )
@ Michael-Mayer dio una parte de la respuesta: la importancia es solo una parte de la respuesta. Con suficientes datos, generalmente algunos parámetros aparecerán como "significativos" (busque la corrección de Bonferroni). Las pruebas múltiples son un problema específico en genética donde los estudios grandes que buscan significancia son comunes y los valores p <10 -8 a menudo se requieren ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).
Además, un problema con muchos análisis es que fueron oportunistas y no planificados previamente (es decir, "si torturas los datos lo suficiente, la naturaleza siempre confesará" - Ronald Coase).
En general, si un análisis se planifica previamente (con una corrección de análisis repetido para el poder estadístico), puede considerarse significativo. A menudo, las pruebas repetidas por múltiples individuos o grupos son la mejor manera de confirmar que algo funciona (o no). Y la repetición de resultados suele ser la prueba correcta de importancia.
fuente
Una prueba es una herramienta para una decisión en blanco y negro, es decir, trata de responder una pregunta de sí / no como "¿hay un verdadero efecto de tratamiento?". A menudo, especialmente si el conjunto de datos es grande, tal pregunta es un desperdicio de recursos. ¿Por qué hacer una pregunta binaria si es posible obtener una respuesta a una pregunta cuantitativa como 'qué tan grande es el verdadero efecto del tratamiento?' que responde implícitamente también la pregunta sí / no? Por lo tanto, en lugar de responder una pregunta no informativa de sí / no con alta certeza, a menudo recomendamos el uso de intervalos de confianza que contienen mucha más información.
fuente