¿Es incorrecto referirse a los resultados como "altamente significativos"?

18

¿Por qué los estadísticos nos desalientan de referirnos a los resultados como " altamente significativos" cuando el valor está muy por debajo del nivel α convencional de 0.05 ?pα0.05

¿Es realmente incorrecto confiar en un resultado que tiene una probabilidad del 99.9% de no ser un error Tipo I ( ) más que un resultado que solo le da esa oportunidad al 99% ( p = 0.01 )?p=0.001p=0.01

z8080
fuente
16
Puede valer la pena leer la respuesta de @ gung aquí . En resumen: para la decisión "significativo versus no significativo" o "rechazar hipótesis nula versus no rechazar hipótesis nula" solo importa si el valor está por debajo de su α que estableció antes del estudio (Neyman & Pearson) . Por otro lado, puede considerar el valor p como una medida continua de evidencia contra la hipótesis nula que no tiene "límite" (Fisher). pαp
COOLSerdash
10
Parece tener un error grave sobre los valores p (los valores p no son probabilidades de error) que, si se corrigen, podrían ayudarlo a comprender por qué podría escuchar ciertas cosas de los estadísticos.
chico
10
Confieso que a veces uso frases como "altamente significativo". En otra parte de los informes, muchos de los resultados iniciales podrían tener que ajustarse para múltiples pruebas, en donde "altamente significativo" adquiere el significado más técnico de "sigue siendo significativo incluso después del ajuste apropiado para comparaciones múltiples". Incluso cuando todos los lectores están de acuerdo con el uso apropiado de (que es raro para los análisis utilizados por múltiples partes interesadas), lo que es "significativo" o no depende del conjunto de hipótesis que cada lector tenía en mente antes de mirar el informe. α
whuber
77
No todos los estadísticos dicen que está mal. Utilizo el término yo mismo en ocasiones (ciertamente raras), por ejemplo, para indicar que en estos datos el nulo habría sido rechazado por personas que operan a niveles de significancia sustancialmente más bajos que el que estaba usando, pero es importante no darle más significado. de lo que tiene Simplemente diría que se debe tener precaución, a veces bastante, al interpretar el significado de dicha frase, en lugar de ser específicamente errónea . Algunos de los puntos aquí serían relevantes.
Glen_b -Reinstate Monica
77
(ctd) ... en comparación, creo que una preocupación mayor es la gente que usa pruebas de hipótesis que simplemente no responden a su pregunta de interés (lo cual creo que es el caso muy a menudo). Es mejor centrarse en ese tema evidente e importante, en lugar de ser demasiado dogmático sobre una infelicidad menor en la forma en que expresan un valor p muy pequeño.
Glen_b -Reinstale Monica

Respuestas:

17

Creo que no hay mucho de malo en decir que los resultados son "altamente significativos" (aunque sí, es un poco descuidado).

Esto significa que si se hubiera establecido un nivel de significación mucho más pequeño , a pesar de ello has juzgado los resultados tan significativos. O, equivalentemente, si algunos de sus lectores tienen una mucho menor α en mente, entonces se puede juzgar todavía sus resultados como significativo.αα

Tenga en cuenta que el nivel de significancia está en el ojo del espectador, mientras que el valor p es (con algunas advertencias) una propiedad de los datos.αp

p=1010p=0.04α=0.05pp. Ver ¿Son los valores p más pequeños más convincentes? para más discusión

El término "altamente significativo" no es preciso y no necesita serlo. Es un juicio experto subjetivo, similar a observar un tamaño de efecto sorprendentemente grande y llamarlo "enorme" (o tal vez simplemente "muy grande"). No hay nada de malo en usar descripciones cualitativas y subjetivas de sus datos, incluso en la escritura científica; siempre que, por supuesto, también se presente el análisis cuantitativo objetivo.


Vea también algunos excelentes comentarios anteriores, +1 a @whuber, @Glen_b y @COOLSerdash.

ameba dice Reinstate Monica
fuente
2
PP<0,05
No es descuidado en absoluto. Está bien documentado por tener una definición formal.
Búho
3

Esta es una pregunta común.

Una pregunta similar puede ser "¿Por qué p <= 0.05 se considera significativo?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer dio una parte de la respuesta: la importancia es solo una parte de la respuesta. Con suficientes datos, generalmente algunos parámetros aparecerán como "significativos" (busque la corrección de Bonferroni). Las pruebas múltiples son un problema específico en genética donde los estudios grandes que buscan significancia son comunes y los valores p <10 -8 a menudo se requieren ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Además, un problema con muchos análisis es que fueron oportunistas y no planificados previamente (es decir, "si torturas los datos lo suficiente, la naturaleza siempre confesará" - Ronald Coase).

En general, si un análisis se planifica previamente (con una corrección de análisis repetido para el poder estadístico), puede considerarse significativo. A menudo, las pruebas repetidas por múltiples individuos o grupos son la mejor manera de confirmar que algo funciona (o no). Y la repetición de resultados suele ser la prueba correcta de importancia.

Bill Denney
fuente
2

Una prueba es una herramienta para una decisión en blanco y negro, es decir, trata de responder una pregunta de sí / no como "¿hay un verdadero efecto de tratamiento?". A menudo, especialmente si el conjunto de datos es grande, tal pregunta es un desperdicio de recursos. ¿Por qué hacer una pregunta binaria si es posible obtener una respuesta a una pregunta cuantitativa como 'qué tan grande es el verdadero efecto del tratamiento?' que responde implícitamente también la pregunta sí / no? Por lo tanto, en lugar de responder una pregunta no informativa de sí / no con alta certeza, a menudo recomendamos el uso de intervalos de confianza que contienen mucha más información.

Michael M
fuente
2
+1 Aunque podría ser más explícito en cómo esto responde la pregunta del OP (no es tan obvio).
@Matthew: estoy totalmente de acuerdo.
Michael M
Gracias a Michael. Pero supongo que los intervalos de confianza (que dan la respuesta de "escala continua") se referirían al tamaño del efecto, ¿verdad? Aun así, ¿no existe la necesidad de una respuesta binaria para complementar la respuesta continua, es decir, si este efecto (cuyo tamaño es descrito por los IC) cumple con el nivel α acordado? ¿O tal vez incluso puede dar CI para el valor p en sí?
z8080
(A) "Tamaño del efecto" generalmente se refiere a una versión estandarizada del efecto del tratamiento y, por lo tanto, es menos fácil de interpretar que el efecto en sí. (B) CI para valores de p a veces se agregan para valores de p simulados para expresar la incertidumbre de la simulación. (C) Si su nivel es 0.05, entonces, en casi todas las situaciones de prueba, la decisión de blanco / negro de la prueba puede derivarse observando el 95% ci correspondiente.
Michael M
(cont.) Su pregunta está relacionada de alguna manera con la siguiente: ¿Es más útil afirmar que incluso el 99.9999% ci es incompatible con el valor nulo o que incluso el límite inferior del 95% ci para el verdadero efecto es muy prometedor?
Michael M