Vengo de las ciencias sociales, donde p <0.05 es más o menos la norma, con p <0.1 y p <0.01 también apareciendo, pero me preguntaba: ¿qué campos de estudio, si los hay, usan valores p más bajos como un común? ¿estándar?
Vengo de las ciencias sociales, donde p <0.05 es más o menos la norma, con p <0.1 y p <0.01 también apareciendo, pero me preguntaba: ¿qué campos de estudio, si los hay, usan valores p más bajos como un común? ¿estándar?
Mi opinión es que sí (y no debería) depender del campo de estudio. Por ejemplo, es posible que trabaje a un nivel de significancia menor que si, por ejemplo, está tratando de replicar un estudio con resultados históricos o bien establecidos (puedo pensar en varios estudios sobre el efecto Stroop , que han llevado a a algunas controversias en los últimos años). Eso equivale a considerar un "umbral" más bajo dentro del marco clásico de Neyman-Pearson para probar hipótesis. Sin embargo, la importancia estadística y práctica (o sustantiva) es otra cuestión.
Nota al margen . El "sistema estelar" parece haber dominado las investigaciones científicas ya en los años 70, pero vea The Earth Is Round (p <.05), de J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), a pesar del hecho de que lo que a menudo queremos saber es la información que he observado, ¿cuál es la probabilidad de que sea cierto? De todos modos, también hay una buena discusión sobre " ¿Por qué P = 0.05? ", Por Jerry Dallal.
Puede ser raro que alguien use un nivel alfa preespecificado más bajo que, digamos, 0.01, pero no es tan raro que las personas reclamen un alfa implícito de menos de 0.01 en la creencia errónea de que un valor de P observado de menos de 0.01 es lo mismo que un alfa de Neyman-Pearson de menos de 0.01.
Los valores de P de Fisher no son iguales o intercambiables con las tasas de error de Neyman-Pearson. no significa menos que uno haya decidido usar como el nivel crítico de significancia cuando se diseña el experimento. Si hubiera tomado como significativo, entonces significa que hay una probabilidad de de una afirmación falsa positiva.α = 0.0023 0.0023 P = 0.05 P = 0.0023 0.05P=0.0023 α=0.0023 0.0023 P=0.05 P=0.0023 0.05
Echa un vistazo a Hubbard et al. Confusión sobre las medidas de evidencia (p) versus errores (α) en las pruebas estadísticas clásicas. El estadístico estadounidense (2003) vol. 57 (3)
fuente
No estoy muy familiarizado con esta literatura, pero creo que algunos físicos usan umbrales mucho más bajos en las pruebas estadísticas, pero hablan de ello de manera un poco diferente. Por ejemplo, si una medida es tres desviaciones estándar de la predicción teórica, se describe como una desviación "tres sigma". Básicamente, esto significa que el parámetro de interés es estadísticamente diferente del valor predicho en la prueba az con α = .01. Two sigma es aproximadamente equivalente a α = .05 (de hecho, sería 1.96 σ). Si no me equivoco, el nivel de error estándar en física es 5 sigma, que sería α = 5 * 10 ^ -7
Además, en neurociencia o epidemiología, parece cada vez más común realizar alguna corrección rutinaria para comparaciones múltiples. Por lo tanto, el nivel de error para cada prueba individual puede ser inferior a p <.01
fuente
Como señaló Gaël Laurans, los análisis estadísticos anteriores que se encuentran con el problema de comparación múltiple tienden a usar umbrales más conservadores. Sin embargo, en esencia están usando 0.05, pero multiplicado por el número de pruebas. Es obvio que este procedimiento (corrección de Bonferroni) puede conducir rápidamente a valores p increíblemente pequeños. Es por eso que las personas en el pasado (en neurociencia) se detuvieron en p <0.001. Hoy en día se utilizan otros métodos de correcciones de comparación múltiple (ver la teoría de campo aleatorio de Markov).
fuente