¿Ejemplos de estudios que usan p <0.001, p <0.0001 o incluso valores p más bajos?

11

Vengo de las ciencias sociales, donde p <0.05 es más o menos la norma, con p <0.1 y p <0.01 también apareciendo, pero me preguntaba: ¿qué campos de estudio, si los hay, usan valores p más bajos como un común? ¿estándar?

statistical-significance p-value El p.
fuente

9

Mi opinión es que sí (y no debería) depender del campo de estudio. Por ejemplo, es posible que trabaje a un nivel de significancia menor que $p<0.001$ si, por ejemplo, está tratando de replicar un estudio con resultados históricos o bien establecidos (puedo pensar en varios estudios sobre el efecto Stroop , que han llevado a a algunas controversias en los últimos años). Eso equivale a considerar un "umbral" más bajo dentro del marco clásico de Neyman-Pearson para probar hipótesis. Sin embargo, la importancia estadística y práctica (o sustantiva) es otra cuestión.

Nota al margen . El "sistema estelar" parece haber dominado las investigaciones científicas ya en los años 70, pero vea The Earth Is Round (p <.05), de J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), a pesar del hecho de que lo que a menudo queremos saber es la información que he observado, ¿cuál es la probabilidad de que sea cierto? De todos modos, también hay una buena discusión sobre " ¿Por qué P = 0.05? ", Por Jerry Dallal. $H_0$

chl
fuente

Corrija mi línea de pensamiento: algunos campos pueden centrarse, por ejemplo, en la exposición bioquímica y, por lo tanto, quieren usar p <0.001 para evitar cualquier error de Tipo I que pueda conducir a un peligro para la salud. Además, a lo largo de este artículo de Am Psych , también recuerdo un gran estudio en Am J of Sociol o una de las revistas soci sci que sigo. Mi favorito es, por supuesto, Ziliak y McCloskey .

p.

1

Lo que describe aquí suena al revés. Me preocuparían los errores de Tipo II, diciendo que algo no está allí cuando está, con la exposición bioquímica. En ese caso, podría establecer alfa más alto, no más bajo.

John

Estaba trabajando bajo el supuesto de que la prueba tendría la siguiente forma: "Vamos a evaluar si el embarazo está relacionado con la TRH" (en ese caso, un error de Tipo I es más grave que un error de Tipo II, pero quizás este diseño no sea estándar).

p.

7

Puede ser raro que alguien use un nivel alfa preespecificado más bajo que, digamos, 0.01, pero no es tan raro que las personas reclamen un alfa implícito de menos de 0.01 en la creencia errónea de que un valor de P observado de menos de 0.01 es lo mismo que un alfa de Neyman-Pearson de menos de 0.01.

Los valores de P de Fisher no son iguales o intercambiables con las tasas de error de Neyman-Pearson. no significa menos que uno haya decidido usar como el nivel crítico de significancia cuando se diseña el experimento. Si hubiera tomado como significativo, entonces significa que hay una probabilidad de de una afirmación falsa positiva. $P = 0.0023$ $\alpha = 0.0023$ $0.0023$ $P = 0.05$ $P = 0.0023$ $0.05$

Echa un vistazo a Hubbard et al. Confusión sobre las medidas de evidencia (p) versus errores (α) en las pruebas estadísticas clásicas. El estadístico estadounidense (2003) vol. 57 (3)

Michael Lew
fuente

Entiendo la distinción, aunque probablemente estoy cometiendo el error de forma rutinaria. Pero mi pregunta es, ¿hay algún uso convencional, en algún lugar, de p <.0001, por ejemplo? O, para decirlo provocativamente, ¿es universal el culto p <.05?

p.

El 'culto' de P <0.05 puede ser casi universal, pero no es posible confiar en ninguna afirmación sobre este punto porque es muy probable que las excepciones aparentes sean el resultado de la hibridación desconocida de los métodos de Fisher y Neyman-Pearson. En los trabajos de investigación farmacológica básica casi nunca hay una declaración explícita sobre el uso de las tasas de error de Neyman-Pearson.

Michael Lew

Gracias por el ejemplo Estoy cada vez menos impresionado por la investigación farmacológica, por muchas razones (no todas científicas) ...

p.

1

No debería tomar mi comentario sobre la investigación farmacológica básica como una crítica específica de ese campo, es solo mi propia disciplina particular y, por lo tanto, con la que tengo más experiencia. Estoy seguro de que encontrará muchas áreas en la investigación básica con exactamente las mismas deficiencias con respecto a los valores de P hibridados y las tasas de error.

Michael Lew

No se preocupe, me imagino fácilmente que esta deficiencia viaja bien a través de los campos de investigación.

p.

3

No estoy muy familiarizado con esta literatura, pero creo que algunos físicos usan umbrales mucho más bajos en las pruebas estadísticas, pero hablan de ello de manera un poco diferente. Por ejemplo, si una medida es tres desviaciones estándar de la predicción teórica, se describe como una desviación "tres sigma". Básicamente, esto significa que el parámetro de interés es estadísticamente diferente del valor predicho en la prueba az con α = .01. Two sigma es aproximadamente equivalente a α = .05 (de hecho, sería 1.96 σ). Si no me equivoco, el nivel de error estándar en física es 5 sigma, que sería α = 5 * 10 ^ -7

Además, en neurociencia o epidemiología, parece cada vez más común realizar alguna corrección rutinaria para comparaciones múltiples. Por lo tanto, el nivel de error para cada prueba individual puede ser inferior a p <.01

Gala
fuente

1

La epidemiología genética utiliza habitualmente en los estudios de asociación del genoma, a menudo independientemente del número exacto de pruebas realizadas.

α = 5 \times 10^{- 8}

$\alpha=5\times10^{-8}$

invitado

1

Como señaló Gaël Laurans, los análisis estadísticos anteriores que se encuentran con el problema de comparación múltiple tienden a usar umbrales más conservadores. Sin embargo, en esencia están usando 0.05, pero multiplicado por el número de pruebas. Es obvio que este procedimiento (corrección de Bonferroni) puede conducir rápidamente a valores p increíblemente pequeños. Es por eso que las personas en el pasado (en neurociencia) se detuvieron en p <0.001. Hoy en día se utilizan otros métodos de correcciones de comparación múltiple (ver la teoría de campo aleatorio de Markov).

usuario12719
fuente

¿Ejemplos de estudios que usan p <0.001, p <0.0001 o incluso valores p más bajos?

Respuestas: