¿Los estudios con poca potencia tienen una mayor probabilidad de falsos positivos?

23

Esta pregunta se ha hecho antes aquí y aquí, pero no creo que las respuestas aborden la pregunta directamente.

¿Los estudios con poca potencia tienen una mayor probabilidad de falsos positivos? Algunos artículos de noticias hacen esta afirmación. Por ejemplo :

El bajo poder estadístico es una mala noticia. Los estudios con poca potencia tienen más probabilidades de perder efectos genuinos, y como grupo tienen más probabilidades de incluir una mayor proporción de falsos positivos, es decir, efectos que alcanzan significación estadística a pesar de que no son reales.

Según tengo entendido, el poder de una prueba se puede aumentar mediante:

  • aumentando el tamaño de la muestra
  • que tiene un tamaño de efecto más grande
  • aumentando el nivel de significancia

Suponiendo que no queremos cambiar el nivel de significación, creo que la cita anterior se refiere a cambiar el tamaño de la muestra. Sin embargo, no veo cómo la disminución de la muestra debería aumentar el número de falsos positivos. En pocas palabras, la reducción del poder de un estudio aumenta las posibilidades de falsos negativos, lo que responde a la pregunta:

PAGS(no rechazar H0 0El |H0 0 Es falso)

Por el contrario, los falsos positivos responden a la pregunta:

PAGS(rechazar H0 0El |H0 0 es verdad)

Ambas son preguntas diferentes porque los condicionales son diferentes. El poder está (inversamente) relacionado con falsos negativos pero no con falsos positivos. ¿Me estoy perdiendo de algo?

Robert Smith
fuente
44
No es la tasa de falsos positivos lo que depende del poder estadístico, sino la "tasa de falsos descubrimientos":PAGS(H0 0es verdadEl |rechazarH0 0)
Jake Westfall
2
Sí, esa parece ser la interpretación correcta de la declaración en el artículo de Wired.
Robert Smith

Respuestas:

30

Tiene razón en que el tamaño de la muestra afecta la potencia (es decir, 1 - error tipo II), pero no el error tipo I. Es un malentendido común que un valor p como tal (interpretado correctamente) sea menos confiable o válido cuando el tamaño de la muestra es pequeño; el artículo muy entretenido de Friston 2012 tiene una versión divertida de eso [1].

Dicho esto, los problemas con los estudios de baja potencia son reales, y la cita es en gran medida correcta, diría, solo un poco impreciso en su redacción.

El problema básico con los estudios de baja potencia es que, aunque la tasa de falsos positivos (error tipo I) en las pruebas de hipótesis es fija, la tasa de positivos verdaderos (potencia) disminuye. Por lo tanto, un resultado positivo (= significativo) es menos probable que sea un verdadero positivo en un estudio de baja potencia. Esta idea se expresa en la tasa de descubrimiento falso [2], ver también [3]. Esto parece a lo que se refiere la cita.

Un problema adicional a menudo mencionado con respecto a los estudios de baja potencia es que conducen a tamaños de efectos sobreestimados. Las razones son que a) con una potencia más baja, sus estimaciones de los efectos verdaderos se volverán más variables (estocásticas) en torno a su valor verdadero, yb) solo el más fuerte de esos efectos pasará el filtro de significancia cuando la potencia sea baja. Sin embargo, se debe agregar que este es un problema de informe que podría solucionarse fácilmente discutiendo e informando todos y no solo los efectos significativos.

Finalmente, un problema práctico importante con los estudios de baja potencia es que la baja potencia aumenta los problemas estadísticos (por ejemplo, el sesgo de los estimadores), así como la tentación de jugar con variables y tácticas similares de pirateo informático. El uso de estos "grados de libertad del investigador" es más efectivo cuando el poder es bajo, y ESTO puede aumentar el error tipo I después de todo, ver, por ejemplo, [4].

Por todas estas razones, por lo tanto, sería escéptico sobre un estudio de baja potencia.

[1] Friston, K. (2012) Diez reglas irónicas para revisores no estadísticos. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Botón, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Falla de energía: por qué el tamaño de muestra pequeño socava la confiabilidad de la neurociencia. Nat. Rev. Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD y Simonsohn, U. (2011) Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Psychol Sci., 22, 1359-1366.

Florian Hartig
fuente
Gracias. Excelentes referencias. Para completar, [1] se puede encontrar aquí y [3] está disponible aquí . Cuando habla sobre la tasa de descubrimiento falso, ¿está seguro de que es el concepto correcto? Según [3], tal vez se refería al valor predictivo positivo (VPP) en el que los estudios de baja potencia tienen un VPP más bajo (es decir, los verdaderos positivos no son tan frecuentes como deberían ser en un estudio de alta potencia) Parece que la tasa de descubrimiento falso es El complemento de PPV.
Robert Smith
Según tengo entendido, estos conceptos son idénticos, PPV = 1-FDR. Prefiero el uso de FDR porque encuentro la palabra intuitivamente mejor comprensible.
Florian Hartig
2
Tal Yarkoni señala todas las cosas incorrectas sobre el artículo de Friston aquí .
jona
1
@jona - Creo que Tal Yarkoni plantea algunos buenos puntos en su publicación de blog. Supongo que el resumen de 1 oración sería "la baja potencia es un problema", que es exactamente lo que digo arriba. Todavía encuentro divertida la caricatura de los comentarios de los revisores de Friston, porque sucede que los revisores "encuentran que el tamaño de la muestra es demasiado bajo" sin un argumento convincente que implique haber calculado el poder.
Florian Hartig
6

Dependiendo de cómo lo mire, la baja potencia puede aumentar las tasas de falsos positivos en escenarios dados.

Considere lo siguiente: un investigador prueba un tratamiento. Si la prueba regresa como insignificante, la abandonan y pasan al siguiente tratamiento. Si la prueba resulta significativa, la publican. Consideremos también que el investigador probará algunos tratamientos que funcionan y otros que no. Si el investigador tiene un alto poder (por supuesto, refiriéndose al caso cuando están probando un tratamiento que funciona), entonces es muy probable que se detengan una vez que prueben un tratamiento efectivo. Por otro lado, con baja potencia, es probable que pierdan el verdadero efecto del tratamiento y pasen a otros tratamientos. Cuantos más tratamientos nulos prueben, más probable es que cometan un error de Tipo I (este investigador no tiene en cuenta las comparaciones múltiples). En el caso de baja potencia, se espera que prueben muchos más tratamientos nulos,

Podrías decir "bueno, ¡esto es solo un investigador que abusa de múltiples comparaciones!". Bueno, eso puede ser cierto, pero esa es también la forma en que se realiza mucha investigación en estos días. Por exactamente estas razones, personalmente tengo poca fe en el trabajo publicado a menos que tenga un tamaño de muestra lo suficientemente grande como para que el investigador no pueda permitirse repetir el mismo experimento una gran cantidad de veces.

Acantilado
fuente
1
Gracias. Incluso ignorando el caso de comparaciones múltiples (sin las correcciones adecuadas), creo que estás describiendo otra instancia de PPV como se describe aquí . No puedo pegar el párrafo, pero comienza con ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith
1
Ah sí, eso describe muy de cerca a qué me refería. La distinción más pequeña es que estoy diciendo "En un procedimiento experimental dado , tener baja potencia individual en cada prueba de un efecto verdadero aumenta las probabilidades de usar un error tipo I en todo nuestro procedimiento experimental ". Esto, por supuesto, es diferente de aumentar la tasa de error tipo I en cada prueba estadística. Además, es solo en el más técnico de los sentidos diferentes a PPV. Pero es la única forma en que la declaración de los medios "los errores de tipo I aumentan la baja potencia" tiene sentido (y creo que tiene mucho sentido).
Cliff AB
4

La baja potencia no puede afectar la tasa de error Tipo 1, pero podría afectar la proporción de resultados publicados que son errores tipo 1.

La razón es que la baja potencia reduce las posibilidades de un rechazo correcto de H0 (error de tipo 2) pero no las posibilidades de un falso rechazo de H0 (error de tipo 1).

Supongamos por un segundo que hay dos literaturas ... una realizada con muy poca potencia, cerca de cero, y la otra realizada con la potencia adecuada. En ambas publicaciones, puede suponer que cuando H0 es falso, todavía obtendrá falsos positivos en algunas ocasiones (p. Ej., 5% para alfa = .05). Suponiendo que los investigadores no siempre son correctos en sus hipótesis, podemos suponer que ambas publicaciones deberían tener un NÚMERO similar de errores de Tipo 1, buen poder o no. Esto se debe a que la tasa de errores de Tipo 1 no se ve afectada por el poder, como han dicho otros.

Sin embargo, en la literatura con BAJA potencia, también tendría muchos errores de Tipo 2. En otras palabras, la literatura de baja potencia debe FALTAR los rechazos correctos de H0, haciendo que los errores de Tipo 1 sean una proporción mayor de la literatura. En la literatura de alta potencia, debe tener una mezcla de rechazos correctos e incorrectos de H0.

Entonces, ¿la baja potencia aumenta los errores tipo 1? No. Sin embargo, hace que sea más difícil encontrar efectos verdaderos, lo que hace que los errores de Tipo 1 sean una proporción mayor de los hallazgos publicados.

Tom Carpenter
fuente
1
Gracias. ¿Qué pasa con el PPV? En el documento al que hace referencia Florian Hartig, existe la afirmación de que, dado un error de tipo I, cuanto menor es la potencia, menor es el PPV. Si el PPV es más bajo, lo que significa que el número de descubrimientos reclamados verdaderos es menor, entonces el número de descubrimientos reclamados falsos (falsos positivos) debería aumentar.
Robert Smith
0

Además de la respuesta de los demás, un estudio generalmente tiene poca potencia cuando el tamaño de la muestra es pequeño. Hay muchas pruebas que solo son asintóticamente válidas, y demasiado optimistas o conservadoras para pequeñas n.

Otras pruebas solo son válidas para tamaños de muestra pequeños si se cumplen ciertas condiciones, pero se vuelven más robustas con un tamaño de muestra grande (por ejemplo, prueba t).

En ambos casos, el pequeño tamaño de la muestra y la suposición no satisfecha pueden conducir a una mayor tasa de error tipo I. Ambas situaciones ocurren con tanta frecuencia que considero que la respuesta real a su pregunta es: no en teoría sino en la práctica.

Erik
fuente