¿Qué significa que un estudio tenga demasiada potencia?
Mi impresión es que significa que sus tamaños de muestra son tan grandes que tiene el poder de detectar tamaños de efectos minúsculos. Estos tamaños de efectos son quizás tan pequeños que es más probable que resulten de sesgos leves en el proceso de muestreo que una conexión causal (no necesariamente directa) entre las variables.
¿Es esta la intuición correcta? Si es así, no veo cuál es el problema, siempre y cuando los resultados se interpreten de esa manera y usted verifique manualmente y vea si el tamaño del efecto estimado es lo suficientemente grande como para ser "significativo" o no.
¿Me estoy perdiendo de algo? ¿Hay una mejor recomendación sobre qué hacer en este escenario?
Respuestas:
Creo que tu interpretación es incorrecta.
Usted dice "Estos tamaños de efectos son quizás tan pequeños que es más probable que sean el resultado de sesgos leves en el proceso de muestreo que una conexión causal (no necesariamente directa) entre las variables", lo que parece implicar que el valor P en un 'sobrecargado' El estudio no es el mismo tipo de cosas que un valor P de un estudio con una potencia "adecuada". Eso está mal. En ambos casos, el valor P es la probabilidad de obtener datos tan extremos como los observados, o más extremos, si la hipótesis nula es cierta.
Si prefiere el enfoque de Neyman-Pearson, la tasa de errores falsos positivos obtenidos del estudio 'sobrealimentado' es la misma que la de un estudio 'adecuadamente' potenciado si se usa el mismo valor alfa para ambos.
La diferencia en la interpretación que se necesita es que existe una relación diferente entre la significación estadística y la significación científica para los estudios con demasiado poder. En efecto, el estudio excesivo dará una gran probabilidad de obtener significación aunque el efecto sea, como usted dice, minúsculo y, por lo tanto, de importancia cuestionable.
Mientras los resultados de un estudio 'sobrecargado' se interpreten apropiadamente (y los intervalos de confianza para el tamaño del efecto ayuden a tal interpretación) no hay problema estadístico con un estudio 'sobrecargado'. Desde ese punto de vista, los únicos criterios por los cuales un estudio puede ser sobrecargado son los problemas éticos y de asignación de recursos planteados en otras respuestas.
fuente
En la investigación médica, los ensayos pueden ser poco éticos si reclutan demasiados pacientes. Por ejemplo, si el objetivo es decidir qué tratamiento es mejor, ya no es ético tratar a los pacientes con el peor tratamiento después de que se estableció que era inferior. Por supuesto, aumentar el tamaño de la muestra le proporcionaría una estimación más precisa del tamaño del efecto, pero es posible que deba detenerse mucho antes de que aparezcan los efectos de factores como "sesgos leves en el proceso de muestreo".
También puede ser poco ético gastar dinero público en investigación suficientemente confirmada.
fuente
Todo lo que has dicho tiene sentido (aunque no sé a qué "gran cosa" te refieres), y especialmente. como su punto sobre los tamaños del efecto en lugar de la significación estadística. Otra consideración es que algunos estudios requieren la asignación de recursos escasos para obtener la participación de cada caso, por lo que uno no querría exagerar.
fuente
Mi experiencia proviene de los experimentos A / B en línea, donde el problema generalmente son los estudios de poca potencia o la medición de las cosas incorrectas. Pero me parece que un estudio sobrecargado produce intervalos de confianza más estrechos que los estudios comparables, valores p más bajos y posiblemente una variación diferente. Me imagino que esto puede dificultar la comparación de estudios similares. Por ejemplo, si repitiera un estudio sobrecargado utilizando la potencia adecuada, mi valor p sería mayor incluso si replicara exactamente el efecto. El aumento del tamaño de la muestra puede igualar la variabilidad o introducir variabilidad si hay valores atípicos que podrían tener una mayor probabilidad de aparecer en una muestra más grande.
Además, mis simulaciones muestran que los efectos distintos de los que le interesan pueden volverse significativos con una muestra más grande. Entonces, si bien el valor p le indica correctamente la probabilidad de que sus resultados sean reales, podrían ser reales por razones distintas a las que usted piensa, por ejemplo, una combinación de posibilidades, algún efecto transitorio que no controló y quizás algún otro efecto más pequeño que introdujiste sin darte cuenta. Si el estudio está un poco sobrecargado, el riesgo de esto es bajo. El problema es que a menudo es difícil saber la potencia adecuada, por ejemplo, si las métricas de línea de base y el efecto objetivo mínimo son suposiciones o resultan diferentes de lo esperado.
También me encontré con un artículo que argumenta que una muestra demasiado grande puede hacer que una prueba de bondad de ajuste sea demasiado sensible a las desviaciones intrascendentes, lo que lleva a resultados potencialmente contraintuitivos.
Dicho esto, creo que es mejor equivocarse en el lado de alta potencia en lugar de baja potencia.
fuente