Un análisis intermedio es un análisis de los datos en uno o más puntos de tiempo antes del cierre oficial del estudio con la intención de, por ejemplo, posiblemente terminar el estudio antes de tiempo.
Según Piantadosi, S. ( Ensayos clínicos: una perspectiva metodológica ): " La estimación de un efecto del tratamiento estará sesgada cuando un ensayo finalice en una etapa temprana. Cuanto antes sea la decisión, mayor será el sesgo " .
¿Me puede explicar esta afirmación? Puedo entender fácilmente que la precisión se verá afectada, pero la afirmación sobre el sesgo no es obvia para mí ...
clinical-trials
bias
ocram
fuente
fuente
Respuestas:
En primer lugar, debe tener en cuenta el contexto: esto solo se aplica cuando el ensayo se detuvo antes de tiempo debido a un monitoreo intermedio que muestra eficacia / futilidad, no por alguna razón externa aleatoria. En ese caso, la estimación del tamaño del efecto estará sesgada en un sentido completamente estadístico. Si se detuvo por eficacia, el efecto estimado será demasiado alto (suponiendo que sea positivo), si se detuvo por inutilidad, será demasiado bajo.
Piantodosi también da una explicación intuitiva (Sección 10.5.4 en mi edición). Supongamos que la verdadera diferencia en dos medias es 1 unidad. Cuando ejecuta muchas pruebas y las mira en su tiempo de análisis intermedio, algunas de ellas habrán observado tamaños de efectos muy superiores a 1, algunos muy inferiores a uno y la mayoría alrededor de 1: la distribución será amplia, pero simétrica. El tamaño del efecto estimado en este punto no sería muy preciso, pero sería imparcial. Sin embargo, solo se detiene e informa un tamaño del efecto si la diferencia es significativa (ajustada para múltiples pruebas), es decir, la estimación está en el lado alto. En todos los demás casos, continúe y no informe una estimación. Eso significa que condicional a haber parado temprano, la distribución del tamaño del efecto no es simétrica y su valor esperado está por encima del valor verdadero de la estimación.
El hecho de que este efecto es más severo desde el principio proviene del obstáculo más grande para detener el ensayo, por lo que una gran parte de la distribución se desecha durante el acondicionamiento.
fuente
Aquí hay una ilustración de cómo puede surgir un sesgo en las conclusiones y por qué puede no ser la historia completa. Suponga que tiene una prueba secuencial de un medicamento que se espera que tenga un efecto positivo (+1) pero que puede tener un efecto negativo (-1). Se prueban cinco cobayos uno tras otro. La probabilidad desconocida de un resultado positivo en un solo caso es de hecho y un resultado negativo . 134 4 14 4
Entonces, después de cinco ensayos, las probabilidades de los diferentes resultados son
entonces la probabilidad de un resultado positivo en general es 918/1024 = 0.896, y el resultado promedio es +2.5. Dividido por los 5 ensayos, este es un promedio de un resultado de +0.5 por ensayo.
Es la figura imparcial, ya que también es .+ 1 × 34 4- 1 × 14 4
Suponga que para proteger a los conejillos de indias, el estudio finalizará si en cualquier etapa el resultado acumulativo es negativo. Entonces las probabilidades se vuelven
entonces la probabilidad de un resultado positivo en general es 702/1024 = 0.6855, y el resultado promedio es +1.953. Si observamos el valor medio del resultado por ensayo en el cálculo anterior, es decir, usando , , , , y entonces obtendríamos +0.184. +3+ 55 5 +1+ 35 5 -1+ 15 5 -1- 15 5 -1- 13 - 11
Estos son los sentidos en los que existe un sesgo al detenerse temprano en el segundo esquema, y el sesgo está en la dirección prevista. Pero no es la historia completa.
¿Por qué Whuber y Probabilityislogic piensan que parar temprano debería producir resultados imparciales? Sabemos que el resultado esperado de los ensayos en el segundo esquema es +1,953. El número esperado de ensayos resulta ser 3.906. Al dividir uno por el otro obtenemos +0.5, exactamente como antes y lo que se describió como imparcial.
fuente
Bueno, mis conocimientos sobre esta proviene de la oración Harveian en 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 En esencia, a lo mejor de mis recuerdos de los resultados se hará con preferencia como 1) detener temprana generalmente significa que el tratamiento fue más o menos efectivo de lo que se esperaba, y si esto es positivo, entonces puede estar aprovechando la oportunidad. Creo que los valores de p se calculan sobre la base del tamaño de muestra planificado (pero podría estar equivocado en esto), y también si está constantemente verificando sus resultados para ver si se han mostrado efectos, debe corregir las comparaciones múltiples para asegurarse de que no solo está encontrando un efecto casual. Por ejemplo, si verifica 20 veces los valores de p por debajo de .05, estadísticamente hablando, es casi seguro que encontrará un resultado significativo.
fuente
No estaría de acuerdo con esa afirmación, a menos que por "sesgo" Piantadosi signifique esa parte de la precisión que comúnmente se llama sesgo. La inferencia no estará "sesgada" porque elegiste detenerte per se: estará "sesgada" porque tienes menos datos. El llamado "principio de probabilidad" establece que la inferencia solo debe depender de los datos que se observaron, y no de los datos que podrían haberse observado, pero no lo fueron. El LP dice
fuente
no se haya sesgo (en "sentido estadístico") si la terminación de los estudios no es al azar.
En un conjunto de experimentos concluidos, los resultados "iniciales" de (a) algunos experimentos que finalmente encuentran "sin efecto" mostrarán algún efecto (como resultado del azar) y (b) algunos experimentos que finalmente encuentran un el efecto mostrará "sin efecto" (probablemente como resultado de la falta de potencia). En un mundo en el que finaliza los ensayos, si detiene (a) con más frecuencia que (b), terminará en una serie de estudios con sesgo a favor de encontrar un efecto. (Se aplica la misma lógica para los tamaños de los efectos ; la finalización de los estudios que muestran un efecto "mayor de lo esperado" más temprano que los que muestran "como se esperaba o menor" aumentará el recuento de hallazgos de "gran efecto").
Si, de hecho, los ensayos médicos finalizan cuando los resultados tempranos muestran un efecto positivo, a fin de poner el tratamiento a disposición de los sujetos con placebo u otros, pero no cuando los resultados iniciales no son concluyentes, habrá más error tipo 1 en dichas pruebas que habría si todos los experimentos se realizaran a la conclusión. Pero eso no significa que la práctica esté mal; El costo del error tipo 1, moralmente hablando, podría ser más bajo que negar el tratamiento tan rápido como lo haría para tratamientos que realmente demostrarían que funcionan al final del ensayo completo.
fuente