Cuando comparamos grupos en variables de control, ¿deberíamos usar pruebas de equivalencia?

13

En muchos artículos que consideran tratamientos y resultados, veo tablas (generalmente "tabla 1") de lo que podría llamarse variables molestas (a menudo demográficas, a veces afecciones médicas) con pruebas de significación y texto como "los grupos fueron ampliamente similares, allí no hubo diferencias significativas en XXXXX, ver Tabla ". Entonces, el objetivo claro es mostrar que los grupos asignados a diferentes tratamientos son similares.

Sin embargo, esto me parece que podría ser "aceptar lo nulo" y que lo que deberíamos estar haciendo (o exigir que se haga) son pruebas de equivalencia.

Esto podría aplicarse a ensayos aleatorios o estudios observacionales. ¿Me estoy perdiendo de algo?

Peter Flom - Restablece a Monica
fuente
1
Supongo que te estás refiriendo a la 'tabla 1'. ¿Está preguntando acerca de los ECA per se, o también los estudios observacionales?
gung - Restablece a Monica
@gung sí, generalmente es la Tabla 1. Podrían ser estudios observacionales o ECA. Edité mi pregunta para reflejar su comentario.
Peter Flom - Restablece a Monica
1
Incluso si corro el riesgo de decir lo obvio: hay algunos documentos que abordan este problema (por ejemplo, de Boer et al. (2015) ). Creo que el consenso es que las pruebas de hipótesis deben abandonarse en las tablas de referencia. La Declaración CONSORT para ensayos clínicos, así como la Declaración STROBE para estudios observacionales, recomiendan evitar las pruebas de hipótesis en las tablas de referencia. Si las pruebas de equivalencia son mejores, no lo sé.
COOLSerdash
Si prueba contra nulo o prueba de equivalencia depende de la motivación y afecta la discusión que se puede extraer de la tabla. Afirmar la equivalencia es una condición muy fuerte y sospecho que no es necesario para la mayoría de los casos, a menos que el autor quiera sacar conclusiones sólidas sobre la demografía, etc. Sería mejor y más apropiado tener un procedimiento formal para cuantificar el riesgo de sesgo sesgado en los desequilibrios en los asociados. demografía No he investigado eso, pero me interesarían otras opiniones sobre cómo se vería.
ReneBt

Respuestas:

10

Este es un tema complicado que introduce muchos problemas relacionados con: 1) especificar claramente una hipótesis, 2) comprender qué mecanismos causales (pueden) subyacen a un efecto hipotético y 3) elección / estilo de presentación.

Tiene razón en que, si aplicamos una práctica estadística sólida, para afirmar que "los grupos son similares", habría que realizar una prueba de equivalencia. Sin embargo, las pruebas de equivalencia sufren los mismos problemas que su contraparte NHST: el poder es simplemente un reflejo del tamaño de la muestra y el número de comparaciones: esperamos diferencias, pero su extensión y efecto en un análisis principal es mucho más importante.

Cuando se enfrentan a estas situaciones, las comparaciones de referencia casi siempre son pistas falsas. Se pueden aplicar mejores métodos (de ciencia y estadística). Tengo algunos conceptos / respuestas comunes que considero al responder preguntas como esta.

Una columna "total" es más importante que las columnas divididas por tratamiento; se justifica una discusión de esos valores.

En ensayos clínicos, la muestra de seguridad generalmente se analiza. Este es el subconjunto de los que primero fueron abordados, luego consentidos, luego aleatorizados y finalmente expuestos a al menos una iteración de control o tratamiento. En ese proceso, enfrentamos diversos grados de sesgo de participación.

Probablemente el aspecto más importante y omitido de estos estudios es presentar los resultados de la Tabla 1 en conjunto . Esto logra el propósito más importante de una Tabla 1: demostrar a otros investigadores cuán generalizable es la muestra del estudio a la población más amplia en la que se aplican los resultados.

Encuentro sorprendente cuán fijos están los investigadores, los lectores y los revisores en las tendencias tangenciales dentro de las características del paciente cuando hay un total desprecio por los criterios de inclusión / exclusión y la generalización de la muestra.

Me da vergüenza decir que fui analista en un ensayo que pasó por alto esto como un problema. Reclutamos pacientes y luego, debido a problemas logísticos, esperamos casi un año antes de implementar la intervención. El diagrama de consorte no solo mostró una gran caída entre esos períodos, sino que la muestra cambió. El resultado fue en gran parte desempleado / subempleado, más viejo y más saludable que las personas que pretendíamos alcanzar. Tenía profundas preocupaciones sobre la posibilidad de generalizar el estudio, pero era difícil presionar para que se dieran a conocer esas preocupaciones.

El poder y el error tipo I de las pruebas para detectar el desequilibrio en las características de la línea de base depende del número real de características

El punto de presentar una lista tan detallada de las variables de línea de base, como se mencionó anteriormente, es proporcionar una instantánea completa de la muestra; su historial del paciente, laboratorios, medicamentos y demografía. Todos estos son aspectos que los médicos utilizan para recomendar el tratamiento a los pacientes. Se cree que todos predicen el resultado. Pero la cantidad de tales factores es asombrosa. Se pueden comparar hasta 30 variables diferentes. El riesgo bruto de error de Tipo I es 1- (1-0.05) ^ 30 = 0.79. Se recomiendan correcciones de Bonferroni o de permutación si se deben realizar pruebas .

Las pruebas estadísticas en su forma más pura deben ser imparciales, y se supone que deben especificarse previamente. Sin embargo, la elección y presentación de las características basales es a menudo relativa. Creo que el último enfoque es apropiado: si encontramos, como en mi ensayo, hay rasgos interesantes que describen la muestra de manera efectiva, deberíamos tener la libertad de elegir presentar esos valores ad hoc . Se pueden realizar pruebas si tiene algún valor, pero se aplican las advertencias habituales: no son hipótesis de interés, existe un alto riesgo de confusión en cuanto a lo que implican resultados significativos y no significativos, y los resultados son más un reflejo de tamaño de la muestra y consideraciones de presentación que cualquier verdad.

La aleatorización se puede hacer, pero solo antes de que los pacientes estén expuestos al tratamiento

Como mencioné, la muestra analizada es típicamente la muestra de seguridad. Sin embargo, la aleatorización es un enfoque ampliamente recomendado y teóricamente consistente para pacientes que no han estado expuestos al tratamiento del estudio. Esto solo se aplica a la configuración en la que se realiza la inscripción por lotes. Aquí, 100 participantes son reclutados y asignados al azar. Si, por ejemplo, la probabilidad asigna una alta proporción de personas mayores a un grupo, entonces la muestra se puede aleatorizar para equilibrar la edad. Esto no se puede hacer con la inscripción secuencial o escalonada, que es el entorno en el que se realizan la mayoría de los ensayos. Esto se debe a que el momento de la inscripción tiende a predecir el estado del paciente por "sesgo" de caso frecuente (incidente confuso y criterios de elegibilidad prevalentes).

El diseño equilibrado no es un requisito para una inferencia válida

El supuesto de aleatorización dice que, teóricamente, todos los participantes tendrán en promedio distribuciones iguales de covariables. Sin embargo, como se mencionó anteriormente, al comparar 30 o más niveles, la probabilidad acumulativa de desequilibrio no es despreciable. De hecho, desequilibrio de covariables puede ser irrelevante al considerar el todo.

Si la aleatorización es justa, podemos ver que la edad es elevada en el grupo de tratamiento, pero fumar es elevado en el grupo control: los dos contribuyen individualmente al riesgo del resultado. Lo que se necesita para una inferencia eficiente y válida es que el puntaje de propensión esté equilibrado entre los grupos. Esta es una condición mucho más débil. Desafortunadamente, la propensión no puede ser inspeccionada por un balance sin un modelo de riesgo. Sin embargo, es fácil ver que dicha propensión depende de una combinación de covariables, y la probabilidad de un desequilibrio en las propensiones en una muestra aleatoria es mucho menos probable, a pesar de ser imposible de mostrar con exactitud.

Si se conoce un modelo de riesgo, o existen predictores sólidos del resultado, se realizan ECA más eficientes y válidos simplemente ajustando esos factores, independientemente de si están equilibrados entre los grupos de tratamiento.

Uno de mis artículos favoritos, 7 mitos de ensayos controlados aleatorios , discute esto. El ajuste mejora la eficiencia cuando la variable de ajuste es muy predictiva del resultado. Resulta que incluso con un equilibrio perfecto de 50/50, usando una aleatorización bloqueada, o incluso como una coincidencia de cómo se realizó la aleatorización, el ajuste reducirá los IC, lo que requerirá que menos participantes tengan un estudio igualmente potente; Esto reduce los costos y riesgos. Es sorprendente que esto no se haga con más frecuencia.

Los estudios de observación requieren control para la confusión, independientemente de lo que muestre la Tabla 1

El supuesto de aleatorización elimina la confusión. Con el tratamiento no aleatorizado, hay confusión. Un factor de confusión es una variable causal del resultado y predice la recepción del tratamiento cuasiexperimental. No existe una prueba para determinar qué variable (s) es / son los factores de confusión. El riesgo de echar un vistazo a los datos para responder estas preguntas es que los factores de confusión son prácticamente indistinguibles de los mediadores o colisionadores sin una medición completamente perfecta de los valores longitudinales (e incluso entonces ...). El ajuste para mediadores atenúa cualquier efecto, el ajuste del colisionador puede causar cualquier tipo de sesgo. Además, uno no necesita ajustarse para un conjunto total de factores de confusión, sino que debe eliminar el criterio de puerta trasera.

Por ejemplo, en un estudio sobre la función pulmonar y el tabaquismo en adolescentes: los niños mayores tienen más probabilidades de fumar, pero como son más altos, su función pulmonar es mayor. Resulta que el ajuste de altura solo es suficiente para eliminar la confusión, ya que satisface el criterio de puerta trasera. Un ajuste adicional por edad simplemente pierde eficiencia. Sin embargo, simplemente inspeccionar el "equilibrio" de una tabla 1 en fumadores y no fumadores sugeriría que tanto la edad como la estatura están "desequilibradas" y, por lo tanto, deben controlarse. Eso es incorrecto.

AdamO
fuente
1
Estoy de acuerdo con esto y soy muy consciente de los problemas con los valores de p. (Encontrará pocas personas en este sitio o tendrá más valor anti-p que yo). Y estoy a favor de mejores métodos, algunos de los cuales planteas. Por supuesto, algunas variables podrían ser supresores (de modo que su inclusión aumenta el tamaño del efecto principal). Sin embargo, si estoy, por ejemplo, revisando un artículo para una revista, ¿cree que recomendar las pruebas de equivalencia para la tabla 1 es bueno, o buscaría su respuesta completa aquí?
Peter Flom - Restablece a Monica
1
@PeterFlom Ahora veo el contexto un poco mejor. Como revisor estadístico, consideraría si el comentario es relevante para los análisis posteriores. Si no es relevante, les animo a tachar ese comentario ya que no es útil. Si es relevante, les animo a a) considerar un enfoque de análisis más robusto ob) usar análisis de sensibilidad para determinar si existe una posible influencia. El equilibrio de las covariables solo importa en la medida en que influye en los análisis, por lo que preferiría que se prestara atención. Tal vez no sea un diseño adaptado a la propensión, ¿verdad?
AdamO
1
@PeterFlom Como revisor, ¿no tendría sentido recomendar deshacerse de los valores p en la "Tabla 1" por completo?
ameba dice Reinstate Monica
1
AdamO, gran respuesta (+1), pero estoy un poco preocupado por la recomendación de que múltiples ajustes de prueba son "aconsejables" en el contexto de la "Tabla 1". ¿Es el error Tipo I de alguna preocupación aquí? Creo que en este caso, el error de Tipo II es en realidad mucho más importante (uno no querría perderse el hecho de que alguna variable de referencia difiere entre el tratamiento y los grupos de control). Usando Bonferroni, el error de Tipo II aumentará considerablemente. Esto está relacionado con el punto de @Peter sobre las pruebas de equivalencia: en cierto sentido, los tipos Tipo I y Tipo II intercambian lugares si cambias al punto de vista de "equivalencia".
ameba dice Reinstate Monica
1
@amoeba Absolutamente. Si insistimos en este enfoque (no es mi recomendación), los NHST requieren que controlemos el error Tipo I. Creo que mi punto es que debemos controlar FWER porque no nos importa qué variable está desequilibrada. Se puede establecer en un valor generoso como 0.2. No conozco ninguna prueba de equivalencia para la que aumente la potencia a medida que aumenta el tamaño de la muestra, por lo que las justificaciones para tales pruebas son verbales, subjetivas e imprecisas.
AdamO