¿Cómo detectar cuál es el mejor estudio cuando te dan resultados contradictorios?

11

Muy a menudo encuentras en la prensa varios estudios que concluyen resultados direccionalmente opuestos. Esos pueden estar relacionados con la prueba de un nuevo medicamento recetado o el mérito de un nutriente específico o cualquier otra cosa.

Cuando dos de estos estudios llegan a resultados contradictorios, ¿cómo puede saber cuál de los dos está más cerca de la verdad?

hypothesis-testing clinical-trials Sympa
fuente

Tal vez esto debería ser CW? No habrá una respuesta única a esta pregunta y podrían surgir múltiples perspectivas y enfoques.

whuber

2

@whuber Votaría en contra de CW porque incluso si hay diferentes perspectivas, es probable que haya un mejor enfoque. Esto es similar a cómo se puede probar la misma hipótesis utilizando diferentes marcos / modelos, pero es probable que haya un mejor enfoque.

@Srikant: En cualquier caso particular, me imagino que podrías acumular una defensa sólida para apoyar tu afirmación. Sin embargo, en general, que es la situación actual, la mejor respuesta dependerá del contexto. Como un ejemplo simple (e incompleto), contemple las diferencias entre evaluar un par de experimentos físicos diseñados (como medir la velocidad de la luz, donde históricamente la mayoría de los intervalos de confianza han perdido la verdad) y un estudio observacional en las ciencias sociales. .

whuber

@whuber Quizás, deberíamos continuar esta conversación en meta. Admito que todavía estoy confuso sobre cuándo usar CW y cuándo no, pero para tomar su punto: la mejor respuesta a esta pregunta sería que la respuesta depende del contexto y explica por qué a través de algunos ejemplos. En cualquier caso, de alguna manera siento que esta pregunta no debería ser CW, pero no puedo articular más razones más allá de las que he esbozado anteriormente.

3

Creo que la respuesta de Jeromy es suficiente si está examinando dos estudios experimentales o un metanálisis real. Pero a menudo nos enfrentamos a examinar dos estudios no experimentales, y tenemos la tarea de evaluar la validez de esos dos hallazgos dispares.

Como sugiere la lista de preguntas de Cyrus , el tema en sí no es susceptible de una respuesta breve, y los libros enteros están esencialmente destinados a abordar dicha pregunta. Para cualquier persona interesada en realizar investigaciones sobre datos no experimentales, le recomiendo que lea

Diseños experimentales y cuasiexperimentales para inferencia causal generalizada por William R. Shadish, Thomas D. Cook, Donald Thomas Campbell (También he escuchado que las versiones anteriores de este texto son igual de buenas).

Varios elementos a los que Jeromy se refirió (tamaños de muestra más grandes y mayor rigor metodológico), y todo lo que Cyrus menciona se consideraría lo que Campbell y Cook denominan "Validez interna". Estos incluyen aspectos del diseño de la investigación y los métodos estadísticos utilizados para evaluar la relación entre X e Y. En particular, como críticos, nos preocupan los aspectos que podrían sesgar los resultados y disminuir la confiabilidad de los hallazgos. Como este es un foro dedicado al análisis estadístico, muchas de las respuestas se centran en métodos estadísticos para garantizar estimaciones imparciales de cualquier relación que esté evaluando. Pero hay otros aspectos del diseño de la investigación no relacionados con el análisis estadístico que disminuyen la validez de los hallazgos, sin importar qué tan riguroso sea el análisis estadístico (como la mención de Cyrus de varios aspectos de la fidelidad del experimento puede abordarse pero no resolverse con métodos estadísticos, y si ocurren siempre disminuirá la validez de los resultados de los estudios). Hay muchos otros aspectos de la validez interna que se vuelven cruciales para evaluar al comparar resultados de estudios no experimentales que no se mencionan aquí, y aspectos de los diseños de investigación que pueden distinguir la confiabilidad de los hallazgos. No creo que sea muy apropiado entrar en demasiados detalles aquí,

Campbell y Cook también se refieren a la "validez externa" de los estudios. Este aspecto del diseño de la investigación es a menudo mucho más pequeño y no merece tanta atención como la validez interna. La validez externa se ocupa esencialmente de la generalización de los hallazgos, y diría que los legos a menudo pueden evaluar la validez externa razonablemente bien, siempre y cuando estén familiarizados con el tema. Larga historia corta leída el libro de Shadish, Cook y Campbell.

Andy W
fuente

8

La literatura de metaanálisis es relevante para su pregunta. Mediante el uso de técnicas metaanalíticas, podría generar una estimación del efecto del interés agrupado entre los estudios. Dichas técnicas suelen pesar los estudios en términos de su tamaño de muestra.

Dentro del contexto del metaanálisis, los investigadores hablan sobre modelos de efectos fijos y de efectos aleatorios (ver Hunter y Schmidt, 2002 ). Un modelo de efectos fijos supone que todos los estudios estiman el mismo efecto de población. Un modelo de efectos aleatorios supone que los estudios difieren en el efecto de la población que se estima. Un modelo de efectos aleatorios suele ser más apropiado.

A medida que se acumulan más estudios sobre una relación particular, se hacen posibles enfoques más sofisticados. Por ejemplo, puede codificar los estudios en términos de varias propiedades, como la calidad percibida, y luego examinar empíricamente si el tamaño del efecto varía con estas características del estudio. Más allá de la calidad puede haber algunas diferencias teóricamente relevantes entre los estudios que moderarían la relación (por ejemplo, características de la muestra, niveles de dosificación, etc.).

En general, tiendo a confiar en los estudios con:

tamaños de muestra más grandes
mayor rigor metodológico
una orientación confirmatoria (p. ej., no un estudio en el que probaron las correlaciones entre 100 nutrientes diferentes y 50 resultados de salud)
ausencia de conflicto de intereses (por ejemplo, no por una empresa con un interés comercial en mostrar una relación; no por un investigador que tenga un incentivo para encontrar un resultado significativo)

Pero dicho esto, debe mantener un muestreo aleatorio y diferencias teóricamente significativas entre los estudios como una explicación plausible de los resultados de los estudios en conflicto.

Jeromy Anglim
fuente

Particularmente me gusta la razón de probabilidad como un medio de agregar evidencia en el metanálisis; Si tiene datos suficientes para calcularlos para cada estudio, simplemente calcule el producto entre los estudios para representar la evidencia agregada a favor o en contra de una hipótesis.

Mike Lawrence

Comenté sobre la (ir) relevancia del metanálisis después de la respuesta de Cyrus, pero voté por esta respuesta para todo lo demás, especialmente los puntos de bala.

whuber

La pregunta de @whuber @ Gaetan supone que un estudio está más cerca de la verdad. Intento dar un paso atrás y situar las variaciones en los resultados entre los estudios dentro de un marco metaanalítico, reconociendo la posibilidad de que los estudios puedan ser de igual calidad, pero que el muestreo aleatorio o las diferencias sustantivas pueden ser la explicación.

Jeromy Anglim

@whuber Incluso con dos estudios, sería posible formar una estimación metaanalítica del efecto de interés. Por supuesto, el intervalo de confianza de la estimación del efecto puede ser grande. Pero se espera un alto grado de incertidumbre si solo se han realizado dos estudios y están dando resultados contradictorios.

Jeromy Anglim

5

Esperaría a considerar el metanálisis hasta que haya examinado las fuentes si existe un posible sesgo o variación en las poblaciones objetivo. Si se trata de estudios de los efectos del tratamiento, ¿se asignó el tratamiento al azar? ¿Hubo desviaciones del protocolo? ¿Hubo incumplimiento? ¿Faltan datos de resultados? ¿Se tomaron muestras del mismo marco? ¿Hubo negativa a participar? Errores de implementación? ¿Se calcularon correctamente los errores estándar, teniendo en cuenta el agrupamiento y robusto a varios supuestos paramétricos? Solo después de haber respondido estas preguntas, creo que los problemas de metanálisis comienzan a entrar en escena. Debe ser raro que para cualquiera de los dos estudios el metanálisis sea apropiado, a menos que esté dispuesto a hacer suposiciones heroicas.

Ciro
fuente

¿Pero estos pasos ya no son parte del metanálisis?

chl

3

@chl: Cierto, pero el punto es que estos pasos llegan a la esencia de la pregunta. Un metanálisis sería útil solo cuando hay muchos estudios (no solo dos) y sus méritos ya han sido cuidadosamente evaluados. La pregunta que tenemos ante nosotros es realmente cómo evaluar la calidad de un estudio, o un par de estudios conflictivos, en primer lugar. Cyrus ha señalado algunos de los muchos aspectos de esto; un tratamiento razonable generalmente requiere uno o dos semestres de estudio a nivel universitario. Desde este punto de vista, creo que su uso del término "heroico" es algo discreto.

whuber

1

@whuber Sí, estoy de acuerdo contigo y @Cyrus. Por supuesto, evaluar la calidad y la confianza de los estudios anteriores es un paso obligatorio (y lleva tiempo revisar todos los estudios, especialmente cuando tenemos que contactar a los autores porque falta información en la EM); Simplemente pensé que esto era parte del metanálisis, y la "parte estadística" se reduce a traer un resumen cuantitativo de resultados confiables.

chl

¿Cómo detectar cuál es el mejor estudio cuando te dan resultados contradictorios?

Respuestas: