Sesgo excesivo y variables de confusión

8

Según tengo entendido, la correspondencia es una forma de identificar la causalidad en los estudios observacionales. Al comparar las observaciones que son "similares" y comparar las que recibieron o no recibieron tratamiento, puede considerar esto como una especie de cuasiexperimento.

¿Qué es overmatching? ¿Qué tipo de sesgo introduce? La mayoría de las veces he visto coincidencias desde una perspectiva económica, pero recientemente he visto algunos artículos sobre epidemiología que sugieren que la "coincidencia excesiva" puede dar lugar a sesgos. Me resulta difícil entender la terminología de los documentos y agradecería enormemente si alguien pudiera ayudar a explicar algunos de los conceptos principales. A continuación hay un artículo que hace referencia a la idea:

La coincidencia excesiva puede causar sesgo. BMJ. 10 de agosto de 2002; 325 (7359)

d_a_c321
fuente

Respuestas:

11

De Modern Epidemiology 3rd Edition por Rothman, Groenlandia y Lash:

Hay al menos tres formas de coincidencia excesiva. El primero se refiere al emparejamiento que perjudica la eficiencia estadística, como el emparejamiento de casos y controles en una variable asociada con la exposición pero no con la enfermedad. El segundo se refiere al emparejamiento que perjudica la validez, como el emparejamiento en un intermedio entre la exposición y la enfermedad. El tercero se refiere a la correspondencia que perjudica la rentabilidad.

La respuesta de AndyW es acerca de la segunda forma de coincidencia excesiva. Brevemente, así es como funcionan todos:

1: Para ser un factor de confusión, uno de los criterios es que la covariable se asocie tanto con el resultado como con la exposición. Si solo está asociado con uno de ellos, no es un factor de confusión, y todo lo que ha logrado hacer es ampliar su intervalo de confianza.

Para explorar más a fondo este tipo de coincidencia, considere un estudio de casos y controles coincidentes de una exposición binaria, con un control correspondiente a cada caso en uno o más factores de confusión. Cada estrato en el análisis consistirá en un caso y un control a menos que se puedan combinar algunos estratos. Si el caso y su control coincidente están expuestos o ambos no expuestos, un margen de la tabla 2 x 2 será 0 ... ese par de sujetos no aportará ninguna información al análisis. Si uno estratifica en correlatos de exposición, aumentará la posibilidad de que tales tablas ocurran y, por lo tanto, tenderá a aumentar la información perdida en el análisis estratificado.

2: Esto es parcialmente discutido por AndyW. Emparejar en un factor intermedio sesgará su estimación, al igual que emparejar en algo afectado tanto por la exposición como por el resultado. Esto es esencialmente controlar un colisionador, y cualquier técnica que lo haga sesgará su estimación.

Sin embargo, si el factor de coincidencia potencial se ve afectado por la exposición y el factor a su vez afecta la enfermedad (es decir, es una variable intermedia), o se ve afectado tanto por la exposición como por la enfermedad, entonces la coincidencia en el factor sesgará tanto el efecto bruto como el ajustado estimados. En estas situaciones, la coincidencia de casos y controles no es más que una forma irreparable de sesgo de selección.

3: Esto es más un problema de diseño del estudio. La coincidencia extensa en variables con las que no necesita coincidir por las razones 1 y 2 puede hacer que rechace los controles fácilmente obtenidos (amigos, familiares, redes sociales cercanas, etc.) en favor de controles mucho más difíciles de obtener que se pueden combinar en el conjunto innecesario de covariables. Eso cuesta dinero: dinero que podría haberse gastado en más sujetos, una mejor exposición o la detección de enfermedades, etc., sin un aumento apreciable en el sesgo o la precisión, y de hecho haber amenazado a ambos.

Fomite
fuente
1
(+1) Buena respuesta. No me sorprende tanto ver que el libro de texto de Rothman y Groenlandia vuelve a ser una buena referencia para mantener en nuestro escritorio, siempre al alcance de la mano.
chl
7

Si bien ignoraba también la terminología de "coincidencia excesiva", un ejemplo de la misma idea que escuché en la jerga económica y estadística podría ser la coincidencia en un resultado "intermedio". Ver las publicaciones de Andrew Gelman sobre el tema

Este es el mismo problema que se describe al comienzo del artículo que cita ( Marsh et al., 2002 )

Si la exposición en sí misma conduce al factor de confusión, o tiene el mismo estado con él, entonces la estratificación por el factor de confusión también se estratificará por la exposición, y la relación de la exposición a la enfermedad se oscurecerá. Esto se llama sobre-coincidencia ...

Gelman da un ejemplo conceptual claro en la publicación "¿Hacer hijos te hace más conservador". En términos simples (a falta de ejemplos) es solo que tiene sus direcciones causales al revés.

Andy W
fuente
1
Derecha. En el libro de Josh Angrist, Econometría en su mayoría inofensiva, se refiere a los mismos fenómenos como un "mal control". Da el ejemplo de retroceder los salarios en educación y ocupación. Esta es una regresión horrible, ya que se identifica por diferencias en la educación dentro de una ocupación (por ejemplo, si la ocupación fuera abogada, no tendría sentido analizar esas diferencias educativas) y ¡la educación es lo que le permitió ser abogado! Sospeché que el sesgo de coincidencia excesiva podría haber sido eso. Quizás un epidiomólogo vendrá a confirmar. Gracias por los excelentes enlaces de Gelman, los revisaré.
d_a_c321
1
Muy interesante y creo que es un tema importante y poco discutido.
rolando2