¿La paradoja de Simpson cubre todas las instancias de reversión de una variable oculta?

La siguiente es una pregunta sobre las muchas visualizaciones ofrecidas como 'prueba por imagen' de la existencia de la paradoja de Simpson, y posiblemente una pregunta sobre la terminología.

La paradoja de Simpson es un fenómeno bastante simple para describir y dar ejemplos numéricos de (la razón por la que esto puede suceder es profunda e interesante). La paradoja es que existen tablas de contingencia 2x2x2 (Agresti, Análisis de datos categóricos) donde la asociación marginal tiene una dirección diferente de cada asociación condicional.

Es decir, la comparación de proporciones en dos subpoblaciones puede ir en una dirección, pero la comparación en la población combinada va en la otra dirección. En símbolos:

Existen modo que $a,b,c,d,e,f,g,h$

\frac{a + b}{c + d} > \frac{e + f}{g + h}

$\frac{a+b}{c+d} > \frac{e+f}{g+h}$

pero y

\frac{a}{c} < \frac{e}{g}

$\frac{a}{c} < \frac{e}{g}$

\frac{b}{d} < \frac{f}{h}

$\frac{b}{d} < \frac{f}{h}$

Esto se representa con precisión en la siguiente visualización (de Wikipedia ):

Una fracción es simplemente la pendiente de los vectores correspondientes, y es fácil ver en el ejemplo que los vectores B más cortos tienen una pendiente mayor que los vectores L correspondientes, pero el vector B combinado tiene una pendiente menor que el vector L combinado.

Hay una visualización muy común en muchas formas, una en particular al frente de esa referencia de Wikipedia en Simpson:

Este es un gran ejemplo de confusión, cómo una variable oculta (que separa dos subpoblaciones) puede mostrar un patrón diferente.

Sin embargo, matemáticamente, dicha imagen de ninguna manera corresponde a una visualización de las tablas de contingencia que están en la base del fenómeno conocido como la paradoja de Simpson . Primero, las líneas de regresión están sobre los datos del conjunto de puntos de valor real, no los datos de una tabla de contingencia.

Además, se pueden crear conjuntos de datos con una relación arbitraria de pendientes en las líneas de regresión, pero en las tablas de contingencia, existe una restricción sobre cuán diferentes pueden ser las pendientes. Es decir, la línea de regresión de una población puede ser ortogonal a todas las regresiones de las subpoblaciones dadas. Pero en la paradoja de Simpson, las proporciones de las subpoblaciones, aunque no son una pendiente de regresión, no pueden alejarse demasiado de la población amalgamada, incluso en la otra dirección (nuevamente, vea la imagen de comparación de la relación de Wikipedia).

Para mí, eso es suficiente para sorprenderme cada vez que veo la última imagen como una visualización de la paradoja de Simpson. Pero como veo los ejemplos (lo que llamo incorrecto) en todas partes, tengo curiosidad por saber:

¿Me estoy perdiendo una transformación sutil de los ejemplos originales de Simpson / Yule de tablas de contingencia en valores reales que justifican la visualización de la línea de regresión?
Seguramente Simpson es un caso particular de error de confusión. ¿El término 'Paradoja de Simpson' ahora se ha equiparado con un error de confusión, de modo que cualquiera que sea la matemática, cualquier cambio de dirección a través de una variable oculta puede llamarse Paradoja de Simpson?

Anexo: Aquí hay un ejemplo de una generalización a una tabla 2xmxn (o 2 por m por continuo):

Si se amalgama sobre el tipo de tiro, parece que un jugador hace más disparos cuando los defensores están más cerca. Agrupados por tipo de disparo (distancia de la canasta realmente), la situación más intuitiva esperada ocurre, que se realizan más disparos cuanto más lejos están los defensores.

Esta imagen es lo que considero una generalización de Simpson a una situación más continua (distancia de los defensores). Pero todavía no veo cómo el ejemplo de la línea de regresión es un ejemplo de Simpson.

mathematical-statistics data-visualization causality contingency-tables simpsons-paradox Mitch
fuente

La paradoja de Simpson no se aplica solo a datos objetivo categóricos. Los datos objetivos continuos con un factor categórico que lo afecta, como en su gráfico final, pueden estar sujetos a la paradoja. La clave es ese "factor categórico", no si la variable de interés es o no categórica, o si alguno o todos los demás factores que afectan a la variable de interés son categóricos.

jbowman

@jbowman OK, puedo ver posiblemente que SP puede ser generalizable más allá de los datos categóricos a continuo (no he visto esa generalización; parece que SP siempre se presenta con tablas de contingencia), pero no veo cómo corresponde el segundo gráfico. Quiero decir que veo la metáfora obvia pero vaga "una variable oculta puede cambiar la dirección", pero simplemente no veo cómo funciona la generalización matemáticamente / precisamente.

Mitch

Tiene un factor categórico oculto que hace que los datos "reales" sigan las dos líneas coloreadas, pero sin saberlo, los datos parecen seguir la línea punteada. Considere los accidentes de manejo por edad como su objetivo y las variables del eje x, no categóricas. Parecen disminuir con la edad, ¿verdad? Ahora agregue el "factor oculto" de "conducir en estado de ebriedad". La línea azul sería "conducir mientras está borracho", la roja "conducir mientras no está borracho". Dado ese factor oculto, correlacionado con la juventud, ¡los accidentes aumentan con la edad! (No es el ejemplo más realista, debo admitirlo, pero es la idea lo que cuenta ...)

jbowman

@jbowman Eso solo suena como una explicación de error de confusión en lugar de SP. Tal vez estás diciendo que SP y confusión son lo mismo. Pero eso suena en la dirección de una respuesta; tal vez podría formalizarlo un poco más y hacer que la conexión con SP sea más explícita (tenga en cuenta matemáticamente cómo las líneas de regresión son de alguna manera como las comparaciones de razones en el caso de la tabla de contingencia).

Mitch

Estoy de acuerdo en que la versión de contingencia es diferente en un par de formas del ejemplo de regresión en su pregunta. (1) La variable de confusión no es una covariable describe una muestra individual, es una proporción que difiere entre el tratamiento y el grupo de control. En el ejemplo de cálculos renales, la proporción de pacientes con cálculos grandes es diferente entre los dos grupos y eso causa la paradoja. (2) En el ejemplo del riñón, el tratamiento no se correlaciona con un cambio en la variable de confusión, es un efecto separado.

x

$x$

p

$p$

Paul

Respuestas:

La paradoja es que existen tablas de contingencia 2x2x2 (Agresti, Análisis de datos categóricos) donde la asociación marginal tiene una dirección diferente de cada asociación condicional [...] ¿Me estoy perdiendo una transformación sutil de los ejemplos originales de tablas de contingencia de Simpson / Yule en valores reales que justifican la visualización de la línea de regresión?

El problema principal es que estás equiparando una forma simple de mostrar la paradoja como la paradoja misma. El ejemplo simple de la tabla de contingencia no es la paradoja per se. La paradoja de Simpson se trata de intuiciones causales conflictivas al comparar asociaciones marginales y condicionales, con mayor frecuencia debido a reversiones de signos (o atenuaciones extremas como la independencia, como en el ejemplo original dado por el propio Simpson , en el que no hay una reversión de signos). La paradoja surge cuando interpreta ambas estimaciones causalmente, lo que podría llevar a conclusiones diferentes: ¿el tratamiento ayuda o perjudica al paciente? ¿Y qué estimación debes usar?

Si el patrón paradójico aparece en una tabla de contingencia o en una regresión, no importa. Todas las variables pueden ser continuas y la paradoja aún podría ocurrir --- por ejemplo, podría tener un caso donde todavía . $\frac{\partial E(Y|X)}{\partial X} > 0$ $\frac{\partial E(Y|X, C = c)}{\partial X} < 0, \forall c$

Seguramente Simpson es un caso particular de error de confusión.

¡Esto es incorrecto! La paradoja de Simpson no es un caso particular de error de confusión: si fuera solo eso, entonces no habría ninguna paradoja en absoluto. Después de todo, si está seguro de que alguna relación está confundida, no se sorprendería de ver reversiones de signos o atenuaciones en tablas de contingencia o coeficientes de regresión, tal vez incluso podría esperar eso.

Entonces, si bien la paradoja de Simpson se refiere a una inversión (o atenuación extrema) de los "efectos" al comparar asociaciones marginales y condicionales, esto podría no deberse a confusión y, a priori, no se puede saber si la tabla marginal o condicional es la "correcta" "uno para consultar para responder a su consulta causal. Para hacer eso, necesita saber más sobre la estructura causal del problema.

Considere estos ejemplos dados en Pearl :

Imagínese que usted está interesado en el efecto causal totales de en . La reversión de las asociaciones podría ocurrir en todos estos gráficos. En (a) y (d) hemos confusión, y que podríamos ajustar . En (b) no hay confusión, es un mediador, y no se debe ajustar para . En (c) es un colisionador y no hay confusión, lo que no debe ajustarse a tampoco. Es decir, en dos de estos ejemplos (byc) podría observar la paradoja de Simpson, sin embargo, no hay confusión alguna y la respuesta correcta para su consulta causal sería dada por la estimación no ajustada. $X$ $Y$ $Z$ $Z$ $Z$ $Z$ $Z$

La explicación de Pearl de por qué esto se consideró una "paradoja" y por qué todavía desconcierta a las personas es muy plausible. Tome el caso simple representado en (a) por ejemplo: los efectos causales no pueden simplemente revertirse así. Por lo tanto, si asumimos erróneamente que ambas estimaciones son causales (la marginal y la condicional), nos sorprendería ver que tal cosa sucede, y los humanos parecen estar conectados para ver la causalidad en la mayoría de las asociaciones.

Volvamos a su pregunta principal (título):

¿La paradoja de Simpson cubre todas las instancias de reversión de una variable oculta?

En cierto sentido, esta es la definición actual de la paradoja de Simpson. Pero, obviamente, la variable de condicionamiento no está oculta, debe observarse, de lo contrario no vería la paradoja. La mayor parte de la parte desconcertante de la paradoja proviene de consideraciones causales y esta variable "oculta" no es necesariamente un factor de confusión.

Tablas de contigencia y regresión

Como se discutió en los comentarios, la identidad algebraica de ejecutar una regresión con datos binarios y calcular las diferencias de proporciones de las tablas de contingencia podría ayudar a comprender por qué la paradoja que aparece en las regresiones es de naturaleza similar. Imagine que su resultado es , su tratamiento sus grupos , todas las variables binarias. $y$ $x$ $z$

Entonces, la diferencia general en proporción es simplemente el coeficiente de regresión de en . Usando su notación: $y$ $x$

\frac{a + b}{c + d} - \frac{e + f}{g + h} = \frac{c o v (y, x)}{v a r (x)}

$\frac{a+b}{c+d} - \frac{e+f}{g+h} = \frac{cov(y,x)}{var(x)}$

Y lo mismo vale para cada subgrupo de si ejecuta regresiones separadas, una para : $z$ $z=1$

\frac{a}{c} - \frac{e}{g} = \frac{c o v (y, x | z = 1)}{v a r (x | z = 1)}

$\frac{a}{c} - \frac{e}{g} = \frac{cov(y,x|z =1)}{var(x|z=1)}$

Y otro para : $z =0$

\frac{b}{d} - \frac{f}{h} = \frac{c o v (y, x | z = 0)}{v a r (x | z = 0)}

$\frac{b}{d} - \frac{f}{h} = \frac{cov(y,x|z=0)}{var(x|z=0)}$

Por lo tanto, en términos de regresión, la paradoja corresponde a la estimación del primer coeficiente en una dirección y los dos coeficientes de los subgrupos en una dirección diferente al coeficiente para toda la población . $\left(\frac{cov(y,x)}{var(x)}\right)$ $\left(\frac{cov(y,x|z)}{var(x|z)}\right)$ $\left(\frac{cov(y,x)}{var(x)}\right)$

Carlos Cinelli
fuente

Parece que, en su opinión, la paradoja de Simpson se refiere no solo a la posibilidad de una diferencia en las asociaciones marginales y condicionales, sino también a la confusión acerca de cuál es "correcto" usar al interpretar los datos. ¿Y Pearl muestra que la estructura causal es lo que debemos usar para decidir esto?

Paul

"La paradoja de Simpson se trata de intuiciones conflictivas al comparar asociaciones marginales y condicionales". No estoy de acuerdo aquí, la paradoja de Simpson se refiere específicamente a un cambio de signo cuando se comparan los resultados crudos con los estratificados.

AdamO

@AdamO, aunque la mayoría de las personas usan el caso extremo de la inversión de signos como la definición "estricta" de la paradoja de Simpson, el ejemplo original de Simpson en realidad no tenía inversión de signos.

Carlos Cinelli

@Paul eso es exactamente correcto.

Carlos Cinelli

@AdamO Creo que la explicación de Pearl de por qué esto se consideró una "paradoja" y por qué todavía desconcierta a las personas es plausible. En el caso simple de (a), por ejemplo, los efectos causales no pueden simplemente revertirse así. Por lo tanto, si estamos pensando causalmente en ambos casos, nos sorprendería ver que tal cosa suceda, y los humanos parecen estar conectados para ver la causalidad en la mayoría de las asociaciones.

Carlos Cinelli

¿Me estoy perdiendo una transformación sutil de los ejemplos originales de Simpson / Yule de tablas de contingencia en valores reales que justifican la visualización de la línea de regresión?

Si. Es posible una representación similar de análisis categóricos visualizando las probabilidades de respuesta logarítmicas en el eje Y. La paradoja de Simpson parece muy similar con una línea "cruda" que va en contra de las tendencias específicas del estrato ponderadas en la distancia de acuerdo con las probabilidades de registro del referente del estrato del resultado.

Aquí hay un ejemplo con los datos de admisión de Berkeley

Aquí el género es un código masculino / femenino, en el eje X se encuentran las probabilidades brutas de registro de ingresos para hombres frente a mujeres, la línea negra discontinua gruesa muestra preferencia de género: la pendiente positiva sugiere un sesgo hacia los ingresos masculinos. Los colores representan la admisión a departamentos específicos. En todos menos dos casos, la pendiente de la línea de preferencia de género específica del departamento es negativa. Si estos resultados se promedian juntos en un modelo logístico que no tiene en cuenta la interacción, el efecto general es una reversión que favorece las admisiones femeninas. Se aplicaron a departamentos más difíciles con mayor frecuencia que los hombres.

Seguramente Simpson es un caso particular de error de confusión. ¿El término 'Paradoja de Simpson' ahora se ha equiparado con un error de confusión, de modo que cualquiera que sea la matemática, cualquier cambio de dirección a través de una variable oculta puede llamarse Paradoja de Simpson?

Brevemente no. La paradoja de Simpson es simplemente el "qué", mientras que la confusión es el "por qué". La discusión dominante se ha centrado en dónde están de acuerdo. La confusión puede tener un efecto mínimo o insignificante en las estimaciones y, alternativamente, la paradoja de Simpson, aunque dramática, puede ser causada por personas que no confunden. Como nota, los términos variable "oculto" o "al acecho" son imprecisos. Desde la perspectiva del epidemiólogo, el control cuidadoso y el diseño del estudio deberían permitir la medición o el control de posibles contribuyentes al sesgo de confusión. No necesitan estar "ocultos" para ser un problema.

Hay momentos en que las estimaciones puntuales pueden variar drásticamente, hasta el punto de reversión, que no resultan de la confusión. Los colisionadores y los mediadores también son efectos de cambio, posiblemente invirtiéndolos. El razonamiento causal advierte que para estudiar los efectos, el efecto principal debe estudiarse de forma aislada en lugar de ajustarse a estos, ya que la estimación estratificada es incorrecta. (Es similar a inferir, incorrectamente, que ver al médico lo enferma o que las armas matan a las personas, por lo tanto, las personas no matan a las personas).

AdamO
fuente

¿Entonces diría que el ejemplo original de Simpson no es un caso de "paradoja de Simpson"?

Carlos Cinelli

@CarlosCinelli, ¿a qué ejemplo se referiría? No tengo acceso al artículo de Simpson de 1951, pero dado que está publicado en JRSS y no hace referencia a un ejemplo aplicado en el resumen, parece un trabajo puramente teórico.

AdamO

Es el ejemplo numérico en los párrafos 9 y 10, donde da las mismas tablas de contingencia con dos historias diferentes que conducirían a dos interpretaciones causales diferentes. En ese ejemplo no hay reversión de signos, solo independencia marginal.

Carlos Cinelli

Para ver por qué la reversión de signos es intrascendente aquí, solo imagine una situación en la que un tratamiento muestra una asociación extremadamente fuerte tanto para hombres como para mujeres, pero muestra solo una pequeña asociación en la población en general. Esto también sería paradójico para la mayoría de las personas, si se interpreta de manera causal.

Carlos Cinelli

@CarlosCinelli Hubiera dicho que era un ejemplo de confusión, pero no la paradoja de Simpson per se, pero no voy a aclarar el punto, creo que has hecho un buen argumento y tal vez tenía algunas suposiciones incorrectas sobre lo que era y lo que no era El esquivo fenómeno de la paradoja de Simpson.

AdamO