La siguiente es una pregunta sobre las muchas visualizaciones ofrecidas como 'prueba por imagen' de la existencia de la paradoja de Simpson, y posiblemente una pregunta sobre la terminología.
La paradoja de Simpson es un fenómeno bastante simple para describir y dar ejemplos numéricos de (la razón por la que esto puede suceder es profunda e interesante). La paradoja es que existen tablas de contingencia 2x2x2 (Agresti, Análisis de datos categóricos) donde la asociación marginal tiene una dirección diferente de cada asociación condicional.
Es decir, la comparación de proporciones en dos subpoblaciones puede ir en una dirección, pero la comparación en la población combinada va en la otra dirección. En símbolos:
Existen modo que a + b
pero y
Esto se representa con precisión en la siguiente visualización (de Wikipedia ):
Una fracción es simplemente la pendiente de los vectores correspondientes, y es fácil ver en el ejemplo que los vectores B más cortos tienen una pendiente mayor que los vectores L correspondientes, pero el vector B combinado tiene una pendiente menor que el vector L combinado.
Hay una visualización muy común en muchas formas, una en particular al frente de esa referencia de Wikipedia en Simpson:
Este es un gran ejemplo de confusión, cómo una variable oculta (que separa dos subpoblaciones) puede mostrar un patrón diferente.
Sin embargo, matemáticamente, dicha imagen de ninguna manera corresponde a una visualización de las tablas de contingencia que están en la base del fenómeno conocido como la paradoja de Simpson . Primero, las líneas de regresión están sobre los datos del conjunto de puntos de valor real, no los datos de una tabla de contingencia.
Además, se pueden crear conjuntos de datos con una relación arbitraria de pendientes en las líneas de regresión, pero en las tablas de contingencia, existe una restricción sobre cuán diferentes pueden ser las pendientes. Es decir, la línea de regresión de una población puede ser ortogonal a todas las regresiones de las subpoblaciones dadas. Pero en la paradoja de Simpson, las proporciones de las subpoblaciones, aunque no son una pendiente de regresión, no pueden alejarse demasiado de la población amalgamada, incluso en la otra dirección (nuevamente, vea la imagen de comparación de la relación de Wikipedia).
Para mí, eso es suficiente para sorprenderme cada vez que veo la última imagen como una visualización de la paradoja de Simpson. Pero como veo los ejemplos (lo que llamo incorrecto) en todas partes, tengo curiosidad por saber:
- ¿Me estoy perdiendo una transformación sutil de los ejemplos originales de Simpson / Yule de tablas de contingencia en valores reales que justifican la visualización de la línea de regresión?
- Seguramente Simpson es un caso particular de error de confusión. ¿El término 'Paradoja de Simpson' ahora se ha equiparado con un error de confusión, de modo que cualquiera que sea la matemática, cualquier cambio de dirección a través de una variable oculta puede llamarse Paradoja de Simpson?
Anexo: Aquí hay un ejemplo de una generalización a una tabla 2xmxn (o 2 por m por continuo):
Si se amalgama sobre el tipo de tiro, parece que un jugador hace más disparos cuando los defensores están más cerca. Agrupados por tipo de disparo (distancia de la canasta realmente), la situación más intuitiva esperada ocurre, que se realizan más disparos cuanto más lejos están los defensores.
Esta imagen es lo que considero una generalización de Simpson a una situación más continua (distancia de los defensores). Pero todavía no veo cómo el ejemplo de la línea de regresión es un ejemplo de Simpson.
Respuestas:
El problema principal es que estás equiparando una forma simple de mostrar la paradoja como la paradoja misma. El ejemplo simple de la tabla de contingencia no es la paradoja per se. La paradoja de Simpson se trata de intuiciones causales conflictivas al comparar asociaciones marginales y condicionales, con mayor frecuencia debido a reversiones de signos (o atenuaciones extremas como la independencia, como en el ejemplo original dado por el propio Simpson , en el que no hay una reversión de signos). La paradoja surge cuando interpreta ambas estimaciones causalmente, lo que podría llevar a conclusiones diferentes: ¿el tratamiento ayuda o perjudica al paciente? ¿Y qué estimación debes usar?
Si el patrón paradójico aparece en una tabla de contingencia o en una regresión, no importa. Todas las variables pueden ser continuas y la paradoja aún podría ocurrir --- por ejemplo, podría tener un caso donde todavía .∂E(Y|X)∂X>0 ∂E(Y|X,C=c)∂X<0,∀c
¡Esto es incorrecto! La paradoja de Simpson no es un caso particular de error de confusión: si fuera solo eso, entonces no habría ninguna paradoja en absoluto. Después de todo, si está seguro de que alguna relación está confundida, no se sorprendería de ver reversiones de signos o atenuaciones en tablas de contingencia o coeficientes de regresión, tal vez incluso podría esperar eso.
Entonces, si bien la paradoja de Simpson se refiere a una inversión (o atenuación extrema) de los "efectos" al comparar asociaciones marginales y condicionales, esto podría no deberse a confusión y, a priori, no se puede saber si la tabla marginal o condicional es la "correcta" "uno para consultar para responder a su consulta causal. Para hacer eso, necesita saber más sobre la estructura causal del problema.
Considere estos ejemplos dados en Pearl :
Imagínese que usted está interesado en el efecto causal totales de en . La reversión de las asociaciones podría ocurrir en todos estos gráficos. En (a) y (d) hemos confusión, y que podríamos ajustar . En (b) no hay confusión, es un mediador, y no se debe ajustar para . En (c) es un colisionador y no hay confusión, lo que no debe ajustarse a tampoco. Es decir, en dos de estos ejemplos (byc) podría observar la paradoja de Simpson, sin embargo, no hay confusión alguna y la respuesta correcta para su consulta causal sería dada por la estimación no ajustada.X Y Z Z Z Z Z
La explicación de Pearl de por qué esto se consideró una "paradoja" y por qué todavía desconcierta a las personas es muy plausible. Tome el caso simple representado en (a) por ejemplo: los efectos causales no pueden simplemente revertirse así. Por lo tanto, si asumimos erróneamente que ambas estimaciones son causales (la marginal y la condicional), nos sorprendería ver que tal cosa sucede, y los humanos parecen estar conectados para ver la causalidad en la mayoría de las asociaciones.
Volvamos a su pregunta principal (título):
En cierto sentido, esta es la definición actual de la paradoja de Simpson. Pero, obviamente, la variable de condicionamiento no está oculta, debe observarse, de lo contrario no vería la paradoja. La mayor parte de la parte desconcertante de la paradoja proviene de consideraciones causales y esta variable "oculta" no es necesariamente un factor de confusión.
Tablas de contigencia y regresión
Como se discutió en los comentarios, la identidad algebraica de ejecutar una regresión con datos binarios y calcular las diferencias de proporciones de las tablas de contingencia podría ayudar a comprender por qué la paradoja que aparece en las regresiones es de naturaleza similar. Imagine que su resultado es , su tratamiento sus grupos , todas las variables binarias.y x z
Entonces, la diferencia general en proporción es simplemente el coeficiente de regresión de en . Usando su notación:y x
Y lo mismo vale para cada subgrupo de si ejecuta regresiones separadas, una para :z z=1
Y otro para :z=0
Por lo tanto, en términos de regresión, la paradoja corresponde a la estimación del primer coeficiente en una dirección y los dos coeficientes de los subgrupos en una dirección diferente al coeficiente para toda la población .(cov(y,x|z)(cov(y,x)var(x)) (cov(y,x)(cov(y,x|z)var(x|z)) (cov(y,x)var(x))
fuente
Si. Es posible una representación similar de análisis categóricos visualizando las probabilidades de respuesta logarítmicas en el eje Y. La paradoja de Simpson parece muy similar con una línea "cruda" que va en contra de las tendencias específicas del estrato ponderadas en la distancia de acuerdo con las probabilidades de registro del referente del estrato del resultado.
Aquí hay un ejemplo con los datos de admisión de Berkeley
Aquí el género es un código masculino / femenino, en el eje X se encuentran las probabilidades brutas de registro de ingresos para hombres frente a mujeres, la línea negra discontinua gruesa muestra preferencia de género: la pendiente positiva sugiere un sesgo hacia los ingresos masculinos. Los colores representan la admisión a departamentos específicos. En todos menos dos casos, la pendiente de la línea de preferencia de género específica del departamento es negativa. Si estos resultados se promedian juntos en un modelo logístico que no tiene en cuenta la interacción, el efecto general es una reversión que favorece las admisiones femeninas. Se aplicaron a departamentos más difíciles con mayor frecuencia que los hombres.
Brevemente no. La paradoja de Simpson es simplemente el "qué", mientras que la confusión es el "por qué". La discusión dominante se ha centrado en dónde están de acuerdo. La confusión puede tener un efecto mínimo o insignificante en las estimaciones y, alternativamente, la paradoja de Simpson, aunque dramática, puede ser causada por personas que no confunden. Como nota, los términos variable "oculto" o "al acecho" son imprecisos. Desde la perspectiva del epidemiólogo, el control cuidadoso y el diseño del estudio deberían permitir la medición o el control de posibles contribuyentes al sesgo de confusión. No necesitan estar "ocultos" para ser un problema.
Hay momentos en que las estimaciones puntuales pueden variar drásticamente, hasta el punto de reversión, que no resultan de la confusión. Los colisionadores y los mediadores también son efectos de cambio, posiblemente invirtiéndolos. El razonamiento causal advierte que para estudiar los efectos, el efecto principal debe estudiarse de forma aislada en lugar de ajustarse a estos, ya que la estimación estratificada es incorrecta. (Es similar a inferir, incorrectamente, que ver al médico lo enferma o que las armas matan a las personas, por lo tanto, las personas no matan a las personas).
fuente