¿Puede explicar la paradoja de Simpson con ecuaciones, en lugar de tablas de contingencia?

14

Probablemente no tengo una comprensión clara de la paradoja de Simpson . Informalmente sé que el promedio de respuesta Y1, agrupado en todos los niveles posibles del factor A, puede ser mayor que el promedio de respuesta Y2 en todos los niveles de A, incluso si el promedio de Y1 para cada nivel de A (cada grupo) es siempre menor que el promedio correspondiente de Y2. He leído ejemplos, pero aún me sorprende cada vez que lo veo, tal vez porque no aprendo bien con ejemplos específicos: tengo problemas para generalizarlos. Aprendo mejor, y preferiría ver, una explicación en fórmulas. ¿Puede explicar la paradoja que se basa en ecuaciones, en lugar de contar tablas?

Además, creo que la razón de mi sorpresa es que inconscientemente podría estar haciendo algunas suposiciones sobre los promedios involucrados en la paradoja, lo que puede no ser cierto en general. ¿Tal vez se me olvida pesar por la cantidad de muestras en cada grupo? Pero luego, me gustaría ver una ecuación que me muestre que la estimación del promedio total es más precisa si ponderé el promedio de cada grupo por el número de muestras en cada grupo, porque (si esto es cierto) no es obvio para mi en general. Ingenuamente, pensaría que la estimación de tiene un error estándar más bajo cuando tengo más muestras, independientemente de la ponderación. $\mathbf{E}[Y_1]$

mathematical-statistics simpsons-paradox DeltaIV
fuente

1

Tengo una publicación relacionada aquí con simulaciones. La simulación puede ser útil para que entiendas la paradoja de simpson

Haitao Du

¡Aquí hay una máquina que produce las paradojas de Simpson a pedido!

kjetil b halvorsen

11

Aquí hay un enfoque general para comprender la paradoja de Simpson algebraicamente para los datos de conteo.

Supongamos que tenemos datos de supervivencia para una exposición y creamos una tabla de contingencia de 2x2. Para simplificar las cosas, tendremos los mismos recuentos en cada celda. Podríamos relajar esto, pero haría que el álgebra fuera bastante desordenada.

\begin{array}{cccc} Murió & Sobrevivió & Índice de mortalidad \\ Expuesto & X & X & 0.5 0.5 \\ No expuesto & X & X & 0.5 0.5 \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X & X & 0.5 \\ \hline \text{Unexposed}& X & X & 0.5\\ \hline \end{array}$

En este caso, la tasa de mortalidad es la misma en los grupos expuestos y no expuestos.

Ahora, si dividimos los datos, digamos en un grupo para mujeres y otro grupo para hombres, obtenemos 2 tablas, con los siguientes recuentos:

Machos:

\begin{array}{cccc} Murió & Sobrevivió & Índice de mortalidad \\ Expuesto & X un & X si & \frac{un}{un + si} \\ No expuesto & X C & X re & \frac{C}{C + re} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & Xa & Xb & \frac{a}{a+b} \\ \hline \text{Unexposed}& Xc & Xd & \frac{c}{c+d}\\ \hline \end{array}$

y para mujeres:

\begin{array}{cccc} Murió & Sobrevivió & Índice de mortalidad \\ Expuesto & X (un - 1) & X (si - 1) & \frac{un - 1}{un + si - 2} \\ No expuesto & X (C - 1) & X (re - 1) & \frac{C - 1}{C + re - 2} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \\ \hline \text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\\ \hline \end{array}$

donde $a,b,c,d \in [0,1]$ son las proporciones de cada celda en la tabla de datos agregados que son masculinos.

La paradoja de Simpson ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean mayores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea mayor que la tasa de mortalidad para las mujeres no expuestas. Alternativamente, también ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean menores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea menor que la tasa de mortalidad para las mujeres no expuestas. Eso es cuando

(\frac{un}{un + si} < \frac{C}{C + re}) y (\frac{un - 1}{un + si - 2} < \frac{C - 1}{C + re - 2})

$\left(\frac{a}{a+b} < \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} < \frac{c-1}{c+d-2}\right)$

O

$\text{Or }$

(\frac{a}{a + b} > \frac{c}{c + d}) and (\frac{a - 1}{a + b - 2} > \frac{c - 1}{c + d - 2})

$\left(\frac{a}{a+b} > \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} > \frac{c-1}{c+d-2}\right)$

Como ejemplo concreto, sea $X=100$ , y $a=0.5, b=0.8, c=0.9$ . Entonces tendremos la paradoja de Simpson cuando:

(\frac{0.5}{0.8 + 0.9} < \frac{0.9}{0.9 + d}) and (\frac{0.5 - 1}{0.5 + 0.8 - 2} < \frac{0.9 - 1}{0.9 + d - 2})

$\left(\frac{0.5}{0.8+0.9} < \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} < \frac{0.9-1}{0.9+d-2}\right)$

(- 9 < d < 1.44) and (0.96 < d < 1.1)

$(-9 < d < 1.44) \text{ and } (0.96 < d < 1.1)$

De lo cual concluimos que d debe estar en $(0.96,1]$

El segundo conjunto de desigualdades da:

(\frac{0.5}{0.8 + 0.9} > \frac{0.9}{0.9 + d}) and (\frac{0.5 - 1}{0.5 + 0.8 - 2} > \frac{0.9 - 1}{0.9 + d - 2})

$\left(\frac{0.5}{0.8+0.9} > \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} > \frac{0.9-1}{0.9+d-2}\right)$

(d < - 0.9 or d > 1.44) and (0.96 < d or d > 1.44)

$(d < -0.9 \text{ or } d>1.44) \text{ and } (0.96 < d \text{ or } d > 1.44)$

$d \in [0,1]$

$a,b,$ $c$ $d$ $0.99$

0.5 / (0.5 + 0.8) = 38 % in the exposed group

$0.5/ (0.5+0.8) = 38 \text{% in the exposed group}$

0.9 / (0.9 + 0.99) = 48 % in the unexposed group

$0.9/ (0.9+0.99) = 48 \text{% in the unexposed group}$

and for Females:

(0.5 - 1) / (0.5 + 0.8 - 2) = 71 % in the exposed group

$(0.5-1)/ (0.5+0.8-2) = 71 \text{% in the exposed group}$

(0.9 - 1) / (0.9 + 0.99 - 2) = 91 % in the unexposed group

$(0.9-1)/ (0.9+0.99-2) = 91 \text{% in the unexposed group}$

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.

Robert Long
fuente

16

Suppose we have data on 2 variables, $x$ and $y$ , for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y = 11 - x

$y = 11 - x$

with mean values of $2$ and $9$ for $x$ and $y$ respectively.

Data in group B are such that the fitted regression line is

y = 25 - x

$y = 25 - x$

with mean values of $11$ and $14$ for $x$ and $y$ respectively.

So the regression coefficient for $x$ is $-1$ in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is $(2,9)$ for group A and $(11,14)$ para el grupo B. Entonces es fácil ver que la pendiente de la línea de regresión general debe ser $(14-9)/(11-2) = 0.55$ cual es el coeficiente de regresión general para $x$ . Así vemos la paradoja de Simpson en acción: tenemos una asociación negativa de $x$ con $y$ en cada grupo individualmente, pero una asociación positiva en general cuando se agregan los datos. Podemos demostrar esto fácilmente en R de la siguiente manera:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

Los puntos rojos y la línea de regresión son del grupo A, los puntos azules y la línea de regresión son del grupo B y la línea negra es la línea de regresión general.

Robert Long
fuente

Hola, gracias por la respuesta, pero este es otro ejemplo específico de la paradoja de Simpson. Pedí específicamente algo en forma de un teorema o un conjunto de ecuaciones, un enfoque más abstracto y general. De todos modos, dado que no hay otras respuestas, estudiaré su ejemplo y si siento que me ayuda a generalizar el concepto, aceptaré la respuesta.

DeltaIV

3

@DeltaIV He escrito una nueva respuesta usando argumentos puramente algebraicos.

Robert Long

¿Puede explicar la paradoja de Simpson con ecuaciones, en lugar de tablas de contingencia?

Respuestas: