¿Puede explicar la paradoja de Simpson con ecuaciones, en lugar de tablas de contingencia?

14

Probablemente no tengo una comprensión clara de la paradoja de Simpson . Informalmente sé que el promedio de respuesta Y1, agrupado en todos los niveles posibles del factor A, puede ser mayor que el promedio de respuesta Y2 en todos los niveles de A, incluso si el promedio de Y1 para cada nivel de A (cada grupo) es siempre menor que el promedio correspondiente de Y2. He leído ejemplos, pero aún me sorprende cada vez que lo veo, tal vez porque no aprendo bien con ejemplos específicos: tengo problemas para generalizarlos. Aprendo mejor, y preferiría ver, una explicación en fórmulas. ¿Puede explicar la paradoja que se basa en ecuaciones, en lugar de contar tablas?

Además, creo que la razón de mi sorpresa es que inconscientemente podría estar haciendo algunas suposiciones sobre los promedios involucrados en la paradoja, lo que puede no ser cierto en general. ¿Tal vez se me olvida pesar por la cantidad de muestras en cada grupo? Pero luego, me gustaría ver una ecuación que me muestre que la estimación del promedio total es más precisa si ponderé el promedio de cada grupo por el número de muestras en cada grupo, porque (si esto es cierto) no es obvio para mi en general. Ingenuamente, pensaría que la estimación de tiene un error estándar más bajo cuando tengo más muestras, independientemente de la ponderación.mi[Y1]

DeltaIV
fuente
1
Tengo una publicación relacionada aquí con simulaciones. La simulación puede ser útil para que entiendas la paradoja de simpson
Haitao Du
¡Aquí hay una máquina que produce las paradojas de Simpson a pedido!
kjetil b halvorsen

Respuestas:

11

Aquí hay un enfoque general para comprender la paradoja de Simpson algebraicamente para los datos de conteo.

Supongamos que tenemos datos de supervivencia para una exposición y creamos una tabla de contingencia de 2x2. Para simplificar las cosas, tendremos los mismos recuentos en cada celda. Podríamos relajar esto, pero haría que el álgebra fuera bastante desordenada.

MurióSobrevivióÍndice de mortalidadExpuestoXX0.5 0.5No expuestoXX0.5 0.5

En este caso, la tasa de mortalidad es la misma en los grupos expuestos y no expuestos.

Ahora, si dividimos los datos, digamos en un grupo para mujeres y otro grupo para hombres, obtenemos 2 tablas, con los siguientes recuentos:

Machos:

MurióSobrevivióÍndice de mortalidadExpuestoXunXsiunun+siNo expuestoXCXreCC+re

y para mujeres:

MurióSobrevivióÍndice de mortalidadExpuestoX(un-1)X(si-1)un-1un+si-2No expuestoX(C-1)X(re-1)C-1C+re-2

donde un,si,C,re[0 0,1] son las proporciones de cada celda en la tabla de datos agregados que son masculinos.

La paradoja de Simpson ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean mayores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea mayor que la tasa de mortalidad para las mujeres no expuestas. Alternativamente, también ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean menores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea menor que la tasa de mortalidad para las mujeres no expuestas. Eso es cuando

(unun+si<CC+re) y (un-1un+si-2<C-1C+re-2)

(aa+b>cc+d) and (a1a+b2>c1c+d2)

Como ejemplo concreto, sea X=100 , y a=0.5,b=0.8,c=0.9 . Entonces tendremos la paradoja de Simpson cuando:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

De lo cual concluimos que d debe estar en (0.96,1]

El segundo conjunto de desigualdades da:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

d[0,1]

a,b,cd0.99

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

and for Females:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.

Robert Long
fuente
16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) para el grupo B. Entonces es fácil ver que la pendiente de la línea de regresión general debe ser (14-9 9)/ /(11-2)=0,55 cual es el coeficiente de regresión general para X. Así vemos la paradoja de Simpson en acción: tenemos una asociación negativa deX con yen cada grupo individualmente, pero una asociación positiva en general cuando se agregan los datos. Podemos demostrar esto fácilmente en R de la siguiente manera:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

ingrese la descripción de la imagen aquí

Los puntos rojos y la línea de regresión son del grupo A, los puntos azules y la línea de regresión son del grupo B y la línea negra es la línea de regresión general.

Robert Long
fuente
Hola, gracias por la respuesta, pero este es otro ejemplo específico de la paradoja de Simpson. Pedí específicamente algo en forma de un teorema o un conjunto de ecuaciones, un enfoque más abstracto y general. De todos modos, dado que no hay otras respuestas, estudiaré su ejemplo y si siento que me ayuda a generalizar el concepto, aceptaré la respuesta.
DeltaIV
3
@DeltaIV He escrito una nueva respuesta usando argumentos puramente algebraicos.
Robert Long