Probablemente no tengo una comprensión clara de la paradoja de Simpson . Informalmente sé que el promedio de respuesta Y1, agrupado en todos los niveles posibles del factor A, puede ser mayor que el promedio de respuesta Y2 en todos los niveles de A, incluso si el promedio de Y1 para cada nivel de A (cada grupo) es siempre menor que el promedio correspondiente de Y2. He leído ejemplos, pero aún me sorprende cada vez que lo veo, tal vez porque no aprendo bien con ejemplos específicos: tengo problemas para generalizarlos. Aprendo mejor, y preferiría ver, una explicación en fórmulas. ¿Puede explicar la paradoja que se basa en ecuaciones, en lugar de contar tablas?
Además, creo que la razón de mi sorpresa es que inconscientemente podría estar haciendo algunas suposiciones sobre los promedios involucrados en la paradoja, lo que puede no ser cierto en general. ¿Tal vez se me olvida pesar por la cantidad de muestras en cada grupo? Pero luego, me gustaría ver una ecuación que me muestre que la estimación del promedio total es más precisa si ponderé el promedio de cada grupo por el número de muestras en cada grupo, porque (si esto es cierto) no es obvio para mi en general. Ingenuamente, pensaría que la estimación de tiene un error estándar más bajo cuando tengo más muestras, independientemente de la ponderación.
Respuestas:
Aquí hay un enfoque general para comprender la paradoja de Simpson algebraicamente para los datos de conteo.
Supongamos que tenemos datos de supervivencia para una exposición y creamos una tabla de contingencia de 2x2. Para simplificar las cosas, tendremos los mismos recuentos en cada celda. Podríamos relajar esto, pero haría que el álgebra fuera bastante desordenada.
En este caso, la tasa de mortalidad es la misma en los grupos expuestos y no expuestos.
Ahora, si dividimos los datos, digamos en un grupo para mujeres y otro grupo para hombres, obtenemos 2 tablas, con los siguientes recuentos:
Machos:ExpuestoNo expuestoMurióXunXCSobrevivióXsiXreÍndice de mortalidaduna + bCc + d
y para mujeres:ExpuestoNo expuestoMurióX( a - 1 )X( c - 1 )SobrevivióX( b - 1 )X( d- 1 )Índice de mortalidada - 1a + b - 2c - 1c + d- 2
dondea , b , c , d∈ [ 0 , 1 ] son las proporciones de cada celda en la tabla de datos agregados que son masculinos.
La paradoja de Simpson ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean mayores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea mayor que la tasa de mortalidad para las mujeres no expuestas. Alternativamente, también ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean menores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea menor que la tasa de mortalidad para las mujeres no expuestas. Eso es cuando
Como ejemplo concreto, seaX=100 , y a=0.5,b=0.8,c=0.9 . Entonces tendremos la paradoja de Simpson cuando:
De lo cual concluimos que d debe estar en(0.96,1]
El segundo conjunto de desigualdades da:
and for Females:
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.
fuente
Suppose we have data on 2 variables,x and y , for 2 groups, A and B.
Data in group A are such that the fitted regression line is
with mean values of2 and 9 for x and y respectively.
Data in group B are such that the fitted regression line is
with mean values of11 and 14 for x and y respectively.
So the regression coefficient forx is −1 in both groups.
Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is(2,9) for group A and ( 11 , 14 ) para el grupo B. Entonces es fácil ver que la pendiente de la línea de regresión general debe ser ( 14 - 9 ) / ( 11 - 2 ) = 0,55 cual es el coeficiente de regresión general para X . Así vemos la paradoja de Simpson en acción: tenemos una asociación negativa deX con y en cada grupo individualmente, pero una asociación positiva en general cuando se agregan los datos. Podemos demostrar esto fácilmente en R de la siguiente manera:
Los puntos rojos y la línea de regresión son del grupo A, los puntos azules y la línea de regresión son del grupo B y la línea negra es la línea de regresión general.
fuente