En su fascinante libro "Naked Statistics", Charles Wheelan comienza a explicar cómo funciona el control de las variables mediante la estratificación de la muestra. Sin embargo, no llega a explicar la reagregación, dejando a uno intrigado por la analogía de la estratificación, pero confundido en cuanto a si, y si es así, cómo puede aplicarse.
Para ser más específico, busca aislar el efecto de la educación en el peso, controlando el género, la altura y los ingresos. Imagina un experimento en el que varias personas (que constituyen la muestra) se reúnen en un solo lugar. Entonces comienza la estratificación:
- Los hombres y las mujeres están separados.
- Los hombres y las mujeres se subdividen separadamente por altura. En este punto, como él lo dice "Habrá una habitación de hombres de 6 pies de altura. Al lado, habrá una habitación de hombres de 6 pies y 1 pulgada"
- Finalmente, cada una de estas habitaciones (identificadas por combinaciones de género y altura) pueden subdividirse aún más por ingreso. Como él dice: "Eventualmente tendremos muchas habitaciones, cada una de las cuales contiene individuos que son idénticos en todos los aspectos, excepto en educación y peso, que son las dos variables que nos interesan. Habría una habitación de cuarenta y cinco hombres de 5 pies y 5 pulgadas de un año de edad que ganan entre 30,000 y 40,000 por año ".
Si bien podemos reducir el peso de la educación en cada una de estas salas, ¿qué tan útil es que, dado que estamos buscando terminar con una soltero ¿Coeficiente que encapsula la relación entre peso y educación observada en cada una de estas salas?
Qué análisis mágico se debería realizar utilizando los datos de las personas en cada una de estas salas, que luego se podrían agregar para obtener el coeficiente de regresión que se puede interpretar como el efecto de la variable independiente de interés en la variable dependiente, después de que controlamos para las dos variables binarias? ¿Cómo funcionaría exactamente la agregación?
Mientras encontré esta pregunta / discusión https://stats.stackexchange.com/questions/17336/how-exactly-does-one-control-for-other-variables Interesante, controlar una variable por su inclusión en una regresión es perspicaz pero no es una respuesta muy intuitiva. La estratificación y la reagregación, si es posible, muestra un poco de promesa de comprensión intuitiva.
Ejemplo ilustrativo con números inventados : A la izquierda están los resultados de la regresión simple del peso en la educación (después de la estratificación por ingreso y género) en cada una de las 4 salas (cada sala con 15 personas / observaciones), mientras que a la derecha están los resultados de la regresión múltiple de peso en educación, ingresos y género (60 personas / observaciones combinadas).
¿Es posible agregar los resultados de las regresiones obtenidas en cada una de las 4 salas (estratificadas por ingreso y género) para obtener el coeficiente de educación obtenido en la regresión múltiple (-3.28), en el que controlamos el ingreso y el género?
fuente