Aquí está el artículo que motivó esta pregunta: ¿la impaciencia nos engorda?
Me gustó este artículo, y demuestra muy bien el concepto de "controlar otras variables" (IQ, carrera, ingresos, edad, etc.) para aislar mejor la verdadera relación entre solo las 2 variables en cuestión.
¿Puede explicarme cómo controla realmente las variables en un conjunto de datos típico?
Por ejemplo, si tiene 2 personas con el mismo nivel de impaciencia e IMC, pero con ingresos diferentes, ¿cómo trata estos datos? ¿Los clasifica en diferentes subgrupos que tienen ingresos, paciencia e IMC similares? Pero, eventualmente, hay docenas de variables para controlar (IQ, carrera, ingresos, edad, etc.) ¿Cómo se agregan estos (potencialmente) 100 de subgrupos? De hecho, tengo la sensación de que este enfoque está ladrando el árbol equivocado, ahora que lo he verbalizado.
¡Gracias por arrojar algo de luz sobre algo que he querido llegar al fondo desde hace unos años ...!
Respuestas:
Hay muchas formas de controlar las variables.
Lo más fácil, y lo que se te ocurrió, es estratificar tus datos para que tengas subgrupos con características similares; luego hay métodos para agrupar esos resultados para obtener una sola "respuesta". Esto funciona si tiene un número muy pequeño de variables para las que desea controlar, pero como ha descubierto correctamente, esto se desmorona rápidamente al dividir sus datos en fragmentos cada vez más pequeños.
Un enfoque más común es incluir las variables que desea controlar en un modelo de regresión. Por ejemplo, si tiene un modelo de regresión que puede describirse conceptualmente como:
La estimación que obtendrá para la impaciencia será el efecto de la impaciencia dentro de los niveles de las otras covariables: la regresión le permite suavizar esencialmente los lugares donde no tiene muchos datos (el problema con el enfoque de estratificación), aunque esto debería hacerse con cuidado.
Hay formas aún más sofisticadas de controlar otras variables, pero las probabilidades son cuando alguien dice "controlado por otras variables", lo que significa que se incluyeron en un modelo de regresión.
Bien, has pedido un ejemplo en el que puedes trabajar, para ver cómo funciona. Te guiaré paso a paso. Todo lo que necesitas es una copia de R instalada.
Primero, necesitamos algunos datos. Corte y pegue los siguientes fragmentos de código en R. Tenga en cuenta que este es un ejemplo artificial que inventé en el acto, pero muestra el proceso.
Esa es tu información. Tenga en cuenta que ya conocemos la relación entre el resultado, la exposición y la covariable: ese es el punto de muchos estudios de simulación (de los cuales este es un ejemplo extremadamente básico. Comienza con una estructura que conoce y se asegura de que su método pueda obtener la respuesta correcta
Ahora bien, en el modelo de regresión. Escriba lo siguiente:
¿Recibió una Intercepción = 2.0 y una exposición = 0.6766? ¿O algo parecido, dado que habrá alguna variación aleatoria en los datos? Bien, esta respuesta es incorrecta. Sabemos que está mal. ¿Por qué está mal? No hemos podido controlar una variable que afecta el resultado y la exposición. Es una variable binaria, haga lo que quiera: género, fumador / no fumador, etc.
Ahora ejecuta este modelo:
Esta vez debería obtener coeficientes de intercepción = 2.00, exposición = 0.50 y una covariable de 0.25. Esto, como sabemos, es la respuesta correcta. Has controlado por otras variables.
Ahora, ¿qué sucede cuando no sabemos si nos hemos ocupado de todas las variables que necesitamos (realmente nunca lo hacemos)? Esto se llama confusión residual , y es una preocupación en la mayoría de los estudios de observación: que hemos controlado imperfectamente y nuestra respuesta, aunque cercana a la derecha, no es exacta. ¿Eso ayuda más?
fuente
Introducción
Me gusta la respuesta de @ EpiGrad (+1) pero déjame tomar una perspectiva diferente. A continuación, me refiero a este documento PDF: "Análisis de regresión múltiple: estimación" , que tiene una sección sobre la interpretación "A" de la regresión múltiple "(p. 83f.). Desafortunadamente, no tengo idea de quién es el autor de este capítulo y me referiré a él como REGCHAPTER. Se puede encontrar una explicación similar en Kohler / Kreuter (2009) "Análisis de datos utilizando Stata" , capítulo 8.2.3 "¿Qué significa 'bajo control'?".
Usaré el ejemplo de @ EpiGrad para explicar este enfoque. El código R y los resultados se pueden encontrar en el Apéndice.
También debe tenerse en cuenta que "controlar otras variables" solo tiene sentido cuando las variables explicativas están moderadamente correlacionadas (colinealidad). En el ejemplo mencionado anteriormente, la correlación producto-momento entre
exposure
ycovariate
es 0.50, es decir,Derechos residuales de autor
Supongo que tiene una comprensión básica del concepto de residuos en el análisis de regresión. Aquí está la explicación de Wikipedia : "Si uno realiza una regresión sobre algunos datos, las desviaciones de las observaciones de la variable dependiente de la función ajustada son los residuos".
¿Qué significa "bajo control"?
Controlando la variable
covariate
, el efecto (peso de regresión) deexposure
onoutcome
se puede describir de la siguiente manera (soy descuidado y omito la mayoría de los índices y todos los sombreros, consulte el texto mencionado anteriormente para obtener una descripción precisa):exposure
sobrecovariate
, es decir,Los "residuos [..] son la parte de que no está correlacionada con . [...] Por lo tanto, mide la relación de muestra entre y después de que ha sido parcializado "(REGCHAPTER 84). "Parcialmente" significa "controlado por".xi1 xi2 β^1 y x1 x2
Demostraré esta idea usando los datos de ejemplo de @ EpiGrad. En primer lugar, voy a regresar
exposure
encovariate
. Como solo estoy interesado en los residuoslmEC.resid
, omito la salida.El siguiente paso es retroceder
outcome
en estos residuos (lmEC.resid
):Como puede ver, el peso de regresión paraβlmEC.resid=0.50 0.50
lmEC.resid
(vea la columna Estimación, ) en esta regresión simple es igual al peso de regresión múltiple para , que también es (vea la respuesta de @ EpiGrad o la salida R abajo).covariate
Apéndice
Código R
R salida
fuente
Por supuesto, algunas matemáticas estarán involucradas, pero no es mucho: Euclides lo habría entendido bien. Todo lo que realmente necesita saber es cómo agregar y reescalar vectores. Aunque esto se conoce actualmente como "álgebra lineal", solo necesita visualizarlo en dos dimensiones. Esto nos permite evitar la maquinaria matricial del álgebra lineal y centrarnos en los conceptos.
Una historia geométrica
En la primera figura, es la suma de y . (Un vector escalado por un factor numérico ; las letras griegas (alpha), (beta) y (gamma) se referirán a dichos factores de escala numérica).y ⋅ 1 α x 1 x 1 α α β γy y⋅1 αx1 x1 α α β γ
Esta figura en realidad comenzó con los vectores originales (mostrados como líneas continuas) e . La "coincidencia" de mínimos cuadrados de con se encuentra tomando el múltiplo de que se acerca más a en el plano de la figura. Así fue como se encontró . Quitando esta coincidencia de dejó , el residuo de con respecto a . (El punto " " indicará consistentemente qué vectores se han "emparejado", "eliminado" o "controlado"). y y x 1 x 1 y α y y ⋅ 1 y x 1 ⋅x1 y y x1 x1 y α y y⋅1 y x1 ⋅
Podemos hacer coincidir otros vectores con . Aquí hay una imagen donde coincidió con , expresándola como un múltiple de más su residual :x 2 x 1 β x 1 x 2 ⋅ 1x1 x2 x1 β x1 x2⋅1
(No importa que el plano que contiene y pueda diferir del plano que contiene e : estas dos figuras se obtienen independientemente una de la otra. Todo lo que se garantiza que tienen en común es el vector .) Del mismo modo, cualquier número de los vectores pueden coincidir con .x 2 x 1 y x 1 x 3 , x 4 , … x 1x1 x2 x1 y x1 x3,x4,… x1
Ahora considere el plano que contiene los dos residuos y . Orientaré la imagen para hacer que horizontal, tal como orienté las imágenes anteriores para que sea horizontal , porque esta vez desempeñará el papel de matcher:y⋅1 x2⋅1 x2⋅1 x1 x2⋅1
Observe que en cada uno de los tres casos, el residuo es perpendicular a la coincidencia. (Si no fuera así, podríamos ajustar la coincidencia para acercarla aún más a , o ).y x2 y⋅1
La idea clave es que para cuando lleguemos a la última figura, ambos vectores involucrados ( e ) ya son perpendiculares a , por construcción. Por lo tanto, cualquier ajuste posterior a implica cambios que son todos perpendiculares a . Como resultado, la nueva coincidencia y el nuevo residual permanecen perpendiculares a .x2⋅1 y⋅1 x1 y⋅1 x1 γx2⋅1 y⋅12 x1
(Si hay otros vectores involucrados, procederíamos de la misma manera para hacer coincidir sus residuos a ).x3⋅1,x4⋅1,… x2
Hay un punto más importante que hacer. Esta construcción ha producido un residual que es perpendicular a y . Esto significa que es también el residuo en el espacio (reino euclidiano tridimensional) abarcado por e . Es decir, este proceso de dos pasos de coincidencia y toma de residuos debe haber encontrado la ubicación en el plano más cercano a . Dado que en esta descripción geométrica no importa cuál de y fue primero, concluimos que x 1 x 2 y ⋅ 12 x 1 , x 2 , y x 1 , x 2 y x 1 x 2 x 2 x 1y⋅12 x1 x2 y⋅12 x1,x2, y x1,x2 y x1 x2 Si el proceso se hubiera realizado en el otro orden, comenzando con como el comparador y luego usando , el resultado habría sido el mismo.x2 x1
(Si hay vectores adicionales, continuaríamos este proceso de "sacar un emparejador" hasta que cada uno de esos vectores haya tenido su turno de ser el emparejador. En todos los casos las operaciones serían las mismas que se muestran aquí y siempre ocurrirían en un avión )
Aplicación a la regresión múltiple
Este proceso geométrico tiene una interpretación directa de regresión múltiple, porque las columnas de números actúan exactamente como vectores geométricos. Tienen todas las propiedades que requerimos de los vectores (axiomáticamente) y, por lo tanto, pueden pensarse y manipularse de la misma manera con perfecta precisión matemática y rigor. En un entorno con variables de regresión múltiple , , y , el objetivo es encontrar una combinación de y ( etc ) que más se acerca a . Geométricamente, todas esas combinaciones de y ( etc.X 2 , … Y X 1 X 2 Y X 1 X 2 X 1 , X 2 , …X1 X2,… Y X1 X2 Y X1 X2 ) corresponden a puntos en el espacio . Ajustar coeficientes de regresión múltiple no es más que proyectar ("emparejar") vectores. El argumento geométrico ha demostrado queX1,X2,…
La correspondencia se puede hacer secuencialmente y
El orden en que se realiza la coincidencia no importa.
El proceso de "eliminar" un marcador mediante la sustitución de todos los demás vectores por sus residuos a menudo se denomina "control" para el marcador. Como vimos en las figuras, una vez que se ha controlado un emparejador, todos los cálculos posteriores realizan ajustes que son perpendiculares a ese emparejador. Si lo desea, puede pensar en "controlar" como "contabilidad (en el sentido menos cuadrado) de la contribución / influencia / efecto / asociación de un matizador en todas las demás variables".
Referencias
Puede ver todo esto en acción con datos y código de trabajo en la respuesta en https://stats.stackexchange.com/a/46508 . Esa respuesta podría atraer más a las personas que prefieren la aritmética a las imágenes planas. (Sin embargo, la aritmética para ajustar los coeficientes a medida que se introducen los matizadores es directa). El lenguaje de la correspondencia es de Fred Mosteller y John Tukey.
fuente
Existe una excelente discusión hasta ahora sobre el ajuste de covariables como un medio de "controlar otras variables". Pero creo que eso es solo una parte de la historia. De hecho, hay muchas (otras) estrategias basadas en el diseño, el modelo y el aprendizaje automático para abordar el impacto de una serie de posibles variables de confusión. Esta es una breve encuesta de algunos de los temas más importantes (sin ajuste). Si bien el ajuste es el medio más utilizado para "controlar" otras variables, creo que un buen estadístico debe comprender lo que hace (y no hace) en el contexto de otros procesos y procedimientos.
Pareo:
La coincidencia es un método para diseñar un análisis emparejado en el que las observaciones se agrupan en conjuntos de 2 que, de lo contrario, son similares en sus aspectos más importantes. Por ejemplo, puede tomar muestras de dos personas que son concordantes en su educación, ingresos, tenencia profesional, edad, estado civil, (etc., etc.) pero que son discordantes en términos de impaciencia. Para exposiciones binarias, la simple prueba de t emparejada es suficiente para probar una diferencia media en su IMC que controla todas las características coincidentes. Si está modelando una exposición continua, una medida análoga sería un modelo de regresión a través del origen de las diferencias. Ver Carlin 2005
Ponderación
La ponderación es otro análisis univariante que modela la asociación entre un predictor continuo o binario y un resultado para que la distribución de los niveles de exposición sea homogénea entre los grupos. Estos resultados generalmente se informan como estandarizados , como la mortalidad estandarizada por edad para dos países o varios hospitales. La estandarización indirecta calcula una distribución de resultados esperados a partir de las tasas obtenidas en una población "control" o "saludable" que se proyecta a la distribución de estratos en la población referente. La estandarización directa va a la inversa. Estos métodos se usan típicamente para un resultado binario. Ponderación de puntaje de propensiónYX Y explica la probabilidad de una exposición binaria y controla esas variables en ese sentido. Es similar a la estandarización directa para una exposición. Ver Rothman, Modern Epidemiology 3rd edition.
Aleatorización y cuasialeatización
Es un punto sutil, pero si realmente puede aleatorizar a las personas a una determinada condición experimental, se mitiga el impacto de otras variables. Es una condición notablemente más fuerte, porque ni siquiera necesita saber cuáles son esas otras variables. En ese sentido, has "controlado" por su influencia. Esto no es posible en la investigación observacional, pero resulta que los métodos de puntaje de propensión crean una medida probabilística simple para la exposición que le permite a uno ponderar, ajustar o igualar a los participantes para que puedan ser analizados de la misma manera que un estudio cuasialeatorio . Ver Rosenbaum, Rubin 1983 .
Microsimulación
Otra forma de simular datos que podrían haberse obtenido de un estudio aleatorizado es realizar una microsimulación. Aquí, uno puede centrar su atención en modelos de aprendizaje automático más grandes y sofisticados. Un término que Judea Pearl ha acuñado que me gusta es " Modelos Oracle ": redes complejas que son capaces de generar predicciones y pronósticos para una serie de características y resultados. Resulta que uno puede "doblar" la información de dicho modelo de oráculo para simular los resultados en una cohorte equilibrada de personas que representan una cohorte aleatoria, equilibrada en su distribución de "variable de control" y utilizando rutinas simples de prueba t para evaluar la magnitud y precisión de posibles diferencias. Ver Rutter, Zaslavsky y Feuer 2012
La correspondencia, la ponderación y el ajuste de covariables en un modelo de regresión estiman las mismas asociaciones y, por lo tanto, se puede afirmar que son formas de "controlar" para otras variables .
fuente
El software no controla literalmente las variables. Si está familiarizado con la notación matricial de regresión , entonces puede recordar que la solución de mínimos cuadrados es . Entonces, el software evalúa esta expresión numéricamente usando métodos de álgebra lineal computacional.b = ( X T X ) - 1 X T YY=Xβ+ε b=(XTX)−1XTY
fuente