¿Cómo exactamente uno "controla para otras variables"?

141

Aquí está el artículo que motivó esta pregunta: ¿la impaciencia nos engorda?

Me gustó este artículo, y demuestra muy bien el concepto de "controlar otras variables" (IQ, carrera, ingresos, edad, etc.) para aislar mejor la verdadera relación entre solo las 2 variables en cuestión.

¿Puede explicarme cómo controla realmente las variables en un conjunto de datos típico?

Por ejemplo, si tiene 2 personas con el mismo nivel de impaciencia e IMC, pero con ingresos diferentes, ¿cómo trata estos datos? ¿Los clasifica en diferentes subgrupos que tienen ingresos, paciencia e IMC similares? Pero, eventualmente, hay docenas de variables para controlar (IQ, carrera, ingresos, edad, etc.) ¿Cómo se agregan estos (potencialmente) 100 de subgrupos? De hecho, tengo la sensación de que este enfoque está ladrando el árbol equivocado, ahora que lo he verbalizado.

¡Gracias por arrojar algo de luz sobre algo que he querido llegar al fondo desde hace unos años ...!

JackOfAll
fuente
3
Epi y Bernd, muchas gracias por intentar responder esto. Desafortunadamente, estas respuestas son un gran salto de mi pregunta y están sobre mi cabeza. Tal vez sea b / c No tengo experiencia con R, y solo una base básica de Estadísticas 101. Justo como retroalimentación a su enseñanza, una vez que se apartó del IMC, la edad, la impaciencia, etc. para "covariarse" y otros, me perdió por completo. La generación automática de pseudodatos tampoco fue útil para aclarar los conceptos. De hecho, lo empeoró. Es difícil aprender sobre datos ficticios sin significado inherente, a menos que ya conozca el principio que se está explicando (es decir: el maestro sabe i
JackOfAll el
77
Gracias por hacer esta pregunta de fundamental importancia, @JackOfAll (el sitio estaría incompleto sin una pregunta en este sentido). He 'favorecido' esta. Las respuestas aquí me han sido muy útiles y, aparentemente, muchas otras basadas en el número de votos a favor. Si, después de reflexionar sobre esto, ha encontrado útiles las respuestas (o las respuestas a cualquiera de sus preguntas), le animo a que use sus votos a favor y acepte una respuesta si la encuentra definitiva. Esto se puede hacer haciendo clic en las pequeñas curvas de campana que apuntan hacia arriba junto a la respuesta y la marca de verificación, respectivamente.
Macro
44
Esta no es una respuesta completa ni nada, pero creo que vale la pena leer "Pongamos las regresiones del bote de basura y los problemas del bote de basura donde pertenecen" de Chris Achen. (Enlace en PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Esto se aplica tanto a los enfoques bayesianos como a los frecuentes. Simplemente incluir términos en su configuración no es suficiente para "controlar" los efectos, pero lamentablemente esto es lo que pasa por el control en mucha literatura.
ely
99
Usted pregunta " cómo el software de la computadora controla todas las variables al mismo tiempo matemáticamente ". También dice "Necesito una respuesta que no implique fórmulas". No veo cómo es posible hacer ambas cosas al mismo tiempo. Al menos no sin un grave riesgo de dejarte con una intuición defectuosa.
Glen_b
2
Me sorprende que esta pregunta no haya recibido más atención. Estoy de acuerdo con el comentario del OP de que otras preguntas en el sitio no cubren exactamente el problema específico que se plantea aquí. @Jen, la respuesta muy corta a su (segunda) pregunta es que las múltiples covariables realmente se dividen de forma simultánea y no de forma iterativa como usted describe. Ahora pensaré cómo sería una respuesta más detallada e intuitiva a estas preguntas.
Jake Westfall

Respuestas:

124

Hay muchas formas de controlar las variables.

Lo más fácil, y lo que se te ocurrió, es estratificar tus datos para que tengas subgrupos con características similares; luego hay métodos para agrupar esos resultados para obtener una sola "respuesta". Esto funciona si tiene un número muy pequeño de variables para las que desea controlar, pero como ha descubierto correctamente, esto se desmorona rápidamente al dividir sus datos en fragmentos cada vez más pequeños.

Un enfoque más común es incluir las variables que desea controlar en un modelo de regresión. Por ejemplo, si tiene un modelo de regresión que puede describirse conceptualmente como:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

La estimación que obtendrá para la impaciencia será el efecto de la impaciencia dentro de los niveles de las otras covariables: la regresión le permite suavizar esencialmente los lugares donde no tiene muchos datos (el problema con el enfoque de estratificación), aunque esto debería hacerse con cuidado.

Hay formas aún más sofisticadas de controlar otras variables, pero las probabilidades son cuando alguien dice "controlado por otras variables", lo que significa que se incluyeron en un modelo de regresión.

Bien, has pedido un ejemplo en el que puedes trabajar, para ver cómo funciona. Te guiaré paso a paso. Todo lo que necesitas es una copia de R instalada.

Primero, necesitamos algunos datos. Corte y pegue los siguientes fragmentos de código en R. Tenga en cuenta que este es un ejemplo artificial que inventé en el acto, pero muestra el proceso.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Esa es tu información. Tenga en cuenta que ya conocemos la relación entre el resultado, la exposición y la covariable: ese es el punto de muchos estudios de simulación (de los cuales este es un ejemplo extremadamente básico. Comienza con una estructura que conoce y se asegura de que su método pueda obtener la respuesta correcta

Ahora bien, en el modelo de regresión. Escriba lo siguiente:

lm(outcome~exposure)

¿Recibió una Intercepción = 2.0 y una exposición = 0.6766? ¿O algo parecido, dado que habrá alguna variación aleatoria en los datos? Bien, esta respuesta es incorrecta. Sabemos que está mal. ¿Por qué está mal? No hemos podido controlar una variable que afecta el resultado y la exposición. Es una variable binaria, haga lo que quiera: género, fumador / no fumador, etc.

Ahora ejecuta este modelo:

lm(outcome~exposure+covariate)

Esta vez debería obtener coeficientes de intercepción = 2.00, exposición = 0.50 y una covariable de 0.25. Esto, como sabemos, es la respuesta correcta. Has controlado por otras variables.

Ahora, ¿qué sucede cuando no sabemos si nos hemos ocupado de todas las variables que necesitamos (realmente nunca lo hacemos)? Esto se llama confusión residual , y es una preocupación en la mayoría de los estudios de observación: que hemos controlado imperfectamente y nuestra respuesta, aunque cercana a la derecha, no es exacta. ¿Eso ayuda más?

Fomite
fuente
Gracias. ¿Alguien sabe un ejemplo simple basado en regresión en línea o en un libro de texto con el que pueda trabajar?
JackOfAll
@JackOfAll Probablemente haya cientos de ejemplos de este tipo: ¿qué áreas / tipos de preguntas le interesan y qué paquetes de software puede utilizar?
Fomite
Bueno, cualquier ejemplo académico / artificial está bien para mí. Tengo Excel, que puede hacer una regresión de múltiples variables, ¿correcto? ¿O necesito algo como R para hacer esto?
JackOfAll
10
+1 Por responder esto sin la negatividad que usaría. :) En el lenguaje típico, controlar otras variables significa que los autores las arrojaron a la regresión. Realmente no significa lo que piensan que significa si no han validado que las variables son relativamente independientes y que toda la estructura del modelo (generalmente algún tipo de GLM) está bien fundada. En resumen, mi opinión es que cada vez que alguien usa esta frase, significa que tiene muy poca idea sobre las estadísticas, y uno debe volver a calcular los resultados usando el método de estratificación que ofreció.
Iterator
77
@SibbsGambling Notará que el interlocutor original solicitó un ejemplo simple y trabajado.
Fomite
57
  1. Introducción

    Me gusta la respuesta de @ EpiGrad (+1) pero déjame tomar una perspectiva diferente. A continuación, me refiero a este documento PDF: "Análisis de regresión múltiple: estimación" , que tiene una sección sobre la interpretación "A" de la regresión múltiple "(p. 83f.). Desafortunadamente, no tengo idea de quién es el autor de este capítulo y me referiré a él como REGCHAPTER. Se puede encontrar una explicación similar en Kohler / Kreuter (2009) "Análisis de datos utilizando Stata" , capítulo 8.2.3 "¿Qué significa 'bajo control'?".

    Usaré el ejemplo de @ EpiGrad para explicar este enfoque. El código R y los resultados se pueden encontrar en el Apéndice.

    También debe tenerse en cuenta que "controlar otras variables" solo tiene sentido cuando las variables explicativas están moderadamente correlacionadas (colinealidad). En el ejemplo mencionado anteriormente, la correlación producto-momento entre exposurey covariatees 0.50, es decir,

    > cor(covariate, exposure)
    [1] 0.5036915
    
  2. Derechos residuales de autor

    Supongo que tiene una comprensión básica del concepto de residuos en el análisis de regresión. Aquí está la explicación de Wikipedia : "Si uno realiza una regresión sobre algunos datos, las desviaciones de las observaciones de la variable dependiente de la función ajustada son los residuos".

  3. ¿Qué significa "bajo control"?

    Controlando la variable covariate, el efecto (peso de regresión) de exposureon outcomese puede describir de la siguiente manera (soy descuidado y omito la mayoría de los índices y todos los sombreros, consulte el texto mencionado anteriormente para obtener una descripción precisa):

    β1=residi1yiresidi12

    residi1 son los residuos cuando hacemos una regresión exposuresobre covariate, es decir,

    exposure=const.+βcovariatecovariate+resid

    Los "residuos [..] son ​​la parte de que no está correlacionada con . [...] Por lo tanto, mide la relación de muestra entre y después de que ha sido parcializado "(REGCHAPTER 84). "Parcialmente" significa "controlado por".xi1xi2β^1yx1x2

    Demostraré esta idea usando los datos de ejemplo de @ EpiGrad. En primer lugar, voy a regresar exposureen covariate. Como solo estoy interesado en los residuos lmEC.resid, omito la salida.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)
    

    El siguiente paso es retroceder outcomeen estos residuos ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]
    

    Como puede ver, el peso de regresión para lmEC.resid(vea la columna Estimación, ) en esta regresión simple es igual al peso de regresión múltiple para , que también es (vea la respuesta de @ EpiGrad o la salida R abajo).βlmEC.resid=0.50covariate0.50

Apéndice

Código R

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R salida

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 
Bernd Weiss
fuente
55
Ese capítulo se parece a Baby Wooldridge (también conocido como Econometría introductoria: un enfoque moderno por Jeffrey M. Wooldridge)
Dimitriy V. Masterov
2
Puedo estar malinterpretando algo, pero ¿por qué no necesita retroceder también el resultado en covariable y finalmente retroceder los residuos de resultado en los residuos de exposición?
hlinee
@hlinee tiene razón. ¿Puedes explicar por qué no haces esto?
Lengua Parsel
41

Por supuesto, algunas matemáticas estarán involucradas, pero no es mucho: Euclides lo habría entendido bien. Todo lo que realmente necesita saber es cómo agregar y reescalar vectores. Aunque esto se conoce actualmente como "álgebra lineal", solo necesita visualizarlo en dos dimensiones. Esto nos permite evitar la maquinaria matricial del álgebra lineal y centrarnos en los conceptos.


Una historia geométrica

En la primera figura, es la suma de y . (Un vector escalado por un factor numérico ; las letras griegas (alpha), (beta) y (gamma) se referirán a dichos factores de escala numérica).y 1 α x 1 x 1 α α β γyy1αx1x1ααβγ

Figura 1

Esta figura en realidad comenzó con los vectores originales (mostrados como líneas continuas) e . La "coincidencia" de mínimos cuadrados de con se encuentra tomando el múltiplo de que se acerca más a en el plano de la figura. Así fue como se encontró . Quitando esta coincidencia de dejó , el residuo de con respecto a . (El punto " " indicará consistentemente qué vectores se han "emparejado", "eliminado" o "controlado"). y y x 1 x 1 y α y y 1 y x 1x1yyx1x1yαyy1yx1

Podemos hacer coincidir otros vectores con . Aquí hay una imagen donde coincidió con , expresándola como un múltiple de más su residual :x 2 x 1 β x 1 x 2 1x1x2x1βx1x21

Figura 2

(No importa que el plano que contiene y pueda diferir del plano que contiene e : estas dos figuras se obtienen independientemente una de la otra. Todo lo que se garantiza que tienen en común es el vector .) Del mismo modo, cualquier número de los vectores pueden coincidir con .x 2 x 1 y x 1 x 3 , x 4 , x 1x1x2x1yx1x3,x4,x1

Ahora considere el plano que contiene los dos residuos y . Orientaré la imagen para hacer que horizontal, tal como orienté las imágenes anteriores para que sea horizontal , porque esta vez desempeñará el papel de matcher:y1x21x21x1x21

figura 3

Observe que en cada uno de los tres casos, el residuo es perpendicular a la coincidencia. (Si no fuera así, podríamos ajustar la coincidencia para acercarla aún más a , o ).yx2y1

La idea clave es que para cuando lleguemos a la última figura, ambos vectores involucrados ( e ) ya son perpendiculares a , por construcción. Por lo tanto, cualquier ajuste posterior a implica cambios que son todos perpendiculares a . Como resultado, la nueva coincidencia y el nuevo residual permanecen perpendiculares a .x21y1x1y1x1γx21y12x1

(Si hay otros vectores involucrados, procederíamos de la misma manera para hacer coincidir sus residuos a ).x31,x41,x2

Hay un punto más importante que hacer. Esta construcción ha producido un residual que es perpendicular a y . Esto significa que es también el residuo en el espacio (reino euclidiano tridimensional) abarcado por e . Es decir, este proceso de dos pasos de coincidencia y toma de residuos debe haber encontrado la ubicación en el plano más cercano a . Dado que en esta descripción geométrica no importa cuál de y fue primero, concluimos que x 1 x 2 y 12 x 1 , x 2 , y x 1 , x 2 y x 1 x 2 x 2 x 1y12x1x2y12x1,x2,yx1,x2yx1x2Si el proceso se hubiera realizado en el otro orden, comenzando con como el comparador y luego usando , el resultado habría sido el mismo.x2x1

(Si hay vectores adicionales, continuaríamos este proceso de "sacar un emparejador" hasta que cada uno de esos vectores haya tenido su turno de ser el emparejador. En todos los casos las operaciones serían las mismas que se muestran aquí y siempre ocurrirían en un avión )


Aplicación a la regresión múltiple

Este proceso geométrico tiene una interpretación directa de regresión múltiple, porque las columnas de números actúan exactamente como vectores geométricos. Tienen todas las propiedades que requerimos de los vectores (axiomáticamente) y, por lo tanto, pueden pensarse y manipularse de la misma manera con perfecta precisión matemática y rigor. En un entorno con variables de regresión múltiple , , y , el objetivo es encontrar una combinación de y ( etc ) que más se acerca a . Geométricamente, todas esas combinaciones de y ( etc.X 2 , Y X 1 X 2 Y X 1 X 2 X 1 , X 2 , X1X2,YX1X2YX1X2) corresponden a puntos en el espacio . Ajustar coeficientes de regresión múltiple no es más que proyectar ("emparejar") vectores. El argumento geométrico ha demostrado queX1,X2,

  1. La correspondencia se puede hacer secuencialmente y

  2. El orden en que se realiza la coincidencia no importa.

El proceso de "eliminar" un marcador mediante la sustitución de todos los demás vectores por sus residuos a menudo se denomina "control" para el marcador. Como vimos en las figuras, una vez que se ha controlado un emparejador, todos los cálculos posteriores realizan ajustes que son perpendiculares a ese emparejador. Si lo desea, puede pensar en "controlar" como "contabilidad (en el sentido menos cuadrado) de la contribución / influencia / efecto / asociación de un matizador en todas las demás variables".


Referencias

Puede ver todo esto en acción con datos y código de trabajo en la respuesta en https://stats.stackexchange.com/a/46508 . Esa respuesta podría atraer más a las personas que prefieren la aritmética a las imágenes planas. (Sin embargo, la aritmética para ajustar los coeficientes a medida que se introducen los matizadores es directa). El lenguaje de la correspondencia es de Fred Mosteller y John Tukey.

whuber
fuente
1
Se pueden encontrar más ilustraciones en este sentido en el libro de Wicken "La geometría de las estadísticas multivariadas" (1994). Algunos ejemplos están en esta respuesta .
caracal
2
@Caracal Gracias por las referencias. Originalmente imaginé una respuesta que usa diagramas como los de su respuesta, que son un complemento maravilloso para mi respuesta aquí, pero después de crearlos, sentí que las figuras pseudo-3D podrían ser demasiado complejas y ambiguas para ser completamente adecuadas. Me complació descubrir que el argumento podría reducirse por completo a las operaciones vectoriales más simples en el avión. También puede valer la pena señalar que un centrado preliminar de los datos es innecesario, porque eso se maneja incluyendo un vector constante distinto de cero entre . xi
whuber
1
Me encanta esta respuesta porque da mucha más intuición que el álgebra. Por cierto, no estoy seguro si revisaste el canal de YouTube de este tipo . Lo disfruté mucho
Haitao Du
3

Existe una excelente discusión hasta ahora sobre el ajuste de covariables como un medio de "controlar otras variables". Pero creo que eso es solo una parte de la historia. De hecho, hay muchas (otras) estrategias basadas en el diseño, el modelo y el aprendizaje automático para abordar el impacto de una serie de posibles variables de confusión. Esta es una breve encuesta de algunos de los temas más importantes (sin ajuste). Si bien el ajuste es el medio más utilizado para "controlar" otras variables, creo que un buen estadístico debe comprender lo que hace (y no hace) en el contexto de otros procesos y procedimientos.

Pareo:

La coincidencia es un método para diseñar un análisis emparejado en el que las observaciones se agrupan en conjuntos de 2 que, de lo contrario, son similares en sus aspectos más importantes. Por ejemplo, puede tomar muestras de dos personas que son concordantes en su educación, ingresos, tenencia profesional, edad, estado civil, (etc., etc.) pero que son discordantes en términos de impaciencia. Para exposiciones binarias, la simple prueba de t emparejada es suficiente para probar una diferencia media en su IMC que controla todas las características coincidentes. Si está modelando una exposición continua, una medida análoga sería un modelo de regresión a través del origen de las diferencias. Ver Carlin 2005

E[Y1Y2]=β0(X1X2)

Ponderación

La ponderación es otro análisis univariante que modela la asociación entre un predictor continuo o binario y un resultado para que la distribución de los niveles de exposición sea homogénea entre los grupos. Estos resultados generalmente se informan como estandarizados , como la mortalidad estandarizada por edad para dos países o varios hospitales. La estandarización indirecta calcula una distribución de resultados esperados a partir de las tasas obtenidas en una población "control" o "saludable" que se proyecta a la distribución de estratos en la población referente. La estandarización directa va a la inversa. Estos métodos se usan típicamente para un resultado binario. Ponderación de puntaje de propensiónYXYexplica la probabilidad de una exposición binaria y controla esas variables en ese sentido. Es similar a la estandarización directa para una exposición. Ver Rothman, Modern Epidemiology 3rd edition.

Aleatorización y cuasialeatización

Es un punto sutil, pero si realmente puede aleatorizar a las personas a una determinada condición experimental, se mitiga el impacto de otras variables. Es una condición notablemente más fuerte, porque ni siquiera necesita saber cuáles son esas otras variables. En ese sentido, has "controlado" por su influencia. Esto no es posible en la investigación observacional, pero resulta que los métodos de puntaje de propensión crean una medida probabilística simple para la exposición que le permite a uno ponderar, ajustar o igualar a los participantes para que puedan ser analizados de la misma manera que un estudio cuasialeatorio . Ver Rosenbaum, Rubin 1983 .

Microsimulación

Otra forma de simular datos que podrían haberse obtenido de un estudio aleatorizado es realizar una microsimulación. Aquí, uno puede centrar su atención en modelos de aprendizaje automático más grandes y sofisticados. Un término que Judea Pearl ha acuñado que me gusta es " Modelos Oracle ": redes complejas que son capaces de generar predicciones y pronósticos para una serie de características y resultados. Resulta que uno puede "doblar" la información de dicho modelo de oráculo para simular los resultados en una cohorte equilibrada de personas que representan una cohorte aleatoria, equilibrada en su distribución de "variable de control" y utilizando rutinas simples de prueba t para evaluar la magnitud y precisión de posibles diferencias. Ver Rutter, Zaslavsky y Feuer 2012

La correspondencia, la ponderación y el ajuste de covariables en un modelo de regresión estiman las mismas asociaciones y, por lo tanto, se puede afirmar que son formas de "controlar" para otras variables .

AdamO
fuente
Totalmente sobre mi cabeza.
JackOfAll
Es una respuesta a la pregunta que se hizo, la buena discusión hasta ahora es algo unilateral a favor del ajuste en modelos multivariados.
AdamO
Los modelos multivariados, el emparejamiento, etc., son todas técnicas válidas, pero ¿cuándo suele usar un investigador una técnica sobre otra?
mnmn
-1

El software no controla literalmente las variables. Si está familiarizado con la notación matricial de regresión , entonces puede recordar que la solución de mínimos cuadrados es . Entonces, el software evalúa esta expresión numéricamente usando métodos de álgebra lineal computacional.b = ( X T X ) - 1 X T YY=Xβ+εb=(XTX)1XTY

Aksakal
fuente
44
Gracias por aprovechar la oportunidad para ofrecer esta información. Para que la respuesta aborde las necesidades que se dan en la pregunta, necesitaríamos saber el significado de la prima en la segunda expresión y el significado de la segunda expresión. Entiendo que la pendiente es el cambio en un eje sobre el cambio en el otro. Recuerde, la notación es un lenguaje especial que se creó y aprendió originalmente utilizando vocabulario no notativo. Llegar a personas que no saben ese idioma requiere el uso de otras palabras y ese es el desafío continuo de llevar el conocimiento a través de las disciplinas.
Jen
2
Una vez que entra en regresiones multivariadas, no hay forma de proceder sin álgebra lineal. El enlace Wiki tiene todas las descripciones de las variables. Aquí, puedo decir que denota una transposición de la matrizTendría que aprender cómo se construye la matriz de diseño. Es demasiado largo para explicarlo aquí. Lea el Wiki que publiqué, tiene mucha información. A menos que entienda el álgebra lineal, no podrá responder a su pregunta de manera significativa, me temo. XXX
Aksakal