¿Usar variables de control en experimentos?

¿Por qué querría controlar cualquier número de covariables de referencia en una situación en la que la asignación al grupo de tratamiento es aleatoria?

Según tengo entendido, la asignación aleatoria del tratamiento debería hacer que la variable de tratamiento sea estrictamente exógena, creando un grupo de control que pueda considerarse apropiadamente como contrafactual. La única excepción que se me ocurre es cuando los tamaños de muestra son pequeños, y esa asignación aleatoria aún puede producir grupos desequilibrados.

Cualquier pensamiento son muy apreciados. ¡Gracias!

experiment-design treatment-effect random-allocation Robb
fuente

Respuestas:

Desde una perspectiva frecuentista, una comparación no ajustada basada en la distribución de permutación siempre puede justificarse después de un estudio aleatorizado (correctamente). Se puede hacer una justificación similar para la inferencia basada en distribuciones paramétricas comunes (por ejemplo, la distribución o la distribución ) debido a su similitud con la distribución de permutación. De hecho, ajustar por covariables, cuando se seleccionan en base a análisis post-hoc, en realidad corre el riesgo de inflar el error Tipo I. Tenga en cuenta que esta justificación no tiene nada que ver con el grado de equilibrio en la muestra observada , o con el tamaño de la muestra (excepto que para muestras pequeñas la distribución de permutación será más discreta y menos aproximada por la $t$ $F$ $t$ o distribuciones ). $F$

Dicho esto, muchas personas son conscientes de que el ajuste por covariables puede aumentar la precisión en el modelo lineal. Específicamente, el ajuste por covariables aumenta la precisión del efecto estimado del tratamiento cuando predicen el resultado y no están correlacionados con la variable de tratamiento (como es cierto en el caso de un estudio aleatorizado). Sin embargo, lo que es menos conocido es que esto no se transfiere automáticamente a los modelos no lineales. Por ejemplo, Robinson y Jewell [1] muestran que en el caso de la regresión logística, el control de las covariables reduce la precisión del efecto del tratamiento estimado, incluso cuando predicen el resultado. Sin embargo, debido a que el efecto estimado del tratamiento también es mayor en el modelo ajustado, el control de las covariables predictivas del resultado sí aumentar la eficiencia al probar la hipótesis nula de ningún efecto del tratamiento después de un estudio aleatorio

[1] LD Robinson y NP Jewell. Algunos resultados sorprendentes sobre el ajuste de covariables en los modelos de regresión logística. Revista estadística internacional , 58 (2): 227–40, 1991.

Phil Schumm
fuente

Hola, respuesta interesante. ¿Te interesa tener una conversación fuera de línea sobre esto?

rolando2

Si el resultado depende del tratamiento, así como de otros factores observables, el control de este último a menudo mejora la precisión de la estimación del impacto (es decir, el error estándar del efecto del tratamiento será menor). Cuando el tamaño de la muestra es pequeño, esto puede ser útil.

Aquí hay una simulación simple en la que, aunque el tratamiento es aleatorio, el error estándar se reduce en un tercio:

. set obs 100
obs was 0, now 100

. gen treat =mod(_n,2)

. gen x=rnormal()

. gen y = 2 + 3*treat + 1*x + rnormal()

. reg y treat

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  1,    98) =  112.75
       Model |  209.354021     1  209.354021           Prob > F      =  0.0000
    Residual |  181.973854    98  1.85687606           R-squared     =  0.5350
-------------+------------------------------           Adj R-squared =  0.5302
       Total |  391.327875    99  3.95280682           Root MSE      =  1.3627

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.893814   .2725345    10.62   0.000     2.352978     3.43465
       _cons |   2.051611    .192711    10.65   0.000     1.669183     2.43404
------------------------------------------------------------------------------

. reg y treat x

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  2,    97) =  180.50
       Model |  308.447668     2  154.223834           Prob > F      =  0.0000
    Residual |  82.8802074    97  .854435127           R-squared     =  0.7882
-------------+------------------------------           Adj R-squared =  0.7838
       Total |  391.327875    99  3.95280682           Root MSE      =  .92436

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.918349   .1848854    15.78   0.000     2.551403    3.285295
           x |   1.058636   .0983022    10.77   0.000     .8635335    1.253739
       _cons |   1.996209    .130825    15.26   0.000     1.736558     2.25586
------------------------------------------------------------------------------

Dimitriy V. Masterov
fuente

+1 - Otra razón es identificar los efectos de interacción con el tratamiento, pero eso requiere más que simplemente "controlar" otros factores como el OP mencionado.

Andy W

¡Gracias! Entonces, si una o más covariables afectan el resultado que está tratando de medir, incluirlas en su modelo mejorará la precisión de su estimación del efecto del tratamiento asignado aleatoriamente, pero realmente no afectará su estimación del valor del coeficiente de tratamiento, ¿correcto?

Robb

Si, eso es correcto.

Dimitriy V. Masterov

Disculpas por el ping fuera del tema: hay una sugerencia en Meta para hacer que [randomized-experiment] sea un sinónimo de la etiqueta [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Tiene suficiente reputación en esta etiqueta para poder votar por esta sugerencia aquí: stats.stackexchange.com/tags/random-allocation/synomains : ahora necesita 4 votos a favor para que se realice. Si no está de acuerdo con la propuesta, considere comentar sobre Meta para explicar por qué. Eliminaré este comentario pronto. Salud.

ameba