¿Debería la diferencia entre control y tratamiento ser modelada explícita o implícitamente?

9

Dada la siguiente configuración experimental:

Se toman múltiples muestras de un sujeto y cada muestra se trata de múltiples maneras (incluido un tratamiento de control). Lo que es principalmente interesante es la diferencia entre el control y cada tratamiento.

Puedo pensar en dos modelos simples para estos datos. Con la muestra , el tratamiento , el tratamiento 0 es el control, deje ser los datos, sea ​​la línea de base para la muestra , sea ​​la diferencia para el tratamiento . El primer modelo analiza tanto el control como la diferencia:j Y i j γ i i δ j jijYijγiiδjj

δ 0 = 0

Yij=γi+δj+ϵij
δ0=0

Mientras que el segundo modelo solo mira la diferencia. Si calculamos previamente antemano entonces d i j = Y i j - Y i 0 d i j = δ j + ε i jdij

dij=YijYi0
dij=δj+εij

Mi pregunta es ¿cuáles son las diferencias fundamentales entre estas dos configuraciones? En particular, si los niveles no tienen sentido en sí mismos y solo importa la diferencia, ¿el primer modelo está haciendo demasiado y quizás tenga poca potencia?

Rónán Daly
fuente
2
Puedo dar una respuesta más completa más tarde, pero sugeriría que este artículo de Paul Allison sería de interés ( Allison, 1990 ).
Andy W
1
Editado para reflejar el hecho de que los errores en los diferentes modelos no son realmente los mismos y, por lo tanto, no deben usar los mismos símbolos.
Rónán Daly

Respuestas:

6

Es probable que el esté correlacionado en el segundo modelo, pero no en el primero.ϵij

En el primero, estos términos representan errores de medición y desviaciones del modelo aditivo. Con un cuidado razonable, como aleatorizar la secuencia de mediciones, esos errores pueden hacerse independientes cuando el modelo es preciso. De dónde

dij=YijYi0=γi+δj+ϵij(γi+δ0+ϵi0)=δj+(ϵijϵi0).

(Tenga en cuenta que esto contradice la última ecuación en la pregunta, porque es incorrecto suponer Hacerlo nos obligaría a reconocer que las son variables aleatorias en lugar de parámetros, al menos una vez que reconocemos el posibilidad de error de medición para el control. Esto llevaría a las mismas conclusiones a continuación.)ϵi0=0γi

Para , esto implicaj,k0jk

Cov(dij,dik)=Cov(ϵijϵi0,ϵikϵi0)=Var(ϵi0)0.

La correlación puede ser sustancial. Para errores iid, un cálculo similar muestra que es igual a 0.5. A menos que esté utilizando procedimientos que manejen esta correlación de manera explícita y correcta, favorezca el primer modelo sobre el segundo.

whuber
fuente
Entonces, ha asumido que el primer modelo es el modelo verdadero y ha derivado una propiedad indeseable del segundo modelo. Sabemos que todos los modelos están equivocados, ¿es este resultado realmente significativo?
Macro
1
@Macro Lea mi respuesta con más atención: está diseñada para mostrar qué suposiciones son necesarias para justificar el primer modelo y distinguirlo del segundo, pero no contiene suposiciones de que ningún modelo sea "verdadero". Por ejemplo, tenga en cuenta la advertencia "cuando el modelo es preciso". Incluso la palabra "precisa" fue elegida con algún pensamiento para evitar la impresión errónea de que existe un modelo "verdadero" o "correcto".
whuber
1
dik
1
jkj,k0
@whuber ¿Hay alguna referencia que respalde su declaración, por ejemplo, para convencer a los revisores?
Daniel