Estoy intentando ejecutar una regresión de OLS:
DV: cambio de peso durante un año (peso inicial - peso final)
IV: Si haces ejercicio o no.
Sin embargo, parece razonable que las personas más pesadas pierdan más peso por unidad de ejercicio que las personas más delgadas. Por lo tanto, quería incluir una variable de control:
- CV: peso inicial inicial.
Sin embargo, ahora se usa el peso inicial AMBOS para calcular la variable dependiente Y como una variable de control.
¿Esta bien? ¿Esto viola una suposición de OLS?
regression
repeated-measures
least-squares
change-scores
ChrisStata
fuente
fuente
Respuestas:
Para responder a su pregunta literal, "¿Es válido incluir una medida de referencia como variable de control cuando se prueba el efecto de una variable independiente en los puntajes de cambio?", La respuesta es no . La respuesta es no, porque por construcción el puntaje de referencia se correlaciona con el término de error cuando el puntaje de cambio se usa como la variable dependiente, por lo tanto, el efecto estimado de la línea de base sobre el puntaje de cambio no se puede interpretar.
Utilizando
Uno tiene un modelo que regresa en T y X ;Δ Y T X
Que por definición es equivalente a;
Ahora, si se incluye la línea de base como covariable, uno debe ver a un problema, ya que usted tiene la plazo en ambos lados de la ecuación. Esto muestra que β 3 Y 1 no se puede interpretar, porque está inherentemente correlacionado con el término de error.Y1 β3Y1
Ahora, parte de la confusión en las diversas respuestas parece derivarse del hecho de que diferentes modelos arrojarán resultados idénticos para el efecto del tratamiento , en mi formulación anterior. Entonces, si uno comparara el efecto del tratamiento para el modelo usando puntajes de cambio como la variable dependiente al modelo usando los "niveles" (con cada modelo incluyendo la línea de base Y 1 como covariable), la interpretación del efecto del tratamiento sería lo mismo. En los dos modelos que siguen a β 1 T será el mismo, y también lo serán las inferencias basadas en ellos (Bruce Weaver tiene publicado un código SPSS que demuestra la equivalencia también).β1T Y1 β1T
Entonces algunos discutirán (como Felix lo ha hecho en este hilo, y como Bruce Weaver ha hecho en algunas discusiones sobre el grupo de Google SPSS) que dado que los modelos producen el mismo efecto de tratamiento estimado, no importa cuál elija. No estoy de acuerdo, ya que la covariable de línea de base en el modelo de puntuación de cambio no puede interpretarse, nunca debe incluir la línea de base como una covariable (independientemente de si el efecto del tratamiento estimado es el mismo o no). Entonces, esto plantea otra pregunta, ¿cuál es el punto de usar los puntajes de cambio como variables dependientes? Como Felix también señaló, el modelo que usa la puntuación de cambio como la variable dependiente excluyendo la línea de base como covariable es diferente al modelo que usa los niveles. Para aclarar, los modelos posteriores darán diferentes efectos de tratamiento (especialmente en el caso de que el tratamiento esté correlacionado con la línea de base);
Esto se ha señalado en la literatura anterior como "La paradoja del Señor". Entonces, ¿qué modelo es el correcto? Bueno, en el caso de los experimentos aleatorios, yo diría que el modelo de Niveles es preferible (aunque si hiciste un buen trabajo al azar, el efecto del tratamiento promedio debería ser muy cercano entre los modelos). Otros han notado las razones por las cuales es preferible el modelo de niveles, la respuesta de Charlie hace un buen punto en que puede estimar los efectos de interacción con la línea de base en el modelo de niveles (pero no puede hacerlo en el modelo de puntaje de cambio). Whuber en esta respuesta a una pregunta muy similar demuestra cómo las puntuaciones de cambio inducen correlaciones entre los diferentes tratamientos.
En situaciones en las que el tratamiento no se asigna al azar, se debe considerar más el modelo que usa puntajes de cambio como variable dependiente. El principal beneficio del modelo de puntuación de cambio es que en cualquier momento se controlan los predictores invariantes del resultado. Entonces, digamos en la formulación anterior, es constante a lo largo del tiempo (por ejemplo, digamos una predisposición genética a tener cierto peso), y que X está correlacionado con si un individuo elige hacer ejercicio (y X no se observa). En ese caso, el modelo de puntuación de cambio es preferible. También en los casos en que la selección en el tratamiento se correlaciona con el valor de referencia, el modelo de puntuación de cambio puede ser preferible. Paul Allison en su periódico,X X X Cambiar las puntuaciones como variables dependientes en el análisis de regresión , da estos mismos ejemplos (e influyó en gran medida en mi perspectiva sobre el tema, por lo que sugiero leerlo).
Esto no quiere decir que las puntuaciones de cambio siempre sean preferibles en entornos no aleatorios. En el caso de que espere que la línea de base tenga un efecto causal real en el peso posterior, debe usar el modelo de niveles. En el caso de que espere que la línea base tenga un efecto causal, y la selección en el tratamiento esté correlacionada con la línea base, el efecto del tratamiento se confunde con el efecto base.
He ignorado la nota de Charlie de que el logaritmo del peso podría usarse como la variable dependiente. Si bien no dudo que podría ser una posibilidad, es algo no sequitur a la pregunta inicial. Otra pregunta se ha discutido cuando es apropiado usar los logaritmos de la variable (y todavía se aplican en este caso). Probablemente hay literatura previa sobre el tema que podría ayudarlo a guiarlo sobre si también es apropiado usar el peso registrado.
Citación
Allison, Paul D. 1990. Cambie los puntajes como variables dependientes en el análisis de regresión . Metodología Sociológica 20: 93-114. Versión PDF pública .
fuente
La respuesta de Andy parece ser la visión del economista de las cosas. Es una práctica aceptada en los ensayos clínicos ajustar casi siempre la versión inicial de la variable de respuesta, para aumentar en gran medida la potencia. Dado que condicionamos las variables de línea de base, no existe un 'término de error' para que puedan confundirse con el término de error general. El único problema sería si los errores de medición en la covariable de línea de base se confunden con otra X, distorsionando el efecto de esa otra X. El método general preferido es ajustar la línea de base y modelar la variable de respuesta, no calcular el cambio. Una razón para esto es que el cambio depende en gran medida de que la transformación de Y sea correcta, y ese cambio no se aplica a los modelos de regresión en general. Por ejemplo, si Y es ordinal, la diferencia entre dos variables ordinales ya no es ordinal.
fuente
Podemos alterar ligeramente el razonamiento de @ ocram para tener
Entonces, si este es el modelo correcto , decir que la diferencia depende del peso implica que el valor final depende del valor inicial con un coeficiente que podría ser cualquier cosa. Ejecutar una regresión de la diferencia en y w 0 o el peso final en las mismas variables debería darle los mismos coeficientes en todo menos en w 0 . Pero, si este modelo no es exactamente correcto, estas regresiones también darán resultados diferentes en los otros coeficientes.x w0 w0
Tenga en cuenta que esta configuración implica que el peso inicial predice la diferencia en los pesos, no el impacto del tratamiento . Esto requeriría un término de interacción, tal vez
Otro enfoque sería calcular
Aún puede ser necesario un término de interacción si cree que el impacto del programa depende del peso inicial. Si usa en el término de interacción, entonces el programa estaría asociado con un cambio de w 0 β 1 en la tasa de crecimiento del peso. Cada libra más pesada que una persona era al comienzo del programa conduce a unaw0 w0β1 aumento en el cambio en la tasa de crecimiento (esto es el derivado transversal parcial del valor esperado con respecto tanto al tratamiento y el peso de partida).β1
Si usa en el término de interacción, el impacto del programa aumenta en β 1 /log(w0) por cada libra adicional más pesada que el participante tenía al comienzo del programa.β1/w0
Como puede ver, los parciales cruzados en términos de interacción pueden ser un poco difíciles de interpretar, pero pueden capturar un impacto que le interesa.
fuente
EDITAR: El argumento de Andy W me convenció de abandonar el Modelo C. Agregué otra posibilidad: analizar el cambio con modelos de coeficiente aleatorio (también conocidos como modelos multinivel o modelos de efectos mixtos
Ha habido mucho debate científico sobre el uso de puntajes de diferencia. Mis textos favoritos son Rogosa (1982, [1]) y Fitzmaurice, Laird y Ware (2004, [2])
En general, tiene tres posibilidades de analizar sus datos:
C) Tome el puntaje de diferencia como DV y contrólelo para la línea de base (ese es el modelo que sugirió).Debido a los argumentos de Andy W, descarté esta alternativaLos modelos A y B pueden producir resultados muy diferentes si la línea de base se correlaciona con la puntuación de cambio (por ejemplo, las personas más pesadas tienen más pérdida de peso), y / o la asignación del tratamiento se correlaciona con la línea de base.
Si desea saber más sobre estos temas, consulte los documentos citados, o aquí y aquí .
También ha habido un reciente estudio de simulación [3] que compara empíricamente las condiciones bajo las cuales A o B son preferibles.
Para diseños completamente equilibrados sin valores faltantes, el Modelo D debería ser equivalente al Modelo A. Sin embargo, le brinda más información sobre la variabilidad entre personas, se extiende fácilmente a más puntos de medición y tiene buenas propiedades en presencia de datos no balanceados y / o valores faltantes.
Como conclusión: en su caso, analizaría las medidas posteriores controladas para la línea de base (Modelo B).
[1] Rogosa, D., Brandt, D. y Zimowski, M. (1982). Un enfoque de curva de crecimiento para la medición del cambio. Boletín psicológico, 92, 726-748.
[2] Fitzmaurice, GM, Laird, NM y Ware, JH (2004). Análisis longitudinal aplicado. Hoboken, Nueva Jersey: Wiley.
[3] Petscher, Y. y Schatschneider, C., 2011. Un estudio de simulación sobre el rendimiento de las puntuaciones ajustadas por covarianza y diferencia simple en diseños experimentales aleatorizados. Journal of Educational Measurement, 48, 31-43.
fuente
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
?, ¿quién muestra una equivalencia de B y C?Vea a Josh Angrist sobre exactamente esta pregunta: http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . Él se opone en gran medida a incluir el DV rezagado en su modelo. No hay nada en su respuesta que no esté en las respuestas anteriores, pero una respuesta sucinta adicional a su pregunta puede ayudar.
fuente
Glymour y col. (2005) abordaron mediante el ajuste de la línea de base al analizar una puntuación de cambio. Si el cambio en el estado de salud precedió a la evaluación inicial o existe un gran error de medición en la variable dependiente, encuentran que puede surgir un sesgo si el modelo de regresión que usa la puntuación de cambio como variable dependiente incluye una covariable inicial. La respuesta de Frank Harrell "El único problema sería si los errores de medición en la covariable basal se confunden con otra X, distorsionando el efecto de esa otra X". puede estar reflejando el mismo sesgo que las direcciones de Glymour.
Glymour (2005) "¿Cuándo es útil el ajuste de la línea de base en el análisis del cambio? Un ejemplo con educación y cambio cognitivo. American Journal of Epidemiology 162: 267-278
fuente
Ocram no es correcto. La diferencia en los pesos no tiene en cuenta el peso inicial. Específicamente, el peso inicial se saca al restarle el peso final.
Por lo tanto, diría que no viola ninguna suposición si controla el peso inicial.
(La misma lógica se aplica si toma la diferencia del IMC y el IMC inicial).
Actualización
Después de que el crítico de Andy W me dejara ser más formal sobre por qué tengo razón y Ocram está equivocado (al menos desde mi punto).
Hay un nivel absoluto de peso que tiene cada persona (por ejemplo, alrededor de 100 libras en lugar de 200 libras). Dejarunaw Sea este peso absoluto. yow= aw y el peso final como miw= aw+ Δw
Entonces, el peso inicial se puede formalizar como
The dv the OP wants to use is thusΔw=iw−ew=aw−aw+Δw=Δw
In other words, the absolute level of weight (formalized asaw ) drops out from the equation representing the dv and, hence, does not contaminate it (which disagrees with Andy W's claim).
If you want to take it into account you need to incorporate it into your model separately (as an ordinary parameter and/or as an interaction term).
Obviosuly this same logic applies toΔBMJ y puede acomodarse fácilmente a proporciones donde uno diría, por ejemplo: miw= aw∗ p r o pΔ w
fuente
Observe that
is equivalent to
En palabras, usar el cambio de peso (en lugar del peso final en sí) como DV ya representa el peso inicial.
fuente