¿Es aceptable ejecutar dos modelos lineales en el mismo conjunto de datos?

Para una regresión lineal con múltiples grupos (grupos naturales definidos a priori), ¿es aceptable ejecutar dos modelos diferentes en el mismo conjunto de datos para responder las siguientes dos preguntas?

¿Cada grupo tiene una pendiente distinta de cero y una intersección distinta de cero y cuáles son los parámetros para cada regresión dentro del grupo?
¿Existe, independientemente de la pertenencia a un grupo, una tendencia no nula y una intercepción no nula y cuáles son los parámetros para esta regresión entre grupos?

En R, el primer modelo sería lm(y ~ group + x:group - 1), de modo que los coeficientes estimados podrían interpretarse directamente como la intersección y la pendiente para cada grupo. El segundo modelo seríalm(y ~ x + 1) .

La alternativa sería lm(y ~ x + group + x:group + 1) , lo que da como resultado una complicada tabla resumen de coeficientes, con las pendientes e intersecciones dentro del grupo que deben calcularse a partir de las diferencias en las pendientes e intersecciones de alguna referencia. También debe reordenar los grupos y ejecutar el modelo por segunda vez de todos modos para obtener un valor p para la última diferencia de grupo (a veces).

¿Esto usando dos modelos separados afecta negativamente la inferencia de alguna manera o esta práctica estándar?

Para poner esto en contexto, considere x como una dosis de droga y los grupos como razas diferentes. Puede ser interesante conocer la relación dosis-respuesta para una raza en particular para un médico, o para qué carreras funciona el medicamento, pero también puede ser interesante a veces conocer la relación dosis-respuesta para toda la población (humana) independientemente de la raza para un funcionario de salud pública. Este es solo un ejemplo de cómo uno podría estar interesado tanto en el grupo como en las regresiones grupales por separado. Si una relación dosis-respuesta debe ser lineal no es importante.

r regression multiple-comparisons inference ancova Jdub
fuente

¿Estás seguro de que quieres usar regresiones lineales? Las relaciones dosis-respuesta casi nunca son lineales en un rango de dosis sustancial.

Michael Lew

@Michael, lo siento, supongo que fue una mala elección de ejemplo. Me pregunto sobre esto en general. Los detalles de las relaciones dosis-respuesta no deberían interferir. Edité la pregunta para notar esto.

Jdub

¿Has considerado una intercepción aleatoria, un modelo de pendiente aleatorio?

asumido normal

-1+0lm(y ~ group + x:group - 1) +1 $g$ $g-1$ $X$ le dirá si la pendiente del grupo predeterminado difiere significativamente de 0, y los términos de interacción le dicen si las pendientes de esos grupos difieren de los grupos predeterminados. Las pruebas para las pendientes de los otros grupos contra 0 se pueden construir al igual que para las intersecciones. Aún mejor sería ajustar un modelo 'restringido' sin ninguna de las variables indicadoras de grupo o los términos de interacción, y probar este modelo con el modelo completo con anova(), que le dirá si sus grupos difieren significativamente.

$g$ entre sí $g$

$n_g=0$ $n$

Te sugiero que sigas el protocolo que describo anteriormente. A saber, código ficticio de sus grupos. Luego ajuste un modelo completo con todos los dummies y términos de interacción incluidos. Ajuste un modelo reducido sin estos términos y realice una prueba de modelo anidado. Si los grupos difieren de alguna manera, realice un seguimiento (con suerte) de contrastes ortogonales a priori (impulsados teóricamente) para comprender mejor cómo difieren los grupos. (Y trama, siempre, siempre trama).

gung - Restablece a Monica
fuente

¿Es aceptable ejecutar dos modelos lineales en el mismo conjunto de datos?

Respuestas: