Tengo 2 variables dependientes (DV), cada una de cuyas puntuaciones puede estar influenciada por el conjunto de 7 variables independientes (IV). Los DV son continuos, mientras que el conjunto de IV consiste en una mezcla de variables codificadas continuas y binarias. (En el siguiente código, las variables continuas se escriben en mayúsculas y las variables binarias en minúsculas).
El objetivo del estudio es descubrir cómo estos DV están influenciados por las variables IV. Propuse el siguiente modelo de regresión múltiple multivariante (MMR):
my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I)
Para interpretar los resultados, llamo dos declaraciones:
summary(manova(my.model))
Manova(my.model)
Las salidas de ambas llamadas se pegan a continuación y son significativamente diferentes. ¿Alguien puede explicar qué enunciado entre los dos debe seleccionarse para resumir adecuadamente los resultados de MMR y por qué? Cualquier sugerencia sería muy apreciada.
Salida usando la summary(manova(my.model))
declaración:
> summary(manova(my.model))
Df Pillai approx F num Df den Df Pr(>F)
c 1 0.105295 5.8255 2 99 0.004057 **
d 1 0.085131 4.6061 2 99 0.012225 *
e 1 0.007886 0.3935 2 99 0.675773
f 1 0.036121 1.8550 2 99 0.161854
g 1 0.002103 0.1043 2 99 0.901049
H 1 0.228766 14.6828 2 99 2.605e-06 ***
I 1 0.011752 0.5887 2 99 0.556999
Residuals 100
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Salida usando la Manova(my.model)
declaración:
> library(car)
> Manova(my.model)
Type II MANOVA Tests: Pillai test statistic
Df test stat approx F num Df den Df Pr(>F)
c 1 0.030928 1.5798 2 99 0.21117
d 1 0.079422 4.2706 2 99 0.01663 *
e 1 0.003067 0.1523 2 99 0.85893
f 1 0.029812 1.5210 2 99 0.22355
g 1 0.004331 0.2153 2 99 0.80668
H 1 0.229303 14.7276 2 99 2.516e-06 ***
I 1 0.011752 0.5887 2 99 0.55700
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
lm
función, estoy realizando una regresión multivariada solo al especificar más de una variable de respuesta dentro de lalm
función. Aprendí que al usar lalm
función cuando mis datos son realmente multivariados dan un resultado erróneo para el error estándar. Pero en este casomy.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I);
va avcov(my.model )
subestimar el error estándar olm
se ajustará de forma inteligente la correlación entre las variables dependientes?Bueno, todavía no tengo suficientes puntos para comentar sobre la respuesta anterior y es por eso que lo escribo como una respuesta separada, así que por favor, perdónenme. (Si es posible, por favor empujame sobre los 50 puntos de repetición;)
Así que aquí están los 2cents: las pruebas de errores de Tipo I, II y III son esencialmente variaciones debido a que los datos están desequilibrados. (Def. Desequilibrado: no tener el mismo número de observaciones en cada uno de los estratos). Si los datos están equilibrados, las pruebas de error Tipo I, II y III dan exactamente los mismos resultados.
Entonces, ¿qué sucede cuando los datos están desequilibrados?
Considere un modelo que incluye dos factores A y B; Por lo tanto, hay dos efectos principales y una interacción, AB. SS (A, B, AB) indica el modelo completo SS (A, B) indica el modelo sin interacción. SS (B, AB) indica el modelo que no tiene en cuenta los efectos del factor A, y así sucesivamente.
Esta notación ahora tiene sentido. Solo tenlo en cuenta.
Tipo I, también llamada suma de cuadrados "secuencial":
1)
SS(A) for factor A.
2)
SS(B | A) for factor B.
3)
SS(AB | B, A) for interaction AB.
Entonces estimamos el efecto principal de A primero, el efecto de B dado A, y luego estimamos la interacción AB dada A y B (Aquí es donde están los datos desequilibrados, las diferencias entran en acción. A medida que estimamos primero el efecto principal y luego el principal de otro y luego interacción en una "secuencia")
Tipo II:
1)
SS(A | B) for factor A.
2)
SS(B | A) for factor B.
El tipo II prueba la importancia del efecto principal de A después de B y B después de A. ¿Por qué no hay SS (AB | B, A)? La advertencia es que el método tipo II solo se puede usar cuando ya hemos probado que la interacción sea insignificante. Dado que no hay interacción (SS (AB | B, A) es insignificante) la prueba de tipo II tiene un mejor poder sobre el tipo III
Tipo III:
1)
SS(A | B, AB) for factor A.
2)
SS(B | A, AB) for factor B.
Así que probamos la interacción durante el tipo II y la interacción fue significativa. Ahora necesitamos usar el tipo III, ya que tiene en cuenta el término de interacción.
Como ya ha dicho @caracal, cuando los datos están equilibrados, los factores son ortogonales, y los tipos I, II y III dan los mismos resultados. Espero que esto ayude !
Divulgación: La mayor parte no es mi propio trabajo. Encontré esta excelente página vinculada y tuve ganas de reducirla aún más para que sea más simple.
fuente