Según mis resultados, parece que GLM Gamma cumple con la mayoría de los supuestos, pero ¿es una mejora valiosa sobre el LM transformado por registro? La mayoría de la literatura que he encontrado trata sobre Poisson o Binomial GLM. El artículo EVALUACIÓN DE LAS ASUNCIONES DE MODELO LINEAL GENERALIZADO QUE UTILIZA LA ALEATORIZACIÓN me pareció muy útil, pero carece de las tramas reales utilizadas para tomar una decisión. Espero que alguien con experiencia pueda señalarme en la dirección correcta.
Quiero modelar la distribución de mi variable de respuesta T, cuya distribución se representa a continuación. Como se puede ver, es asimetría positiva:
.
Tengo dos factores categóricos a considerar: METH y CASEPART.
Tenga en cuenta que este estudio es principalmente exploratorio, esencialmente sirve como estudio piloto antes de teorizar un modelo y realizar DoE a su alrededor.
Tengo los siguientes modelos en R, con sus diagramas de diagnóstico:
LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)
GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))
GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))
También obtuve los siguientes valores de P a través de la prueba de Shapiro-Wilks en residuos:
LM.LOG: 2.347e-11
GLM.GAMMA: 0.6288
GLM.GAUS: 0.6288
Calculé los valores de AIC y BIC, pero si estoy en lo correcto, no me dicen mucho debido a las diferentes familias en los GLM / LM.
Además, noté los valores extremos, pero no puedo clasificarlos como valores atípicos ya que no existe una "causa especial" clara.
Respuestas:
Bueno, claramente, el ajuste log-lineal al gaussiano no es adecuado; Hay una fuerte heterocedasticidad en los residuos. Así que tomemos eso fuera de consideración.
Lo que queda es lognormal vs gamma.
Cualquiera de los modelos parece casi igualmente adecuado en este caso. Ambos tienen una varianza proporcional al cuadrado de la media, por lo que el patrón de dispersión de los residuos frente al ajuste es similar.
Un valor atípico bajo se ajustará ligeramente mejor con una gamma que un lognormal (viceversa para un valor atípico alto). En una media y varianza dada, el lognormal es más sesgado y tiene un coeficiente de variación más alto.
Vea también aquí y aquí para algunas discusiones relacionadas.
fuente