Supongamos que tengo 10 estudiantes, cada uno de los cuales intenta resolver 20 problemas de matemáticas. Los problemas se califican como correctos o incorrectos (en datos largos) y el rendimiento de cada alumno se puede resumir mediante una medida de precisión (en subjdatos). Los modelos 1, 2 y 4 a continuación parecen producir resultados diferentes, pero entiendo que están haciendo lo mismo. ¿Por qué están produciendo resultados diferentes? (Incluí el modelo 3 como referencia).
library(lme4)
set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))
r
regression
logistic
generalized-linear-model
binomial
usuario20061
fuente
fuente
library(betareg)
model5 = betareg(acc~scale(iq),subjdata)
library(car)
es necesario para la función logit.Respuestas:
Los modelos 1 y 2 son diferentes porque el primero transforma la respuesta y el segundo transforma su valor esperado.
Para el Modelo 1, el logit de cada respuesta se distribuye normalmente con su media siendo una función lineal de los vectores predictores y coeficientes. y, por tanto, Para el Modelo 2, la respuesta en sí se distribuye normalmente con el logit de su media como una función lineal del predictor y los vectores coeficientes y, por tanto,
Entonces la estructura de varianza será diferente. Imagine simulando a partir del Modelo 2: la varianza será independiente del valor esperado; y aunque los valores esperados de las respuestas estarán entre 0 y 1, las respuestas no estarán todas.
Los modelos mixtos lineales generalizados como su Modelo 4 son diferentes nuevamente porque contienen efectos aleatorios: vea aquí y aquí .
fuente
longdata
), no las proporciones como en su Modelo 3.+1 a @Scortchi, que ha proporcionado una respuesta muy clara y concisa. Quiero hacer un par de puntos complementarios. Primero, para su segundo modelo, está especificando que su distribución de respuesta es gaussiana (también conocida como normal). Esto debe ser falso, porque cada respuesta se califica como correcta o incorrecta. Es decir, cada respuesta es un ensayo de Bernoulli. Por lo tanto, su distribución de respuesta es un binomio. Esta idea también se refleja con precisión en su código. A continuación, la probabilidad que gobierna la distribución de la respuesta se distribuye normalmente, por lo que el enlace debe ser probit, no logit. Por último, si se tratara de una situación real, debería tener en cuenta los efectos aleatorios de los sujetos y las preguntas, ya que es extremadamente improbable que sean idénticos. La forma en que generó estos datos, el único aspecto relevante de cada persona es su coeficiente intelectual, que ha explicado explícitamente Por lo tanto, no queda nada que deba explicarse por un efecto aleatorio en el modelo. Esto también es cierto para las preguntas, porque las variaciones aleatorias en la dificultad de la pregunta no son parte del proceso de generación de datos en su código.
No me refiero a ser quisquilloso aquí. Reconozco que su configuración está diseñada simplemente para facilitar su pregunta, y ha cumplido ese propósito; @Scortchi pudo responder sus preguntas de manera muy directa, con un mínimo de alboroto. Sin embargo, señalo estas cosas porque ofrecen oportunidades adicionales para comprender la situación con la que está lidiando, y porque es posible que no se haya dado cuenta de que su código coincide con algunas partes de su historia pero no con otras.
fuente