¿Cuál es la diferencia entre la regresión lineal transformada por logit, la regresión logística y un modelo logístico mixto?

10

Supongamos que tengo 10 estudiantes, cada uno de los cuales intenta resolver 20 problemas de matemáticas. Los problemas se califican como correctos o incorrectos (en datos largos) y el rendimiento de cada alumno se puede resumir mediante una medida de precisión (en subjdatos). Los modelos 1, 2 y 4 a continuación parecen producir resultados diferentes, pero entiendo que están haciendo lo mismo. ¿Por qué están produciendo resultados diferentes? (Incluí el modelo 3 como referencia).

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))
usuario20061
fuente
También probé la regresión beta, pero recibí un error ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)
user20061
library(car)es necesario para la función logit.
user20061
1
Puede ayudarlo a leer dos de mis respuestas a preguntas relacionadas: Diferencia entre modelos logit y probit (que discute las funciones de enlace y GLiM en general: un comentario al final aborda específicamente su 1 y 3), y Diferencia entre modelos lineales generalizados y modelos mixtos lineales generalizados (que discuten cómo su 4 es diferente de 1 y 3).
gung - Restablece a Monica

Respuestas:

15

Los modelos 1 y 2 son diferentes porque el primero transforma la respuesta y el segundo transforma su valor esperado.

Para el Modelo 1, el logit de cada respuesta se distribuye normalmente con su media siendo una función lineal de los vectores predictores y coeficientes. y, por tanto, Para el Modelo 2, la respuesta en sí se distribuye normalmente con el logit de su media como una función lineal del predictor y los vectores coeficientes y, por tanto,

logitYiN(μi,σ2)
μi=xiβ
Yi=logit1(xiβ+εi)
YiN(μi,σ2)
logitμi=xiβ
Yi=logit1(xiβ)+εi

Entonces la estructura de varianza será diferente. Imagine simulando a partir del Modelo 2: la varianza será independiente del valor esperado; y aunque los valores esperados de las respuestas estarán entre 0 y 1, las respuestas no estarán todas.

Los modelos mixtos lineales generalizados como su Modelo 4 son diferentes nuevamente porque contienen efectos aleatorios: vea aquí y aquí .

Scortchi - Restablece a Monica
fuente
Muchas gracias, esto distingue claramente el modelo 1 y el modelo 2. Su razonamiento de que el modelo 2 predice que algunos puntajes de precisión (aunque no sus valores esperados) estén fuera de [0,1] es especialmente útil (y lo descalifica para mis propósitos ) Creo que se puede usar una intuición similar contra el modelo 1: su rango de posibles puntuaciones de precisión previstas cae en (0,1) no [0,1]. Con un número limitado de preguntas, un modelo debe predecir que algunos puntajes de precisión sean 0 o 1, y una distribución binomial puede hacer exactamente eso.
user20061
2
Tenga en cuenta que generalmente debe ajustar el GLM binomial con el enlace logit contra los datos sin procesar (su longdata), no las proporciones como en su Modelo 3.
Scortchi - Restablecer Monica
7

+1 a @Scortchi, que ha proporcionado una respuesta muy clara y concisa. Quiero hacer un par de puntos complementarios. Primero, para su segundo modelo, está especificando que su distribución de respuesta es gaussiana (también conocida como normal). Esto debe ser falso, porque cada respuesta se califica como correcta o incorrecta. Es decir, cada respuesta es un ensayo de Bernoulli. Por lo tanto, su distribución de respuesta es un binomio. Esta idea también se refleja con precisión en su código. A continuación, la probabilidad que gobierna la distribución de la respuesta se distribuye normalmente, por lo que el enlace debe ser probit, no logit. Por último, si se tratara de una situación real, debería tener en cuenta los efectos aleatorios de los sujetos y las preguntas, ya que es extremadamente improbable que sean idénticos. La forma en que generó estos datos, el único aspecto relevante de cada persona es su coeficiente intelectual, que ha explicado explícitamente Por lo tanto, no queda nada que deba explicarse por un efecto aleatorio en el modelo. Esto también es cierto para las preguntas, porque las variaciones aleatorias en la dificultad de la pregunta no son parte del proceso de generación de datos en su código.

No me refiero a ser quisquilloso aquí. Reconozco que su configuración está diseñada simplemente para facilitar su pregunta, y ha cumplido ese propósito; @Scortchi pudo responder sus preguntas de manera muy directa, con un mínimo de alboroto. Sin embargo, señalo estas cosas porque ofrecen oportunidades adicionales para comprender la situación con la que está lidiando, y porque es posible que no se haya dado cuenta de que su código coincide con algunas partes de su historia pero no con otras.

gung - Restablece a Monica
fuente
Gracias por pensar tan cuidadosamente sobre mi código. Como alguien que trabaja con datos empíricos, me enorgullece decir que no tengo experiencia en la generación de datos falsos, y esto se muestra aquí en las deficiencias que ha identificado. Aunque, mi nivel de comprensión novato también puede ser revelador.
user20061
Gracias, esa información adicional fue útil y ayuda a otros (al menos a mí) a entender un poco mejor la situación. Tener una idea del enfoque GLM es difícil.
Christopher Poile