¿Cuál es la diferencia entre regresión logística y regresión de respuesta fraccional?

13

Hasta donde sé, la diferencia entre el modelo logístico y el modelo de respuesta fraccional (frm) es que la variable dependiente (Y) en la que frm es [0,1], pero la logística es {0, 1}. Además, frm usa el estimador de cuasi-verosimilitud para determinar sus parámetros.

Normalmente, podemos utilizar glmpara obtener los modelos logísticos por glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Por el momento, cambiamos family = binomial(logit)a family = quasibinomial(logit).

Noté que también podemos usar family = binomial(logit)para obtener el parámetro de frm ya que da los mismos valores estimados. Ver el siguiente ejemplo

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

regreso,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

Y para family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

regreso,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

La beta estimada de ambos familyes la misma, pero la diferencia son los valores de SE. Sin embargo, para obtener el SE correcto, tenemos que usarlo library(sandwich)como en esta publicación .

Ahora, mis preguntas:

  1. ¿Cuál es la diferencia entre estos dos códigos?
  2. ¿Está a punto de obtener un SE robusto?

Si mi comprensión no es correcta, por favor dé algunas sugerencias.

novato
fuente

Respuestas:

11

Si su pregunta es: ¿cuál es la diferencia entre estos dos códigos?

Una mirada a ?glmdice See family for details of family functions, y una mirada a ?familyrevela la siguiente descripción:

Las familias cuasibinomiales y cuasipoisson difieren de las familias binomial y poisson solo en que el parámetro de dispersión no está fijado en uno, por lo que pueden modelar la sobredispersión.

Esto también es lo que ves en tu salida. Y esa es la diferencia entre ambos modelos / códigos.

Si su pregunta es: ¿cuál es la diferencia entre la regresión logística y la regresión de respuesta fraccional?

Como identifica correctamente, el modelo es logístico si sus variables dependientes son 0 o 1. Papke y Wooldridge han demostrado que puede usar un GLM de esta forma también para las fracciones para la estimación de los parámetros, pero necesita calcular errores estándar robustos. Esto no es necesario para la regresión logística, y de hecho, algunas personas piensan que no debe calcular errores estándar robustos en modelos probit / logit. Aunque este es un debate diferente.

La base teórica proviene de un famoso artículo de Gourieroux, Monfort y Trognon.en Econometrica en 1984. Muestran que (bajo algunas condiciones de regularidad, etc.) los parámetros de máxima verosimilitud obtenidos al maximizar una verosimilitud que pertenece a la familia exponencial lineal son estimaciones consistentes para parámetros que pertenecen a cualquier otra probabilidad en la familia exponencial lineal. Entonces, en cierto sentido, estamos usando la distribución logística aquí aunque no sea exactamente la correcta, pero los parámetros siguen siendo consistentes para los parámetros que deseamos obtener. Entonces, si su pregunta se origina en la observación de que estamos utilizando la misma función de probabilidad para estimar modelos de respuesta tanto logísticos como fraccionarios, excepto que intercambiamos la naturaleza de la variable dependiente, entonces esta es la intuición.

coffeinjunky
fuente
¿Cómo podemos medir el rendimiento de la empresa? ¿Podemos usar MSE como regresión lineal?
novato
1
Esa es una pregunta muy diferente. Por favor publíquelo como uno nuevo.
coffeinjunky