Tengo un problema de regresión en el que los resultados no son estrictamente 0, 1 sino que están en el rango de todos los números reales de 0 a 1 incluidos .
Este problema ya se ha discutido en este hilo , aunque mi pregunta es ligeramente diferente.
No puedo usar la regresión lineal por las mismas razones que normalmente se usa la regresión logística. En la regresión lineal A) los valores de IV muy grandes sesgarán el resultado predicho a 1 y B) el resultado de la regresión lineal no está limitado a los límites de 0,1.
Al observar esta función de costo logístico de mi libro de , deduzco que la ecuación está diseñada para calcular un costo mayor que 0 solo cuando y no tienen el mismo valor 0 o 1.y x
¿Sería posible utilizar la regresión logística modificando la función de costo para medir todos los errores de hipótesis?
fuente
glm()
está haciendo la función en R cuando se alimenta con una respuesta continua yfamily=quasibinomial
? Es decir, estimará los coeficientes confamily=binomial
y luego, en un paso adicional, calculará los errores estándar teniendo en cuenta la sobredispersión. En caso afirmativo, ¿es lo mismo que calcular "errores estándar robustos"? Tengo algunos datos apropiados y probé con ambas familiasglm
; Obtengo coeficientes idénticos pero diferentes errores estándar. Gracias.Cuando Y está acotado, la regresión beta a menudo tiene sentido; ver el documento "Un exprimidor de limón mejor"
Esto permite efectos de piso y techo; También permite modelar la varianza y la media.
fuente
Como y no es estrictamente cero o uno (como usted dijo), el costo siempre debe ser mayor que cero. Entonces, no creo que necesites la modificación en el modelo.
fuente
Sugiero dos modelos alternativos:
Si sus resultados (variables y) están ordenados, pruebe un modelo Probit ordenado.
Si sus resultados (variables y) no están ordenados, pruebe con un modelo Logit multinomial.
fuente