Extender la regresión logística para resultados en el rango entre 0 y 1

9

Tengo un problema de regresión en el que los resultados no son estrictamente 0, 1 sino que están en el rango de todos los números reales de 0 a 1 incluidos .Y=[0 0,0,12,0,31,...,1]

Este problema ya se ha discutido en este hilo , aunque mi pregunta es ligeramente diferente.

No puedo usar la regresión lineal por las mismas razones que normalmente se usa la regresión logística. En la regresión lineal A) los valores de IV muy grandes sesgarán el resultado predicho a 1 y B) el resultado de la regresión lineal no está limitado a los límites de 0,1.

Al observar esta función de costo logístico de mi libro de , deduzco que la ecuación está diseñada para calcular un costo mayor que 0 solo cuando y no tienen el mismo valor 0 o 1.y x

Costo=-yIniciar sesión(h(X))-(1-y)Iniciar sesión(1-h(X))
yX

¿Sería posible utilizar la regresión logística modificando la función de costo para medir todos los errores de hipótesis?

Robert Kubrick
fuente

Respuestas:

9

Tienes varias opciones. Dos de ellos podrían ser:

  1. YIniciar sesión(y1-y)
  2. Y

Y

Peter Ellis
fuente
2
(+1) Opción 2: por lo general, estimaría la sobredispersión y la usaría para calcular los errores estándar: un modelo "cuasi-binomial" en el que la relación entre la varianza y la media de Y es proporcional en lugar de la misma que la de Una variable binomial.
Scortchi - Restablece a Monica
@Scortchi: ¿Es esto lo que glm()está haciendo la función en R cuando se alimenta con una respuesta continua y family=quasibinomial? Es decir, estimará los coeficientes con family=binomialy luego, en un paso adicional, calculará los errores estándar teniendo en cuenta la sobredispersión. En caso afirmativo, ¿es lo mismo que calcular "errores estándar robustos"? Tengo algunos datos apropiados y probé con ambas familias glm; Obtengo coeficientes idénticos pero diferentes errores estándar. Gracias.
ameba
1
@amoeba: Sí, eso es. Pero "errores estándar robustos" generalmente significan usar un estimador tipo sándwich o similar.
Scortchi - Restablece a Monica
8

Cuando Y está acotado, la regresión beta a menudo tiene sentido; ver el documento "Un exprimidor de limón mejor"

Esto permite efectos de piso y techo; También permite modelar la varianza y la media.

Peter Flom - Restablece a Monica
fuente
0

Como y no es estrictamente cero o uno (como usted dijo), el costo siempre debe ser mayor que cero. Entonces, no creo que necesites la modificación en el modelo.

Métrica
fuente
0

Sugiero dos modelos alternativos:

Si sus resultados (variables y) están ordenados, pruebe un modelo Probit ordenado.

Si sus resultados (variables y) no están ordenados, pruebe con un modelo Logit multinomial.

poder
fuente