¿Es técnicamente "válido" ajustar una regresión logística con una variable dependiente que es una proporción?

8

Varias publicaciones ( aquí y aquí ) sugieren que la regresión beta es más apropiada cuando la variable dependiente está naturalmente limitada entre 0 y 1. Mi pregunta es, dejando a un lado la adecuación, ¿es técnicamente incorrecto ajustar una regresión logística a una variable de respuesta proporcional? R lanzará una advertencia pero aún producirá un resultado.

Me parece que la función de probabilidad no será una probabilidad válida cuando la variable de respuesta es proporcional en lugar de binaria, pero matemáticamente hablando, todavía se puede minimizar para dar una solución. Me pregunto qué violación / error, si corresponde, se comete al ajustar una regresión logística a datos proporcionales.

Comunidad
fuente
Además de las respuestas a continuación: Aquí hay otra publicación que trata esta pregunta.
COOLSerdash

Respuestas:

8

Lo que propones a veces se llama logit fraccional. Ciertamente tiene sus méritos, siempre y cuando recuerde usar errores estándar robustos. En 2010 di una charla en la reunión de usuarios de Stata en Alemania comparando entre otras cosas la regresión beta y el logit fraccional. Las diapositivas se pueden encontrar aquí: http://www.maartenbuis.nl/presentations/berlin10.pdf

Maarten Buis
fuente
(+1) Maarten, otra pregunta: leí que el GLM binomial se puede usar para respuestas de fracción / proporción si se proporciona el número total de ensayos para cada fracción / proporción (en R esto se hace con un weightsargumento para glm), ver, por ejemplo, aquí stats.stackexchange.com/a/26779/28666 . ¿Cómo se relaciona "logit fraccional" con "errores estándar robustos" con este enfoque? ¿Es lo mismo o no?
ameba
2
@amoeba es diferente. Piense en un logit fraccional como modelo para la proporción media, mientras que lo que propuso como una forma de recuperar un modelo logit.
Maarten Buis
6

Los modelos de este tipo a menudo se definen y usan como un tipo de modelo lineal generalizado. Para una revisión concisa, consulte http://www.stata-journal.com/article.html?article=st0147 El argumento es que el binomio es una familia razonable incluso para proporciones continuas, ya que la varianza también se acercará a 0 a medida que se aproxima la media 0 o 1.

Si los programas o funciones particulares en un software particular los acomoda es una cuestión diferente. Decir que "R arrojará una advertencia pero aún producirá un resultado" transmite poca información. ¿A qué paquete te refieres? ¿Es realmente el único paquete relevante? En cualquier caso, como indica el artículo al que se hace referencia, este modelo está bien soportado en Stata, por ejemplo.

Eso todavía deja margen para una discusión detallada de los méritos relativos de un modelo logit para proporciones continuas y regresión beta.

Nick Cox
fuente
1
+1 en esta vieja respuesta después de la discusión de hoy en otra parte. Todavía te animo a publicar una respuesta sobre este enfoque en stats.stackexchange.com/questions/29038 .
ameba
1
Algunos comentarios sobre cómo funciona esto en R se encuentran, por ejemplo, en los comentarios de esta respuesta stats.stackexchange.com/a/43369 en un hilo relacionado.
ameba