OLS vs. regresión logística para análisis exploratorio con un resultado binario

8

En el modelo logístico idealizado, obtenemos una curva en forma de S que une cada IV continua al DV. Pero en la práctica, esta forma de S ocurre con poca frecuencia, lo que hace que el enfoque logístico parezca un poco menos superior para este tipo de datos. Por supuesto, las probabilidades pronosticadas de que cada observación será "1" en el DV son utilizables en regresión logística y no en OLS, ya que en este último estas probabilidades pueden exceder los límites de [0,1]. Pero, para fines exploratorios, y si no necesitamos probabilidades pronosticadas, ¿qué tan sólido es usar OLS para ver qué IV tiene relaciones fuertes versus moderadas vs. débiles con el DV? ¿No equivaldría a una especie de versión multivariada de correlación punto-biserial? (Coeficientes de regresión estandarizados, sin mencionar estadísticas de colinealidad y gráficos parciales,

rolando2
fuente

Respuestas:

7

Si las variables explicativas tienen valores sobre toda la línea real, tiene poco sentido expresar una expectativa que sea una proporción en [0 0,1]como una función lineal de variable definida sobre toda la línea real. Si la forma sigmoidea de la transformación logit no describe la forma, entonces quizás sea mejor buscar una transformación diferente que mapee[0 0,1] dentro (-,).

Michael R. Chernick
fuente
44
+1. Para agregar a lo último que dijo Michael, probit y log-log complementario son otras dos funciones que mapean(0 0,1) a (-,)que se implementan en muchos paquetes de software.
Macro
3
Tenga en cuenta también que casi cualquier función que corresponda a un CDF para alguna variable aleatoria de valor real es candidata. Logistic, Probit y C-log-log son tres de estas funciones (secante hiperbólica, variables aleatorias de valor normal y extremo). Por lo tanto, también podría "en principio" usar una función de enlace asimétrico normal, o doble exponencial, o t, etc. etc. La distribución T es útil cuando los grados de libertad se tratan como desconocidos, ya que puede equilibrar aproximadamente entre probit y enlace logit función.
probabilidadislogica
@probabilityislogic, ha hecho un punto importante, pero poco importante: creo que la función logística es el CDF (inverso) de la distribución logística, no la distribución secante hiperbólica.
Macro
Gracias a todos. ¿Se deduce de sus respuestas que prácticamente nunca usaría la correlación punto-biserial?
rolando2
Ocurrió lo siguiente: "Regresión OLS. Cuando se usa con una variable de respuesta binaria, este modelo se conoce como un modelo de probabilidad lineal y se puede usar como una forma de describir probabilidades condicionales. [...] Para una discusión más completa de [ ...] problemas con el modelo de probabilidad lineal, ver Long (1997, p. 38-40). Long, J. Scott (1997). Modelos de regresión para variables dependientes categóricas y limitadas. Thousand Oaks, CA: Sage Publications ". ats.ucla.edu/stat/stata/dae/logit.htm
rolando2