Intuición detrás de la regresión logística.

Recientemente comencé a estudiar aprendizaje automático, sin embargo, no pude comprender la intuición detrás de la regresión logística .

Los siguientes son los hechos sobre la regresión logística que entiendo.

Como base para la hipótesis utilizamos la función sigmoidea . Entiendo por qué es una elección correcta, sin embargo, por qué es la única opción que no entiendo. La hipótesis representa la probabilidad de que el resultado apropiado sea , por lo tanto, el dominio de nuestra función debe ser , esta es la única propiedad de la función sigmoidea que encontré útil y apropiada aquí, sin embargo, muchas funciones satisfacen esta propiedad. Además, la función sigmoidea tiene una derivada en esta forma $1$ $[0,1]$ $f(x)(1-f(x))$ , pero no veo la utilidad de esta forma especial en la regresión logística.

Pregunta : ¿qué tiene de especial la función sigmoidea y por qué no podemos utilizar ninguna otra función con el dominio ? $[0,1]$
La función de costo consta de dos parámetros si si ${\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))$ $y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))$ . De la misma manera que antes, entiendo por qué es correcto, sin embargo, ¿por qué es la única forma? Por ejemplo, ¿por qué no podríaser una buena opción para la función de costo? $y=0$ $|h_{\theta(x)}-y|$

Pregunta : ¿qué tiene de especial la forma anterior de función de costo; ¿Por qué no podemos usar otra forma?

Le agradecería si pudiera compartir su comprensión de la regresión logística.

regression machine-learning logistic usuario16168
fuente

La función logit / logistic no es la única función que se puede usar como una función de enlace para los modelos de regresión cuando la respuesta se distribuye como un binomio. Con respecto a este punto, puede ayudarlo a leer mi respuesta aquí: diferencia entre modelos logit y probit .

gung - Restablece a Monica

Mi respuesta aquí: es la función logit siempre la mejor para el modelado de regresión de datos binarios , también puede ser útil para pensar en diferentes posibilidades.

gung - Restablecer a Monica

@AdamO proporciona una excelente descripción general a continuación. Si desea información más detallada sobre lo que significa que logit es la 'función de enlace canónico', puede leer la respuesta de Momo aquí: diferencia-entre-función-enlace-y-función-enlace-canónica-para-glm .

gung - Restablecer Monica

Un ejemplo ilustrado trabajado de (1) donde no se usa un "sigmoide" aparece en stats.stackexchange.com/a/70922 . Esa respuesta incluye una explicación de (2). Otro ejemplo aparece en stats.stackexchange.com/questions/63978/… . Una discusión más mundana (pero menos técnica) ocurre en stats.stackexchange.com/a/69873 , enfocándose en el problema (2).

Whuber

Respuestas:

El modelo de regresión logística es de máxima probabilidad utilizando el parámetro natural (la relación log-odds) para contrastar los cambios relativos en el riesgo de la diferencia de resultado por unidad en el predictor. Esto supone, por supuesto, un modelo de probabilidad binomial para el resultado. Eso significa que las propiedades de consistencia y robustez de la regresión logística se extienden directamente desde la máxima probabilidad: robusta a faltante en datos aleatorios, consistencia raíz-n y existencia y unicidad de soluciones para estimar ecuaciones. Esto supone que las soluciones no están en los límites del espacio de parámetros (donde las relaciones de probabilidades de registro son ). Debido a que la regresión logística es la probabilidad máxima, la función de pérdida está relacionada con la probabilidad, ya que son problemas de optimización equivalentes. $\pm \infty$

Con cuasilikelihood o estimaciones de ecuaciones (inferencia semiparamétrica), la existencia, las propiedades de unicidad aún se mantienen, pero la suposición de que el modelo medio no es relevante y la inferencia y los errores estándar son consistentes independientemente de la especificación errónea del modelo. Entonces, en este caso, no se trata de si el sigmoide es la función correcta, sino una que nos da una tendencia en la que podemos creer y está parametrizada por parámetros que tienen una interpretación extensible.

Sin embargo, el sigmoide no es la única función de modelado binario de este tipo. La función probit más comúnmente contrastada tiene propiedades similares. No estima las proporciones de log-odds, pero funcionalmente se ven muy similares y tienden a dar aproximaciones muy similares a exactamente lo mismo . Tampoco es necesario usar propiedades de límite en la función media del modelo. Simplemente usando una curva logarítmica con una función de varianza binomial se obtiene una regresión de riesgo relativo, un enlace de identidad con varianza binomial proporciona modelos de riesgo aditivos. Todo esto lo determina el usuario. La popularidad de la regresión logística es, lamentablemente, por qué se usa con tanta frecuencia. Sin embargo, tengo mis razones (las que dije) por las que creo que está bien justificado para su uso en la mayoría de las circunstancias de modelado de resultados binarios.

En el mundo de la inferencia, para resultados raros, la razón de posibilidades puede interpretarse aproximadamente como un "riesgo relativo", es decir, un "cambio relativo porcentual en el riesgo de resultado que compara X + 1 con X". Este no es siempre el caso y, en general, un odds ratio no puede ni debe interpretarse como tal. Sin embargo, que los parámetros tienen interpretación y pueden comunicarse fácilmente a otros investigadores es un punto importante, algo que lamentablemente falta en los materiales didácticos de los aprendices de máquina.

El modelo de regresión logística también proporciona los fundamentos conceptuales para enfoques más sofisticados, como el modelado jerárquico, así como los enfoques de modelado mixto y probabilidad condicional que son consistentes y robustos para un número exponencialmente creciente de parámetros molestos. Los GLMM y la regresión logística condicional son conceptos muy importantes en las estadísticas de alta dimensión.

AdamO
fuente

¡Muchas gracias por su respuesta! Parece que tengo una gran falta de fondo.

user16168

Creo que el libro de McCullough y Nelder Generalized Linear Models sería un gran recurso de fondo para una perspectiva más estadística.

AdamO

En general, ¿qué libro de texto aconseja en Aprendizaje automático con contenido descriptivo muy detallado?

user16168

Elementos de aprendizaje estadístico por Hastie, Tibshirani, Friedman.

AdamO

@ user48956 Análisis estadístico con Missing Dada, Little & Rubin 2nd ed. Los datos que faltan no se "representan" per se, sino que se "manejan" por omisión. Esto no es particular de la regresión logística: es el enfoque ingenuo utilizado por todos los modelos estadísticos. Cuando los datos se formatean en una matriz rectangular, se omiten las filas con valores faltantes. Esto se conoce como un análisis de caso completo. Los GLM y GLMMS son sólidos para los datos faltantes en el sentido de que los análisis de casos completos generalmente son imparciales y no muy ineficientes.

AdamO

$Y$ $X$ $Y$ $Y$ $X$ $Y_i=X_i\beta+\epsilon_i$

$Y^*$ $Y$ $Y^*$

\begin{aligned} Y_{yo}^{*} & = X_{yo} β + ϵ_{yo} \\ Y_{yo} & = 0 0 Si Y_{yo}^{*} < 0 0 \\ Y_{yo} & = 1 Si Y_{yo}^{*} > 0 0 \end{aligned}

$\begin{align} Y^*_i &= X_i \beta + \epsilon_i\\ &\\ Y_i &= 0 \;\textrm{if}\; Y_i^*<0\\ Y_i &= 1 \; \textrm{if} \; Y_i^*>0 \end{align}$

X

$X$

$Y^*$ $X$ $Y$ $Y^*$

$\beta$ $\epsilon$ $F$ $P\{Y_i=1\}=F(X_i\beta)$

$P\{Y_i=1\}=1-F(-X_i\beta)$

$\epsilon$ $F$

$F$

Cuenta
fuente

Lo que describió es exactamente la motivación para el modelo probit, no la regresión logística.

AdamO

ϵ_{i}

$\epsilon_i$

Parece una suposición muy sensible y difícil de probar. Creo que la regresión logística puede estar motivada cuando tales distribuciones de error no se mantienen.

AdamO

@AdamO, aunque usted motive la regresión logística, todavía es matemáticamente equivalente a un modelo de regresión lineal restringido donde los errores tienen una distribución logística. Estoy de acuerdo en que esta suposición puede ser difícil de probar, pero está ahí independientemente de cómo motives el problema. Recuerdo una respuesta anterior en CV (no puedo ubicarla ahora) que mostró con un estudio de simulación que tratar de decir si un modelo logístico o probit "encaja mejor" era básicamente un lanzamiento de moneda, independientemente del verdadero modelo generador de datos . Sospecho que la logística es más popular debido a la interpretación conveniente.

Macro

P (Y_{i} = 1) = \frac{e x p (X_{i} β)}{1 + e x p (X_{i} β)}

$P(Y_i=1)=\frac{exp(X_i\beta)}{1+exp(X_i\beta)}$