Recientemente comencé a estudiar aprendizaje automático, sin embargo, no pude comprender la intuición detrás de la regresión logística .
Los siguientes son los hechos sobre la regresión logística que entiendo.
Como base para la hipótesis utilizamos la función sigmoidea . Entiendo por qué es una elección correcta, sin embargo, por qué es la única opción que no entiendo. La hipótesis representa la probabilidad de que el resultado apropiado sea , por lo tanto, el dominio de nuestra función debe ser [ 0 , 1 ] , esta es la única propiedad de la función sigmoidea que encontré útil y apropiada aquí, sin embargo, muchas funciones satisfacen esta propiedad. Además, la función sigmoidea tiene una derivada en esta forma f ( x ) ( 1 - f ( x ) ), pero no veo la utilidad de esta forma especial en la regresión logística.
Pregunta : ¿qué tiene de especial la función sigmoidea y por qué no podemos utilizar ninguna otra función con el dominio ?
La función de costo consta de dos parámetros si y = 1 , C o s t ( h θ ( x ) , y ) = - log ( 1 - h θ ( x ) ) si y = . De la misma manera que antes, entiendo por qué es correcto, sin embargo, ¿por qué es la única forma? Por ejemplo, ¿por qué no podría | h θ ( x ) - y | ser una buena opción para la función de costo?
Pregunta : ¿qué tiene de especial la forma anterior de función de costo; ¿Por qué no podemos usar otra forma?
Le agradecería si pudiera compartir su comprensión de la regresión logística.
fuente
Respuestas:
El modelo de regresión logística es de máxima probabilidad utilizando el parámetro natural (la relación log-odds) para contrastar los cambios relativos en el riesgo de la diferencia de resultado por unidad en el predictor. Esto supone, por supuesto, un modelo de probabilidad binomial para el resultado. Eso significa que las propiedades de consistencia y robustez de la regresión logística se extienden directamente desde la máxima probabilidad: robusta a faltante en datos aleatorios, consistencia raíz-n y existencia y unicidad de soluciones para estimar ecuaciones. Esto supone que las soluciones no están en los límites del espacio de parámetros (donde las relaciones de probabilidades de registro son ). Debido a que la regresión logística es la probabilidad máxima, la función de pérdida está relacionada con la probabilidad, ya que son problemas de optimización equivalentes.± ∞
Con cuasilikelihood o estimaciones de ecuaciones (inferencia semiparamétrica), la existencia, las propiedades de unicidad aún se mantienen, pero la suposición de que el modelo medio no es relevante y la inferencia y los errores estándar son consistentes independientemente de la especificación errónea del modelo. Entonces, en este caso, no se trata de si el sigmoide es la función correcta, sino una que nos da una tendencia en la que podemos creer y está parametrizada por parámetros que tienen una interpretación extensible.
Sin embargo, el sigmoide no es la única función de modelado binario de este tipo. La función probit más comúnmente contrastada tiene propiedades similares. No estima las proporciones de log-odds, pero funcionalmente se ven muy similares y tienden a dar aproximaciones muy similares a exactamente lo mismo . Tampoco es necesario usar propiedades de límite en la función media del modelo. Simplemente usando una curva logarítmica con una función de varianza binomial se obtiene una regresión de riesgo relativo, un enlace de identidad con varianza binomial proporciona modelos de riesgo aditivos. Todo esto lo determina el usuario. La popularidad de la regresión logística es, lamentablemente, por qué se usa con tanta frecuencia. Sin embargo, tengo mis razones (las que dije) por las que creo que está bien justificado para su uso en la mayoría de las circunstancias de modelado de resultados binarios.
En el mundo de la inferencia, para resultados raros, la razón de posibilidades puede interpretarse aproximadamente como un "riesgo relativo", es decir, un "cambio relativo porcentual en el riesgo de resultado que compara X + 1 con X". Este no es siempre el caso y, en general, un odds ratio no puede ni debe interpretarse como tal. Sin embargo, que los parámetros tienen interpretación y pueden comunicarse fácilmente a otros investigadores es un punto importante, algo que lamentablemente falta en los materiales didácticos de los aprendices de máquina.
El modelo de regresión logística también proporciona los fundamentos conceptuales para enfoques más sofisticados, como el modelado jerárquico, así como los enfoques de modelado mixto y probabilidad condicional que son consistentes y robustos para un número exponencialmente creciente de parámetros molestos. Los GLMM y la regresión logística condicional son conceptos muy importantes en las estadísticas de alta dimensión.
fuente
fuente