¿Cuándo es adecuada la regresión logística?

Actualmente me estoy enseñando cómo hacer la clasificación, y específicamente estoy mirando tres métodos: máquinas de vectores de soporte, redes neuronales y regresión logística. Lo que intento entender es por qué la regresión logística funcionaría mejor que las otras dos.

Desde mi comprensión de la regresión logística, la idea es ajustar una función logística a todos los datos. Entonces, si mis datos son binarios, todos mis datos con la etiqueta 0 deben asignarse al valor 0 (o cerca de él), y todos mis datos con el valor 1 deben asignarse al valor 1 (o cerca de él). Ahora, debido a que la función logística es continua y suave, realizar esta regresión requiere que todos mis datos se ajusten a la curva; no se aplica mayor importancia a los puntos de datos cerca del límite de decisión, y todos los puntos de datos contribuyen a la pérdida en diferentes cantidades.

Sin embargo, con máquinas de vectores de soporte y redes neuronales, solo aquellos puntos de datos cercanos al límite de decisión son importantes; Mientras un punto de datos permanezca en el mismo lado del límite de decisión, contribuirá con la misma pérdida.

Por lo tanto, ¿por qué la regresión logística podría superar a las máquinas de vectores de soporte o las redes neuronales, dado que "desperdicia recursos" al tratar de ajustar una curva a muchos datos sin importancia (fácilmente clasificables), en lugar de centrarse solo en los datos difíciles en torno a la decisión ¿Perímetro?

regression machine-learning logistic classification regression-strategies Karnivaurus
fuente

LR le dará estimaciones de probabilidad, mientras que SVM le dará estimaciones binarias. Eso también hace que LR sea útil cuando no hay un hiperplano de separación entre las clases. Además, debe tener en cuenta la complejidad de los algoritmos y otras características como el número de parámetros y la sensibilidad.

Bar

Relacionado: stats.stackexchange.com/questions/127042/…

Sycorax dice Reinstate Monica

Respuestas:

Los recursos que considera "desperdiciados" son, de hecho, ganancias de información proporcionadas por la regresión logística. Comenzaste con la premisa equivocada. La regresión logística no es un clasificador. Es un estimador de probabilidad / riesgo. A diferencia de SVM, permite y espera "llamadas cerradas". Conducirá a una toma de decisiones óptima porque no intenta engañar a la señal predictiva para que incorpore una función de utilidad que está implícita cada vez que clasifica las observaciones. El objetivo de la regresión logística utilizando la estimación de máxima verosimilitud es proporcionar estimaciones óptimas de Prob . El resultado se utiliza de muchas maneras, por ejemplo, curvas de elevación, puntuación de riesgo de crédito, etc. Consulte el libro de Nate Silver, Signal and the Noise, para ver argumentos convincentes a favor del razonamiento probabilístico. $(Y=1|X)$

Tenga en cuenta que la variable dependiente en la regresión logística se puede codificar de la forma que desee: 0/1, A / B, sí / no, etc. $Y$

La suposición principal de la regresión logística es que es verdaderamente binario, por ejemplo, no fue ideado a partir de una variable de respuesta ordinal o continua subyacente. Al igual que los métodos de clasificación, es para fenómenos verdaderamente de todo o nada. $Y$

Algunos analistas piensan que la regresión logística supone la linealidad de los efectos predictores en la escala de probabilidades de registro. Eso solo fue cierto cuando DR Cox inventó el modelo logístico en 1958 en un momento en que la informática no estaba disponible para extender el modelo utilizando herramientas como las splines de regresión. La única debilidad real en la regresión logística es que necesita especificar qué interacciones desea permitir en el modelo. Para la mayoría de los conjuntos de datos, esto se convierte en una fortaleza porque los efectos principales aditivos son generalmente predictores mucho más fuertes que las interacciones, y los métodos de aprendizaje automático que dan igual prioridad a las interacciones pueden ser inestables, difíciles de interpretar y requieren tamaños de muestra más grandes que la regresión logística para predecir bien.

Frank Harrell
fuente

+1. Para ser honesto, nunca he encontrado que los SVM sean útiles. Son sexys, pero son lentos para entrenar y anotar, en mi experiencia, y tienen muchas opciones con las que debes jugar (incluido el kernel). Las redes neuronales me han parecido útiles, pero también muchas opciones y ajustes. La regresión logística es simple y proporciona resultados razonablemente bien calibrados listos para usar. La calibración es importante para el uso en el mundo real. Por supuesto, la desventaja es que es lineal, por lo que no puede ajustarse a datos agrupados o con grumos, así como a otros métodos como Random Forest.

Wayne

Gran respuesta. Por cierto, es posible que le interese saber que recientemente los estudiantes aprendieron a adaptar sus métodos sofisticados a los marcos tradicionales, como la máxima probabilidad penalizada, y resulta que los métodos sofisticados funcionan mucho mejor cuando se hace esto. Considere XGBoost, posiblemente el algoritmo de refuerzo de conjunto de árboles más efectivo que existe. La matemática está aquí: xgboost.readthedocs.io/en/latest/model.html . Debería parecerle bastante familiar a un estadístico tradicional, y puede ajustar modelos para muchos propósitos estadísticos comunes con las funciones de pérdida habituales.

Paul

Tiene razón, a menudo la regresión logística funciona mal como clasificador (especialmente en comparación con otros algoritmos). Sin embargo, esto no significa que la regresión logística deba olvidarse y nunca estudiarse, ya que tiene dos grandes ventajas:

Resultados probabilísticos. Frank Harrell (+1) lo explicó muy bien en su respuesta.
Nos permite comprender el impacto que tiene una variable independiente en la variable dependiente mientras controlamos otras variables independientes. Por ejemplo, proporciona estimaciones y errores estándar para las razones de probabilidades condicionales (cuántas veces mayores son las probabilidades de cuando lugar de mientras se mantiene constante). $Y=1$ $X_1 = 1$ $2$ $X_2,...X_p$

TrynnaDoStat
fuente

Y el aparente bajo rendimiento como clasificador es el resultado del uso de una puntuación de precisión inadecuada, no un problema inherente a la regresión logística.

Frank Harrell

@FrankHarrell: Últimamente he estado haciendo algunos experimentos y diría que la Regresión logística se ajusta a los datos con mucha menos libertad que otros métodos. Debe agregar interacciones y hacer más ingeniería de características para igualar, por ejemplo, la flexibilidad de un bosque aleatorio o GAM. (Por supuesto, la flexibilidad es la cuerda floja que cruza el abismo del sobreajuste)

Wayne

@wayne Esta menor libertad, como usted dice, es muy útil en muchos casos, porque proporciona estabilidad

rapaio

Asumir que los términos de interacción no solo son menos importantes que los términos aditivos agrega flexibilidad, sino que puede relajar los supuestos de muchas maneras. Estoy agregando más sobre esto en mi respuesta original.

Frank Harrell

@rapaio: Sí, la flexibilidad es peligrosa, tanto en términos de sobreajuste, como también de otras maneras. Es un problema de dominio / uso: ¿sus datos son ruidosos, o es realmente "bultos / cluster-ish" si puedo usar ese término?

Wayne