Actualmente me estoy enseñando cómo hacer la clasificación, y específicamente estoy mirando tres métodos: máquinas de vectores de soporte, redes neuronales y regresión logística. Lo que intento entender es por qué la regresión logística funcionaría mejor que las otras dos.
Desde mi comprensión de la regresión logística, la idea es ajustar una función logística a todos los datos. Entonces, si mis datos son binarios, todos mis datos con la etiqueta 0 deben asignarse al valor 0 (o cerca de él), y todos mis datos con el valor 1 deben asignarse al valor 1 (o cerca de él). Ahora, debido a que la función logística es continua y suave, realizar esta regresión requiere que todos mis datos se ajusten a la curva; no se aplica mayor importancia a los puntos de datos cerca del límite de decisión, y todos los puntos de datos contribuyen a la pérdida en diferentes cantidades.
Sin embargo, con máquinas de vectores de soporte y redes neuronales, solo aquellos puntos de datos cercanos al límite de decisión son importantes; Mientras un punto de datos permanezca en el mismo lado del límite de decisión, contribuirá con la misma pérdida.
Por lo tanto, ¿por qué la regresión logística podría superar a las máquinas de vectores de soporte o las redes neuronales, dado que "desperdicia recursos" al tratar de ajustar una curva a muchos datos sin importancia (fácilmente clasificables), en lugar de centrarse solo en los datos difíciles en torno a la decisión ¿Perímetro?
Respuestas:
Los recursos que considera "desperdiciados" son, de hecho, ganancias de información proporcionadas por la regresión logística. Comenzaste con la premisa equivocada. La regresión logística no es un clasificador. Es un estimador de probabilidad / riesgo. A diferencia de SVM, permite y espera "llamadas cerradas". Conducirá a una toma de decisiones óptima porque no intenta engañar a la señal predictiva para que incorpore una función de utilidad que está implícita cada vez que clasifica las observaciones. El objetivo de la regresión logística utilizando la estimación de máxima verosimilitud es proporcionar estimaciones óptimas de Prob . El resultado se utiliza de muchas maneras, por ejemplo, curvas de elevación, puntuación de riesgo de crédito, etc. Consulte el libro de Nate Silver, Signal and the Noise, para ver argumentos convincentes a favor del razonamiento probabilístico.( Y= 1 | X)
Tenga en cuenta que la variable dependiente en la regresión logística se puede codificar de la forma que desee: 0/1, A / B, sí / no, etc.Y
La suposición principal de la regresión logística es que es verdaderamente binario, por ejemplo, no fue ideado a partir de una variable de respuesta ordinal o continua subyacente. Al igual que los métodos de clasificación, es para fenómenos verdaderamente de todo o nada.Y
Algunos analistas piensan que la regresión logística supone la linealidad de los efectos predictores en la escala de probabilidades de registro. Eso solo fue cierto cuando DR Cox inventó el modelo logístico en 1958 en un momento en que la informática no estaba disponible para extender el modelo utilizando herramientas como las splines de regresión. La única debilidad real en la regresión logística es que necesita especificar qué interacciones desea permitir en el modelo. Para la mayoría de los conjuntos de datos, esto se convierte en una fortaleza porque los efectos principales aditivos son generalmente predictores mucho más fuertes que las interacciones, y los métodos de aprendizaje automático que dan igual prioridad a las interacciones pueden ser inestables, difíciles de interpretar y requieren tamaños de muestra más grandes que la regresión logística para predecir bien.
fuente
Tiene razón, a menudo la regresión logística funciona mal como clasificador (especialmente en comparación con otros algoritmos). Sin embargo, esto no significa que la regresión logística deba olvidarse y nunca estudiarse, ya que tiene dos grandes ventajas:
Resultados probabilísticos. Frank Harrell (+1) lo explicó muy bien en su respuesta.
Nos permite comprender el impacto que tiene una variable independiente en la variable dependiente mientras controlamos otras variables independientes. Por ejemplo, proporciona estimaciones y errores estándar para las razones de probabilidades condicionales (cuántas veces mayores son las probabilidades de cuando lugar de mientras se mantiene constante). X 1 = 1 2 X 2 , . . . X pY= 1 X1= 1 2 X2, . . . Xpag
fuente