¿Por qué la regresión logística no se llama clasificación logística?

75

Dado que la Regresión logística es un modelo de clasificación estadística que trata con variables dependientes categóricas, ¿por qué no se llama Clasificación logística ? ¿No debería reservarse el nombre de "Regresión" a los modelos que manejan variables dependientes continuas?

Ismael Ghalimi
fuente
55
La regresión logística pertenece a la familia de modelos GLM.
Stéphane Laurent
10
Puede usarlo para hacer retroceder las probabilidades.
Emre
25
Si bien la regresión logística ciertamente se puede usar para la clasificación al introducir un umbral en las probabilidades que devuelve, ese es apenas su único uso, o incluso su uso principal. Fue desarrollado para, y continúa siendo utilizado, para propósitos de regresión que no tienen nada que ver con la clasificación. Yo diría que esto sigue siendo fácilmente para lo que se usa principalmente, pero supongo que depende de lo que mires.
Glen_b
66
Puede que este documento sobre el desarrollo de la regresión logística le resulte interesante, especialmente porque da una idea de los tipos de problemas para los que se utiliza como técnica de regresión.
Glen_b

Respuestas:

102

La regresión logística no es enfáticamente un algoritmo de clasificación por sí solo. Es solo un algoritmo de clasificación en combinación con una regla de decisión que hace dicotómicas las probabilidades predichas del resultado. La regresión logística es un modelo de regresión porque estima la probabilidad de pertenencia a una clase como (transformación de a) una función multilineal de las características.

Frank Harrell ha publicado una serie de respuestas en este sitio web que enumeran las trampas de considerar la regresión logística como un algoritmo de clasificación. Entre ellos:

Si recuerdo bien, una vez me señaló su libro sobre estrategias de regresión para una mayor elaboración de estos (¡y más!) Puntos, pero parece que no puedo encontrar esa publicación en particular.

Reinstalar a Mónica
fuente
1
Si ese es el caso, todos (o la mayoría) de los clasificadores predicen las probabilidades de pertenecer a una clase primero (hasta donde yo sé) y luego transformar este problema en clases ... ¿No?
Outlier
9
@Ejemplo de contraejemplo más simple: SVM no calcula las probabilidades de clase en absoluto, solo mide la distancia entre una observación y un hiperplano.
Vuelva a instalar Monica
@Outlier en ML se denominan clasificadores probabilísticos; los árboles y el bosque aleatorio no lo son, xgboost es - al menos con logloss)
seanv507
12

En resumen, la regresión es el problema de calcular una expectativa condicional . La forma adoptada por esta expectativa es diferente dependiendo de los supuestos de cómo se generaron los datos:E[Y|X=x]

  • Asumiendo que (Y | X = x) se distribuye normalmente, se obtiene una regresión lineal clásica.
  • Suponiendo que una distribución de Poisson produce regresión de Poisson.
  • Suponiendo que una distribución de Bernoulli produce regresión logística.

El término "regresión" también se ha utilizado de manera más general que esto, incluidos enfoques como la regresión cuantil, que estima un cuantil dado de .(Y|X=x)

Chad Scherrer
fuente
-3

Además de las buenas respuestas ya proporcionadas, otra opinión es que la regresión logística predice las probabilidades (que es un valor continuo ) que tienen un rango de 0 a 1.

ingrese la descripción de la imagen aquí

krish___na
fuente