Algunos materiales que he visto sobre el aprendizaje automático dicen que es una mala idea abordar un problema de clasificación a través de la regresión. Pero creo que siempre es posible hacer una regresión continua para ajustar los datos y truncar la predicción continua para obtener clasificaciones discretas. Entonces, ¿por qué es una mala idea?
51
Respuestas:
"... enfoque el problema de clasificación a través de la regresión ..." por "regresión" Asumiré que se refiere a la regresión lineal, y compararé este enfoque con el enfoque de "clasificación" de ajustar un modelo de regresión logística.
Antes de hacer esto, es importante aclarar la distinción entre los modelos de regresión y clasificación. Los modelos de regresión predicen una variable continua, como la cantidad de lluvia o la intensidad de la luz solar. También pueden predecir probabilidades, como la probabilidad de que una imagen contenga un gato. Se puede usar un modelo de regresión de predicción de probabilidad como parte de un clasificador imponiendo una regla de decisión; por ejemplo, si la probabilidad es del 50% o más, decida que es un gato.
La regresión logística predice las probabilidades y, por lo tanto, es un algoritmo de regresión. Sin embargo, se describe comúnmente como un método de clasificación en la literatura de aprendizaje automático, porque puede usarse (y a menudo) para hacer clasificadores. También hay algoritmos de clasificación "verdaderos", como SVM, que solo predicen un resultado y no proporcionan una probabilidad. No discutiremos este tipo de algoritmo aquí.
Regresión lineal versus regresión logística en problemas de clasificación
Como lo explica Andrew Ng , con la regresión lineal, usted ajusta un polinomio a través de los datos; por ejemplo, como en el ejemplo a continuación, ajustamos una línea recta a través del conjunto de muestras {tamaño de tumor, tipo de tumor} :
Arriba, los tumores malignos obtienen y los no malignos obtienen , y la línea verde es nuestra hipótesis . Para hacer predicciones, podemos decir que para cualquier tamaño de tumor dado , si es mayor que1 0 0 h ( x ) X h ( x ) 0.5 0.5 , predecimos tumor maligno, de lo contrario, predecimos benigno.
Parece de esta manera que podríamos predecir correctamente cada muestra de conjunto de entrenamiento, pero ahora cambiemos un poco la tarea.
Intuitivamente, está claro que todos los tumores que superan cierto umbral son malignos. Así que agreguemos otra muestra con un tamaño de tumor enorme y volvamos a realizar una regresión lineal:
No podemos cambiar la hipótesis cada vez que llega una nueva muestra. En cambio, deberíamos aprenderlo de los datos del conjunto de entrenamiento, y luego (usando la hipótesis que hemos aprendido) hacer predicciones correctas para los datos que no hemos visto antes.
Espero que esto explique por qué la regresión lineal no es la mejor opción para los problemas de clasificación. Además, es posible que desee ver VI. Regresión logística. Video de clasificación en ml-class.org que explica la idea con más detalle.
EDITAR
Probableislogic preguntó qué haría un buen clasificador. En este ejemplo en particular, probablemente usaría una regresión logística que podría aprender una hipótesis como esta (solo estoy inventando esto):
Tenga en cuenta que tanto la regresión lineal y regresión logística le dará una línea recta (o un polinomio de orden superior), pero esas líneas tienen un significado diferente:
Entonces, la conclusión es que en el escenario de clasificación usamos un razonamiento completamente diferente y un algoritmo completamente diferente que en el escenario de regresión.
fuente
No puedo pensar en un ejemplo en el que la clasificación sea realmente el objetivo final. Casi siempre el objetivo real es hacer predicciones precisas, por ejemplo, de probabilidades. En ese espíritu, la regresión (logística) es tu amigo.
fuente
¿Por qué no mirar alguna evidencia? Aunque muchos dirían que la regresión lineal no es adecuada para la clasificación, aún puede funcionar. Para ganar algo de intuición, incluí la regresión lineal (utilizada como clasificador) en la comparación de clasificadores de scikit-learn . Esto es lo que pasa:
El límite de decisión es más estrecho que con los otros clasificadores, pero la precisión es la misma. Al igual que el clasificador de vectores de soporte lineal, el modelo de regresión le proporciona un hiperplano que separa las clases en el espacio de características.
Como vemos, usar la regresión lineal como clasificador puede funcionar, pero como siempre, validaría las predicciones.
Para el registro, así es como se ve mi código clasificador:
fuente
fuente