Digamos que quiero predecir si un proyecto será rentable o no. En mis datos de muestra, la variable de respuesta es en realidad una variable continua: el $ beneficio / pérdida del proyecto.
Debido a que mi objetivo final es solo una clasificación binaria (proyecto rentable o proyecto no rentable), ¿debería usar una técnica de clasificación? ¿O debería usar la regresión para no tirar la información adicional que proporciona una variable de respuesta continua?
fuente
Vladimir Vapnik (co-inventor de la máquina de vectores de soporte y teórico líder en aprendizaje computacional) aboga por tratar de resolver el problema directamente, en lugar de resolver un problema más general y luego descartar parte de la información proporcionada por la solución. Generalmente estoy de acuerdo con esto, por lo que sugeriría un enfoque de clasificación para el problema tal como se plantea actualmente. La razón de esto es que si solo estamos interesados en clasificar un proyecto como rentable o no rentable, entonces realmente solo estamos interesados en la región donde la rentabilidad es alrededor de cero. Si formamos un modelo de clasificación, ahí es donde concentraremos nuestros recursos de modelado. Si adoptamos un enfoque de regresión, es posible que estemos desperdiciando recursos de modelado para realizar pequeñas mejoras en el rendimiento de proyectos que serán muy rentables o no rentables, potencialmente a expensas de mejorar el rendimiento de los proyectos límite.
Ahora, la razón por la que dije "como se plantea actualmente", es que muy pocos problemas en realidad implican una clasificación binaria simple y dura (el reconocimiento óptico de caracteres probablemente sería uno). En general, los diferentes tipos de clasificación errónea tienen costos diferentes, o las frecuencias de clase operativa pueden ser desconocidas, o variables, etc. En tales casos, es mejor tener un clasificador probabilístico, como la regresión logística, en lugar de un SVM. Si me parece que para una aplicación financiera, lo haremos mejor si conocemos la probabilidad de que el proyecto sea rentable, y cuán rentable o probable sea. Es muy posible que estemos dispuestos a financiar un proyecto que tiene una pequeña posibilidad de ser rentable, pero masivamente rentable en caso de tener éxito, pero no un proyecto que esté casi garantizado como exitoso, pero que tendrá un margen de beneficio tan pequeño que seríamos es mejor meter el dinero en una cuenta de ahorros.
¡Entonces Frank y Omri374 tienen razón! (+1; o)
EDITAR: Para aclarar por qué la regresión podría no ser siempre un buen enfoque para resolver un problema de clasificación, aquí hay un ejemplo. Digamos que tenemos tres proyectos, con rentabilidad , y para cada proyecto, tenemos una variable explicativa que esperamos sea indicativa de rentabilidad, . Si tomamos un enfoque de regresión (con desplazamiento), obtenemos coeficientes de regresión y (¡siempre que haya hecho las sumas correctamente!). Luego, el modelo predice que los proyectos generarán ganancias , yy⃗ =(−$1000,+$1,+$1000) x⃗ =(1,2,10) β0=−800.8288 β1=184.8836 y^1≈−$616 y^2≈−$431 y^3≈$1048 . Tenga en cuenta que el segundo proyecto se predice incorrectamente como no rentable. Si, por otro lado, tomamos un enfoque de clasificación y retrocedemos en su lugar en , obtenemos coeficientes de regresión y , que puntúa los tres proyectos de la siguiente manera: , y . Entonces, un enfoque de clasificación clasifica correctamente el proyecto 1 como no rentable y los otros dos como rentables.t⃗ =2∗(y>=0)−1 β0=−0.2603 β1=0.1370 t^1=−0.1233 t^2=0.0137 t^3=1.1096
La razón por la que esto sucede es que un enfoque de regresión intenta igualmente minimizar la suma de los errores al cuadrado para cada uno de los puntos de datos. En este caso, se obtiene un SSE más bajo al permitir que el proyecto dos caiga en el lado incorrecto del límite de decisión, a fin de lograr errores más bajos en los otros dos puntos.
Por lo tanto, Frank tiene razón al decir que un enfoque de regresión probablemente sea un buen enfoque en la práctica, pero si la clasificación es realmente el objetivo final, hay situaciones en las que puede funcionar mal y un enfoque de clasificación funcionará mejor.
fuente
Después de leer los comentarios, creo que la siguiente distinción es lo que falta en la discusión:
Cómo modelar el problema
Esto no tiene nada que ver con qué técnica usar. Es la cuestión de cuáles son las entradas y salidas y cómo evaluar el resultado.
Si realmente solo le importa si nuestros proyectos son rentables o no, y la cantidad en la que lo son es absolutamente irrelevante, entonces debe modelar esto como un problema de clasificación. Eso significa que finalmente está optimizando la tasa esperada de clasificación correcta (precisión) o AUC. A qué se traduce esta optimización depende de la técnica que utilice.
Todas las preguntas sobre la elección del modelo y los algoritmos de búsqueda pueden abordarse de manera heurística (utilizando los argumentos que se han presentado en las otras respuestas y comentarios), pero la prueba definitiva del budín está en comer. Independientemente del modelo que tenga, lo evaluará mediante pruebas de validación cruzada para la precisión, por lo que la precisión es lo que optimiza.
Como resolver el problema
Puede usar cualquier método que desee que se ajuste al paradigma de clasificación. Como tiene una variable continua y, puede hacer una regresión sobre eso y traducirla a una clasificación binaria. Esto probablemente funcionará bien. Sin embargo, no hay garantía de que el modelo de regresión óptimo (por suma de errores al cuadrado o máxima probabilidad o lo que sea) también le brinde el modelo de clasificación óptimo (por precisión o AUC).
fuente
Un modelo de clasificación generalmente intenta minimizar el signo (error en términos de clase) y no el sesgo. En el caso de muchos valores atípicos, por ejemplo, preferiría usar un modelo de clasificación y no un modelo de regresión.
fuente
Enmarcaría el problema como el de minimizar las pérdidas. La pregunta es ¿cuál es su verdadera función de pérdida? ¿Una predicción incorrecta de rentable cuando el proyecto perdió $ 1 cuesta tanto como una predicción de rentabilidad cuando el proyecto perdió $ 1000? En ese caso, su función de pérdida es verdaderamente binaria, y es mejor que lo considere todo como un problema de clasificación. La función de regresión aún puede ser uno de sus clasificadores candidatos, pero debe optimizarla con la función de pérdida discreta en lugar de la continua. Si tiene una definición más complicada de pérdida, entonces debe intentar formalizarla y ver qué obtiene si toma la derivada.
Curiosamente, muchos métodos de aprendizaje automático realmente optimizan una función de pérdida discreta al aproximarse a una función continua, ya que una función de pérdida discreta proporciona gradientes pobres para la optimización. Por lo tanto, puede terminar convirtiéndolo en un problema de clasificación, ya que esa es su función de pérdida, pero luego aproxima esa función de pérdida con la función continua original.
fuente