Aprendizaje automático para predecir probabilidades de clase

20

Estoy buscando clasificadores que generen probabilidades de que los ejemplos pertenezcan a una de dos clases.

Sé de regresión logística e ingenua Bayes, pero ¿puedes contarme sobre otros que funcionen de manera similar? Es decir, clasificadores que predicen no las clases a las que pertenecen los ejemplos, sino la probabilidad de que los ejemplos se ajusten a una clase en particular.

Puntos de bonificación por cualquier pensamiento que pueda compartir sobre las ventajas y desventajas de estos diferentes clasificadores (incluida la regresión logística y los ingenuos Bayes). Por ejemplo, ¿son algunos mejores para la clasificación de varias clases?

Gyan Veda
fuente

Respuestas:

5

SVM está estrechamente relacionado con la regresión logística, y puede usarse para predecir las probabilidades también en función de la distancia al hiperplano (la puntuación de cada punto). Para ello, haga un puntaje -> mapeo de probabilidad de alguna manera, lo cual es relativamente fácil ya que el problema es unidimensional. Una forma es ajustar una curva en S (por ejemplo, la curva logística o su pendiente) a los datos. Otra forma es usar la regresión isotónica para ajustar una función de distribución acumulativa más general a los datos.

Además de SVM, puede usar una función de pérdida adecuada para cualquier método que pueda ajustar usando métodos basados ​​en gradientes, como redes profundas.

La predicción de probabilidades no es algo que se tenga en cuenta en estos días al diseñar clasificadores. Es un extra que distrae del rendimiento de la clasificación, por lo que se descarta. Sin embargo, puede usar cualquier clasificador binario para aprender un conjunto fijo de probabilidades de clasificación (por ejemplo, "p en [0, 1/4], o [1/4, 1/2], o ...") con el " sondeo "reducción de Langford y Zadrozny.

Rauli
fuente
44
"La predicción de probabilidades no es algo que se tenga en cuenta en estos días al diseñar clasificadores". No estoy seguro de si esto fue cierto en 2013, pero es casi seguro que es falso en 2018.
Matthew Drury
9

Otra posibilidad son las redes neuronales, si usa la entropía cruzada como el costo funcional con unidades de salida sigmoidales. Eso le proporcionará las estimaciones que está buscando.

Las redes neuronales, así como la regresión logística, son clasificadores discriminativos, lo que significa que intentan maximizar la distribución condicional en los datos de entrenamiento. Asintóticamente, en el límite de muestras infinitas, ambas estimaciones se acercan al mismo límite.

Encontrará un análisis detallado sobre esta misma pregunta en este documento . La idea para llevar es que a pesar de que el modelo generativo tiene un error asintótico más alto, puede acercarse a este error asintótico mucho más rápido que el modelo discriminativo. Por lo tanto, cuál tomar depende de su problema, los datos disponibles y sus requisitos particulares.

Por último, considerar las estimaciones de las probabilidades condicionales como un puntaje absoluto sobre el cual basar las decisiones (si eso es lo que se busca) no tiene mucho sentido en general. Lo importante es considerar, dada una muestra concreta, las mejores clases de candidatos producidas por el clasificador y comparar las probabilidades asociadas. Si la diferencia entre los dos mejores puntajes es alta, significa que el clasificador tiene mucha confianza en su respuesta (no necesariamente correcta).

jpmuc
fuente
2

Hay muchos, y lo que funciona mejor depende de los datos. También hay muchas formas de hacer trampa: por ejemplo, puede realizar una calibración de probabilidad en las salidas de cualquier clasificador que proporcione cierta apariencia de una puntuación (es decir, un producto de punto entre el vector de peso y la entrada). El ejemplo más común de esto se llama escalamiento de Platt.

También está la cuestión de la forma del modelo subyacente. Si tiene interacciones polinómicas con sus datos, entonces la regresión logística vainilla no podrá modelarla bien. Pero podría usar una versión kernelled de regresión logística para que el modelo se ajuste mejor a los datos. Esto generalmente aumenta la "bondad" de las salidas de probabilidad ya que también está mejorando la precisión del clasificador.

En general, la mayoría de los modelos que dan probabilidades usualmente usan una función logística, por lo que puede ser difícil de comparar. Simplemente tiende a funcionar bien en la práctica, las redes bayesianas son una alternativa. Naive Bayes simplemente hace una suposición demasiado simplista para que sus probabilidades sean buenas, y eso se observa fácilmente en cualquier conjunto de datos de tamaño razonable.

Al final, generalmente es más fácil aumentar la calidad de sus estimaciones de probabilidad eligiendo el modelo que pueda representar mejor los datos. En este sentido, no importa demasiado cómo obtienes las probabilidades. Si puede obtener un 70% de precisión con la regresión logística y un 98% con un SVM, entonces solo dar una probabilidad de "plena confianza" hará que los resultados sean "mejores" con la mayoría de los métodos de puntuación, aunque en realidad no sean probabilidades (y entonces puedes hacer la calibración que mencioné antes, haciéndolos realmente mejores).

La misma pregunta en el contexto de no poder obtener un clasificador preciso es más interesante, pero no estoy seguro de que alguien haya estudiado / comparado en tal escenario.

Raff.Edward
fuente