Excepto los árboles de decisión y la regresión logística, ¿qué otros modelos de clasificación proporcionan una buena interpretación? No estoy interesado en la precisión u otros parámetros, solo la interpretación de los resultados es importante.
interpretation
supervised-learning
Miroslav Sabo
fuente
fuente
Respuestas:
1) Yo diría que los árboles de decisión no son tan interpretables como las personas los hacen parecer. Ellos ven interpretable, ya que cada nodo es un simple, decisión binaria. El problema es que a medida que avanza por el árbol, cada nodo está condicionado a cada nodo por encima de él. Si su árbol tiene solo cuatro o cinco niveles de profundidad, todavía no es demasiado difícil convertir la ruta de un nodo terminal (cuatro o cinco divisiones) en algo interpretable (por ejemplo, "este nodo refleja clientes a largo plazo que son hombres de altos ingresos con múltiples cuentas "), pero tratar de realizar un seguimiento de múltiples nodos terminales es difícil.
Si todo lo que tiene que hacer es convencer a un cliente de que su modelo es interpretable ("mire, cada círculo aquí tiene una simple decisión sí / no, fácil de entender, ¿no?"), Entonces mantendría árboles de decisión en su lista . Si desea interpretabilidad procesable, le sugiero que no hagan el corte.
2) Otra cuestión es aclarar lo que quiere decir con "interpretabilidad de los resultados". Me he encontrado con la interpretabilidad en cuatro contextos:
El cliente puede entender la metodología. (No es lo que estás preguntando). Un bosque aleatorio es explicable de manera bastante directa por analogía, y la mayoría de los clientes se sienten cómodos con él una vez que se explica de manera simple.
Explicar cómo la metodología se ajusta a un modelo. (Tuve un cliente que insistió en que explicara cómo se ajusta un árbol de decisión porque sentían que les ayudaría a comprender cómo usar los resultados de manera más inteligente. Después de hacer una muy buena redacción, con muchos diagramas agradables, abandonaron el tema. No es útil interpretar / comprender en absoluto.) Nuevamente, creo que esto no es lo que estás preguntando.
Una vez que se ajusta un modelo, interprete lo que el modelo "cree" o "dice" sobre los predictores. Aquí es donde un árbol de decisión parece interpretable, pero es mucho más complejo que las primeras impresiones. La regresión logística es bastante sencilla aquí.
Cuando se clasifica un punto de datos en particular, explica por qué se tomó esa decisión. ¿Por qué su regresión logística dice que es una probabilidad del 80% de fraude? ¿Por qué su árbol de decisión dice que es de bajo riesgo? Si el cliente está satisfecho con imprimir los nodos de decisión que conducen al nodo terminal, esto es fácil para un árbol de decisión. Si "por qué" necesita resumirse en lenguaje humano ("esta persona tiene un riesgo bajo porque es un cliente masculino a largo plazo que tiene ingresos múltiples y cuentas múltiples con nuestra empresa"), es mucho más difícil.
Entonces, en un nivel de interpretabilidad o explicabilidad (# 1 con un pequeño # 4, arriba), K-Nearest Neighbour es fácil: "se consideró que este cliente era de alto riesgo porque 8 de cada 10 clientes que habían sido evaluados previamente y eran más similares a ellos en términos de X, Y y Z, se encontraron de alto riesgo ". En el nivel procesable # 4, no es tan interpretable. (Pensé en presentarles a los otros 8 clientes, pero eso requeriría que profundicen en esos clientes para descubrir manualmente qué tienen en común esos clientes y, por lo tanto, qué tiene en común el cliente calificado).
Recientemente leí un par de artículos sobre el uso de métodos similares al análisis de sensibilidad para tratar de llegar a explicaciones automáticas del tipo # 4. Sin embargo, no tengo ninguno a mano. ¿Quizás alguien puede arrojar algunos enlaces en los comentarios?
fuente
Depende de los datos que esté utilizando. Si no está interesado en la precisión, creo que la visualización de los datos y las clasificaciones son una de las mejores formas de interpretar los datos y el rendimiento del algoritmo.
Aquí hay un ejemplo de comparación de varios clasificadores. Cada fila es un conjunto de datos diferente con datos que tienen separabilidad variable. Cada columna es la visualización de cada clasificador.
http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html
fuente
El análisis discriminante es el modelo de clasificación original, que se remonta más de cien años a RA Fisher ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ). Con demasiada frecuencia se ignora en el mundo actual de los modelos de aprendizaje automático y estadístico, ya que ha sido reemplazado por enfoques que son más consistentes con la jerga más reciente.
Este documento apareció en el Journal of Machine Learning y tiene una lista de algunos otros métodos, ¿Necesitamos cientos de clasificadores para resolver problemas de clasificación del mundo real? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
fuente
Para encontrar la relación entre características y clases, puede usar métodos de relación. También podría emplear el método de chi cuadrado para encontrar si una característica está asociada con la clase. Para hacer esto, debe usar la igualdad de etiqueta de clase. Por ejemplo, si está probando la característica 1 y la clase 1, debe realizar un binning para la característica 1 y calcular chi ^ 2 entre las probabilidades binned y una variable de membresía que tiene un valor de 1 cuando la clase es 1, 0 de lo contrario. De esta manera, si ser clase 1 depende de la característica 1, algunos contenedores tendrán una tasa más alta de ser clase 1, mientras que algunos tendrán menor.
Un método adicional que probé con éxito moderado fue ajustar una característica de una clase en una distribución normal. Luego, para cada muestra en la clase, mejore el puntaje de la característica por la adecuación de la muestra a la distribución. Por cada muestra que no esté en la clase, penalice la función de aptitud física. Obviamente, debe normalizar la cantidad de muestras que están dentro y no en la clase. Esto funciona solo en características que se distribuyen cerca de la distribución normal. Utilicé este método para asignar una puntuación por función para cada clase.
fuente
Nadie ha mencionado la clasificación de Vecino más cercano. Esto es muy simple de explicar; una observación se clasifica según la clase más común entre las observaciones más cercanas a ella. Normalmente elegimos un número impar de vecinos más cercanos para mirar, por lo que no hay vínculos que romper.
fuente