¿Existe alguna literatura que enumere las características de los algoritmos que les permitan ser explicables?
La única literatura que conozco es el reciente artículo de Ribero, Singh y Guestrin. Primero definen la explicabilidad de una sola predicción:
Al "explicar una predicción", nos referimos a presentar artefactos textuales o visuales que proporcionan una comprensión cualitativa de la relación entre los componentes de la instancia (por ejemplo, palabras en el texto, parches en una imagen) y la predicción del modelo.
Los autores profundizan en lo que esto significa para ejemplos más concretos, y luego usan esta noción para definir la explicabilidad de un modelo. Su objetivo es intentar y, por así decirlo, agregar explicabilidad artificialmente a modelos intransparentes, en lugar de comparar la explicabilidad de los métodos existentes. El documento puede ser útil de todos modos, ya que trata de introducir una terminología más precisa en torno a la noción de "explicabilidad".
¿Existen modelos de aprendizaje automático comúnmente aceptados que representen una buena compensación entre los dos?
Estoy de acuerdo con @Winter en que la red elástica para la regresión (no solo logística) puede verse como un ejemplo de un buen compromiso entre la precisión de la predicción y la explicabilidad.
Para un tipo diferente de dominio de aplicación (series de tiempo), otra clase de métodos también ofrece un buen compromiso: modelado de series de tiempo estructural bayesiano. Hereda la explicabilidad del modelado clásico de series temporales estructurales, y cierta flexibilidad del enfoque bayesiano. Similar a la regresión logística, la explicabilidad es ayudada por las ecuaciones de regresión utilizadas para el modelado. Consulte este documento para obtener una buena aplicación en marketing y más referencias.
En relación con el contexto bayesiano que acabamos de mencionar, es posible que también desee mirar modelos gráficos probabilísticos. Su explicabilidad no se basa en ecuaciones de regresión, sino en formas gráficas de modelado; vea "Modelos gráficos probabilísticos: principios y técnicas" de Koller y Friedman para una gran visión general.
Sin embargo, no estoy seguro de si podemos referirnos a los métodos bayesianos anteriores como una "buena compensación generalmente aceptada". Puede que no sean lo suficientemente conocidos para eso, especialmente en comparación con el ejemplo de red elástica.
Supongo que al ser bueno en la predicción, quiere decir que puede ajustar las no linealidades presentes en los datos y ser bastante robusto para el sobreajuste. La compensación entre la capacidad de interpretación y la capacidad de predecir esas no linealidades depende de los datos y las preguntas formuladas. Realmente no hay almuerzo gratis en ciencia de datos y ningún algoritmo único puede considerarse el mejor para cualquier conjunto de datos (y lo mismo se aplica para la interpretabilidad).
La regla general debe ser que cuantos más algoritmos conozca, mejor será para usted, ya que puede adoptar sus necesidades específicas con mayor facilidad.
Si tuviera que elegir mi tarea de clasificación favorita que utilizo a menudo en el entorno empresarial, elegiría red elástica para la regresión logística . A pesar de la fuerte suposición sobre el proceso que genera los datos, puede adoptar fácilmente los datos gracias al término de regularización que mantiene su interpretabilidad a partir de la regresión logística básica.
Le sugiero que elija un libro bien escrito que describa los algoritmos de aprendizaje automático comúnmente utilizados y sus pros y contras en diferentes escenarios. Un ejemplo de este libro puede ser Los elementos del aprendizaje estadístico de T. Hastie, R. Tibshirani y J. Friedman
fuente
Posiblemente vea mi respuesta con respecto a la efectividad irracional de los conjuntos y las compensaciones en la explicación versus la predicción. La longitud mínima del mensaje (MML, Wallace 2005) ofrece una definición formal de la explicación en términos de compresión de datos, y motiva la expectativa de que las explicaciones generalmente se ajustan sin sobreajustar, y las buenas explicaciones generan buenas predicciones generalizables. Pero también toca la teoría formal de por qué los conjuntos predecirán mejor: un resultado que se remonta a (Solomonoff 1964) sobre predicción óptima e intrínseco a enfoques totalmente bayesianos: integrarse sobre la distribución posterior, no solo elegir la media, la mediana, o modo.
fuente