¿Qué significa una red neuronal como una caja negra?

19

A menudo escucho a personas hablando de redes neuronales como algo así como una caja negra que no entiendes lo que hace o lo que significan. ¡En realidad no puedo entender lo que quieren decir con eso! Si comprende cómo funciona la retropropagación, ¿cómo es una caja negra?

¿Significan que no entendemos cómo se calcularon los pesos o qué?

Jack Twain
fuente
1
Tal vez esto ayude: colah.github.io/posts/2014-03-NN-Manifolds-Topology Este artículo intenta descubrir el mecanismo subyacente de las redes neuronales desde una perspectiva topológica, ofrece muchas ideas brillantes para explicar el rendimiento de Redes neuronales.
Sol
Me gusta agregar un punto a Jack, cuando miramos MLP en el punto de vista del aprendizaje automático, las redes neuronales ya no son una caja negra. Con una función sigmoide simple podremos interpretar la entrada y la relación con una ecuación.

Respuestas:

37

Una red neuronal es una caja negra en el sentido de que, si bien puede aproximarse a cualquier función, estudiar su estructura no le dará ninguna idea sobre la estructura de la función que se aproxima.

Como ejemplo, un uso común de las redes neuronales en el negocio bancario es clasificar a los prestamistas en "buenos pagadores" y "malos pagadores". Tiene una matriz de características de entrada (sexo, edad, ingresos, etc.) y un vector de resultados ("predeterminado", "no predeterminado", etc.). Cuando modela esto usando una red neuronal, está suponiendo que hay una función , en el sentido apropiado de una función matemática. Esta función f puede ser arbitrariamente compleja y puede cambiar de acuerdo con la evolución del negocio, por lo que no puede derivarla a mano.CRF(C)=R

Luego, utiliza la red neuronal para crear una aproximación de que tenga una tasa de error aceptable para su aplicación. Esto funciona, y la precisión puede ser arbitrariamente pequeña: puede expandir la red, ajustar sus parámetros de entrenamiento y obtener más datos hasta que la precisión alcance sus objetivos.F

El problema del recuadro negro es: la aproximación dada por la red neuronal no le dará ninguna idea sobre la forma de f. No existe un vínculo simple entre los pesos y la función que se aproxima. Incluso el análisis de qué característica de entrada es irrelevante es un problema abierto (vea este enlace ).

Además, desde el punto de vista estadístico tradicional, una red neuronal es un modelo no identificable: dado un conjunto de datos y una topología de red, puede haber dos redes neuronales con diferentes pesos y el mismo resultado. Esto hace que el análisis sea muy difícil.

Como ejemplo de "modelos de caja no negra" o "modelos interpretables", tiene ecuaciones de regresión y árboles de decisión. El primero le da una aproximación en forma cerrada de f donde la importancia de cada elemento es explícito, el segundo es una descripción gráfica de algunos riesgos relativos / cocientes de probabilidades.

Lucas Gallindo
fuente
Como esta es una respuesta anterior, puede ser útil para algunos proporcionar algunas herramientas recientemente desarrolladas: "La aproximación dada por la red neuronal no le dará ninguna idea sobre la forma de f". Diría que SHAP ahora hace un Gran trabajo de explicación modelo, incluso para redes neuronales. "Incluso el análisis de qué característica de entrada es irrelevante es un problema abierto": los métodos como la importancia de la permutación, así como SHAP, ahora abordan este problema bastante bien.
Bobson Dugnutt
3

Google ha publicado Inception-v3 . Es una red neuronal (NN) para el algoritmo de clasificación de imágenes (distinguir un gato de un perro).

En el artículo hablan sobre el estado actual de la clasificación de imágenes.

Por ejemplo, GoogleNet empleó solo 5 millones de parámetros, lo que representó una reducción de 12 veces con respecto a su predecesor AlexNet, que usó 60 millones de parámetros. Además, VGGNet empleó aproximadamente 3 veces más parámetros que AlexNet

y esa es básicamente la razón por la que llamamos a NN para cajas negras. Si entreno un modelo de clasificación de imágenes, con 10 millones de parámetros, y se lo entrego. ¿Qué puedes hacer con eso?

Ciertamente puede ejecutarlo y clasificar imágenes. ¡Funcionará genial! Pero no puede responder ninguna de las siguientes preguntas al estudiar todos los pesos, sesgos y la estructura de la red.

  • ¿Puede esta red distinguir a un Husky de un Poodle?
  • ¿Qué objetos son fáciles de clasificar para el algoritmo y cuáles son difíciles?
  • ¿Qué parte de un perro es la más importante para poder clasificarlo correctamente? ¿La cola o el pie?
  • Si hago photoshop con la cabeza de un gato sobre un perro, ¿qué sucede y por qué?

Quizás pueda responder las preguntas simplemente ejecutando el NN y ver el resultado (recuadro negro), pero no tiene ningún cambio en la comprensión de por qué se comporta de la misma manera que en los casos extremos.

bottiger
fuente
Creo que al menos una de las preguntas ('¿Qué parte de un perro es la más importante para poder clasificarlo correctamente? ¿La cola o el pie?') Es bastante responsable, si miras el artículo y el video de Matt Zeiler sobre deconvolutitonal redes
Alex