Nuevas adhockeries
En los últimos años, el hábito ortodoxo de inventar dispositivos intuitivos en lugar de apelar a los principios teóricos conectados se ha extendido a nuevos problemas de una manera que hace parecer al principio que se han creado varios nuevos campos de la ciencia. Sin embargo, a todos les preocupa el razonamiento a partir de información incompleta; y creemos que tenemos teoremas que establecen que la teoría de la probabilidad como lógica es el medio general para tratar todos esos problemas. Observamos tres ejemplos.
Los conjuntos difusos son, obviamente, para cualquier persona entrenada en inferencia bayesiana, aproximaciones crudas a las probabilidades previas bayesianas. Fueron creados solo porque sus practicantes persistieron en pensar en la probabilidad en términos de una "aleatoriedad" supuestamente existente en la Naturaleza pero nunca bien definida; y así concluyó que la teoría de probabilidad no es aplicable a tales problemas. Tan pronto como uno reconoce la probabilidad como la forma general de especificar información incompleta , desaparece la razón para introducir Conjuntos difusos.
Del mismo modo, gran parte de la Inteligencia Artificial (IA) es una colección de dispositivos intuitivos para razonar a partir de información incompleta que, como los más antiguos de las estadísticas ortodoxas, son aproximaciones a los métodos bayesianos y pueden utilizarse en una clase restringida de problemas; pero que arrojan conclusiones absurdas cuando intentamos aplicarlas a problemas fuera de esa clase. Nuevamente, sus practicantes están atrapados en esto solo porque continúan pensando que la probabilidad representa una "aleatoriedad" física en lugar de información incompleta. En la inferencia bayesiana, todos esos resultados están contenidos automáticamente, y bastante trivialmente, sin ninguna limitación a una clase restringida de problemas.
El gran desarrollo nuevo es Neural Nets, lo que significa un sistema de algoritmos con la maravillosa propiedad nueva de que son, como el cerebro humano, adaptativos para que puedan aprender de los errores del pasado y corregirse automáticamente (¡GUAU! ¡Qué gran idea!) . De hecho, no nos sorprende ver que las redes neuronales son realmente muy útiles en muchas aplicaciones; más que Fuzzy Sets o AI. Sin embargo, las redes neuronales actuales tienen dos defectos prácticos; (a) Producen una salida determinada por la entrada actual más la información de capacitación pasada. Esta salida es realmente una estimaciónde la respuesta adecuada, basada en toda la información disponible, pero no da indicios de su precisión, por lo que no nos dice qué tan cerca estamos de la meta (es decir, cuánto más entrenamiento se necesita); (b) Cuando se requiere una respuesta no lineal, se recurre a una función no lineal "sigmoide" estándar almacenada internamente, que con varias amplificaciones y mezclas lineales se puede hacer para aproximar, hasta cierto punto, la verdadera función no lineal. (Nota: énfasis mío).
Pero, ¿realmente necesitamos señalar que (1) Cualquier procedimiento que sea adaptativo es, por definición, un medio de tener en cuenta información incompleta; (2) El teorema de Bayes es precisamente la madre de todos los procedimientos adaptativos; la regla general para actualizar cualquier estado de conocimiento para tener en cuenta la nueva información; (3) Cuando estos problemas se formulan en términos bayesianos, un solo cálculo produce automáticamente la mejor estimación y su precisión; (4) Si se requiere la no linealidad, el teorema de Bayes genera automáticamente la función no lineal exacta solicitada por el problema, en lugar de intentar construir una aproximación a ella mediante otro dispositivo ad hoc .
En otras palabras, sostenemos que estos no son campos nuevos en absoluto; solo falsos comienzos. Si uno formula todos estos problemas con la receta Bayesiana estándar, automáticamente tiene todos sus resultados útiles en forma mejorada. Las dificultades que las personas parecen tener para comprender esto son ejemplos del mismo fracaso para conceptualizar la relación entre las matemáticas abstractas y el mundo real. Tan pronto como reconocemos que las probabilidades no describen la realidad, solo nuestra información sobre la realidad, las puertas están completamente abiertas a la solución óptima de los problemas de razonamiento a partir de esa información.
En primer lugar, no apilamos funciones lineales entre sí para obtener una función no lineal. Hay una razón clara por la cual los NN podrían nunca funcionar así: apilar funciones lineales entre sí produciría nuevamente una función lineal.
¡Lo que hace que los NN no sean lineales es la función de activación que viene detrás de la función lineal! Sin embargo, en principio tiene razón: simplemente apilamos muchas regresiones logísticas (¡aunque no lineales!) Entre sí y ... tadaa: obtenemos algo bueno de eso ... ¿es justo? Resulta que (desde un punto de vista teórico) en realidad es justo. Peor aún: utilizando el famoso y conocido Teorema de Stone-Weierstrass , simplemente demostramos que las redes neuronales con una sola capa oculta y sin función de salida en el nodo final son suficientes para aproximar cualquier función continua (y créanme, las funciones continuas pueden ser feas bestias, mira la "escalera del diablo": https://en.wikipedia.org/wiki/Cantor_distribution) en intervalos de la forma (NNs con una sola capa oculta y sin función de salida en el nodo final son funciones exactas de la forma donde es el tamaño de la capa oculta, es decir, polinomios en funciones logísticas y, por definición, forman un álgebra). Es decir, "por construcción", las NN son muy expresivas.[ a , b ] x ↦ = b + a1ϕ1( x ) + . . . + alϕl( x ) l
¿Por qué usamos NN profundos entonces? La razón es que el teorema de SW anterior solo garantiza que hay un tamaño de capa suficientemente grande para que podamos acercarnos a nuestra función objetivo (con suerte continua). Sin embargo, el tamaño de capa necesario puede ser tan grande que ninguna computadora pueda manejar matrices de peso de ese tamaño. Las NN con más capas ocultas parecen ser un buen compromiso entre 'precisión' y computabilidad. No conozco ningún resultado teórico que apunte en la dirección de 'cuánto' crece la expresividad de las NN cuando se colocan más capas ocultas en comparación con el solo aumento del tamaño de la capa oculta única, pero tal vez hay algunos recursos en la web ...
¿Podemos realmente entender las NN profundas? Preguntas de ejemplo: ¿Por qué exactamente el NN predice que este caso sea VERDADERO mientras que este otro caso similar es FALSO? ¿Por qué exactamente califica a este cliente más valioso que el otro? Realmente no lo creo. Viene con la complejidad del modelo que ya no se puede explicar razonablemente bien ... Solo escucho que todavía es un área activa de investigación, pero no conozco ningún recurso ...
¿Qué hace que las NN sean tan únicas entre todos los modelos? La verdadera razón por la que usamos tanto NN en estos días se debe a las siguientes dos razones:
Por 1. Quiero decir que dado un conjunto de entrenamiento , un NN que fue entrenado en este conjunto y algunas nuevas muestras de entrenamiento , podemos incluir fácilmente estas muestras de entrenamiento en el NN simplemente continuando el algoritmo de descenso de gradiente / backprop mientras solo seleccionando lotes de para el entrenamiento. Toda el área de aprendizaje de refuerzo (utilizada para ganar juegos como Tic Tac Toe, Pong , Chess, Go, muchos juegos diferentes de Atari con un solo modelo , etc.) se basa en esta propiedad. La gente ha intentado infundir esta propiedad de transmisión a otros modelos (por ejemplo, Gradient Boosting) pero no es tan natural y no es tan computacionalmente barata como en la configuración de NN.T f T T′ T′
Por 2. Quiero decir que las personas han capacitado a las NN para hacer las cosas más extrañas, pero en principio simplemente usaron el mismo marco: apilar funciones fluidas entre sí y luego dejar que la computadora (es decir, PyTorch / Tensorflow) haga los cálculos sucios para usted como la computación la derivada de la función de pérdida wrt los pesos. Un ejemplo sería este artículodonde la gente ha utilizado el enfoque RL y también ha mejorado la arquitectura de la NN para aprender el lenguaje complejo de las sustancias químicas al enseñarle cómo operar en una pila de memoria (!). Trate de hacerlo con un aumento de gradiente ;-) La razón por la que deben hacerlo es que el lenguaje de los productos químicos es al menos tan 'difícil de aprender' como el lenguaje de paréntesis (es decir, cada paréntesis de apertura tiene un cierre más adelante en la palabra ) porque el lenguaje SMILES que las personas usan para describir moléculas contiene los símbolos '(' y ')'. De la informática teórica (jerarquía de Chomsky) se sabe que no se puede describir este lenguaje con un autómata regular, pero se necesita un autómata de bajada (es decir, un autómata con memoria de pila). Esa fue la motivación para ellos (supongo) para enseñar esta cosa rara a la NN.
fuente
"¿Por qué funciona cuando funciona?"
Por lo tanto, todo el aprendizaje automático es similarmente ad hoc.
El aprendizaje automático es similar a la alquimia: hay muchas recetas enigmáticas, aplica una y puede obtener oro. Si no, simplemente aplique otra receta.
Nadie hace la pregunta que usted hizo, al menos no en las publicaciones que conozco.
Además de esto, hay una teoría del aprendizaje estadístico. La teoría del aprendizaje estadístico supone que el tamaño del conjunto de entrenamiento es infinito. La mayoría de los resultados que conozco tienen la forma: "bajo ciertas condiciones, si tienes un conjunto de entrenamiento lo suficientemente grande, puedes obtener el mejor resultado posible con este procedimiento". Las estimaciones de lo que es "lo suficientemente grande" están más allá de la imaginación.
Por supuesto, el problema es que el tamaño del conjunto de entrenamiento no va a ninguna parte, y mucho menos al infinito.
Entonces, creo que es un buen momento para (1) hacer esta pregunta, (2) desarrollar un aparato matemático para responder la pregunta sobre todos los posibles algoritmos de aprendizaje automático y (3) responder esta pregunta.
fuente