Sé que mi pregunta / título no es muy específico, así que intentaré aclararlo:
Las redes neuronales artificiales tienen diseños relativamente estrictos. Por supuesto, en general, están influenciados por la biología e intentan construir un modelo matemático de redes neuronales reales, pero nuestra comprensión de las redes neuronales reales es insuficiente para construir modelos exactos. Por lo tanto, no podemos concebir modelos exactos ni nada que se acerque a redes neuronales reales "cercanas".
Hasta donde yo sé, todas las redes neuronales artificiales están lejos de las redes neuronales reales. Las MLP clásicas estándar completamente conectadas no están presentes en biología. Las redes neuronales recurrentes tienen una falta de neuroplasticidad real, cada neurona de un RNN tiene la misma "arquitectura de retroalimentación", mientras que las neuronas reales guardan y comparten su información de forma bastante individual. Las redes neuronales convolucionales son efectivas y populares, pero (por ejemplo) el procesamiento de imágenes en el cerebro humano consta de solo unas pocas capas de convolución, mientras que las soluciones modernas (como GoogLeNet) ya usan decenas de capas ... y aunque están produciendo excelentes resultados para las computadoras , ni siquiera están cerca del desempeño humano. Especialmente cuando pensamos en un "rendimiento por capa", ya que necesitamos una cantidad bastante alta de capas y reducción de datos en comparación con las redes neuronales reales.
Además, que yo sepa, incluso las redes neuronales artificiales modulares, de autoextensión / autoestructuración son bastante "fijas y estáticas" en comparación con la enorme adaptabilidad de las redes neuronales reales. La neurona biológica normalmente tiene miles de dendritas que conectan la neurona con una gran variedad de áreas diferentes y otras neuronas. Las redes neuronales artificiales son mucho más "directas".
Entonces, ¿hay algo que podamos aprender sobre el cerebro humano / las redes neuronales reales de las redes neuronales artificiales? ¿O es solo un intento de crear un software que funcione mejor que los algoritmos clásicos y estáticos (o incluso hacer cosas donde tales algoritmos fallan)?
¿Alguien puede suministrar fuentes (preferiblemente científicas) sobre este tema?
EDITAR: Más respuestas son muy apreciadas (:
Respuestas:
Como mencionó, la mayoría de las redes neuronales se basan en abstracciones generales simples del cerebro. No solo carecen de características similares como la plasticidad, sino que no tienen en cuenta las señales y el tiempo como lo hacen las neuronas reales.
Hay una entrevista bastante reciente, que me pareció apropiada para su pregunta específica, el maestro de aprendizaje automático Michael Jordan sobre los delirios de Big Data y otros enormes esfuerzos de ingeniería , y cito:
fuente
Hasta ahora no se ha aprendido mucho, posiblemente nada, sobre el funcionamiento del cerebro de las redes neuronales artificiales. [Aclaración: escribí esta respuesta pensando en las redes neuronales utilizadas en el aprendizaje automático; @MattKrause (+1) tiene razón en que los modelos de redes neuronales de algunos fenómenos neuronales biológicos podrían haber sido útiles en muchos casos.] Sin embargo, esto quizás se deba en parte al hecho de que la investigación de redes neuronales artificiales en el aprendizaje automático fue más o menos estancamiento hasta alrededor de 2006, cuando Geoffrey Hinton reavivó casi por sí solo todo el campo que ahora atrae miles de millones de dólares.
En una conferencia de 2012 en Google llamada Cerebros, sexo y aprendizaje automático (a partir de las 45:30), Hinton sugirió que las redes neuronales artificiales pueden proporcionar una pista de por qué [la mayoría] de las neuronas se comunican con picos y no con señales analógicas. A saber, sugiere ver los picos como una estrategia de regularización similar a la deserción. La deserción es una forma recientemente desarrollada de prevenir el sobreajuste, cuando solo se actualiza un subconjunto de pesos en cualquier paso de descenso de gradiente dado (ver Srivastava et al. 2014 ). Aparentemente puede funcionar muy bien, y Hinton piensa que quizás los picos (es decir, que la mayoría de las neuronas están en silencio en un momento dado) tienen el mismo propósito.
Trabajo en un instituto de investigación en neurociencia y no conozco a nadie que esté convencido por el argumento de Hinton. El jurado aún está fuera (y probablemente estará fuera por bastante tiempo), pero al menos este es un ejemplo de algo que las redes neuronales artificiales podrían potencialmente enseñarnos sobre el funcionamiento del cerebro.
fuente
Ciertamente no es cierto que el cerebro humano solo use "unas pocas" capas convolucionales. Aproximadamente 1/3 del cerebro de los primates está de alguna manera involucrado en el procesamiento de información visual. Este diagrama, de Felleman y Van Essen, es un bosquejo de cómo fluye la información visual a través del cerebro del mono, comenzando en los ojos (RGC en la parte inferior) y terminando en el hipocampo, un área de memoria.
Cada uno de estos cuadros es un área definida anatómicamente (más o menos), que contiene varias etapas de procesamiento (capas reales, en la mayoría de los casos). El diagrama en sí tiene 25 años y, en todo caso, hemos aprendido que hay algunas cajas más y muchas más líneas.
Que es cierto que una gran parte del trabajo de aprendizaje profundo es más "vagamente inspirado en" el cerebro de basarse en algo de verdad neuronal subyacente. El "aprendizaje profundo" también tiene la ventaja adicional de sonar mucho más sexy que la "regresión logística iterativa".
Sin embargo, los modelos matemáticos de las redes neuronales también han contribuido mucho a nuestra comprensión del cerebro. En un extremo, algunos modelos intentan imitar la biología y la biofísica conocidas con precisión. Estos típicamente incluyen términos para iones individuales y su flujo. Algunos incluso usan reconstrucciones 3D de neuronas reales para restringir su forma. Si esto le interesa, ModelDB tiene una gran colección de modelos y las publicaciones asociadas. Muchos se implementan utilizando el software NEURON disponible gratuitamente .
Hay modelos a mayor escala que intentan imitar ciertos efectos conductuales o neurofisiológicos, sin preocuparse demasiado por la biofísica subyacente. Modelos conexionistas o de procesamiento distribuido en paralelo, que fueron particularmente populares a fines de los años ochenta y noventa y usaron modelos similares a los que podría encontrar en una aplicación de aprendizaje automático actual (por ejemplo, sin biofísica, funciones de activación simples y conectividad estereotipada) para explicar varios procesos psicológicos Estos han caído un poco fuera de moda, aunque uno se pregunta si podrían regresar ahora que tenemos computadoras más potentes y mejores estrategias de entrenamiento. (¡Vea la edición a continuación!)
Finalmente, hay mucho trabajo en algún punto intermedio que incluye cierta "fenomenología", más algunos detalles biológicos (p. Ej., Un término inhibidor explícito con ciertas propiedades, pero sin ajustar la distribución exacta de los canales de cloruro). Gran parte del trabajo actual encaja en esta categoría, por ejemplo, el trabajo de Xiao Jing Wang (y muchos otros ...)
EDITAR : desde que escribí esto, ha habido una explosión de trabajo comparando el sistema visual (real) con redes neuronales profundas entrenadas en tareas de reconocimiento de objetos. Hay algunas similitudes sorprendentes. Los núcleos en las primeras capas de una red neuronal son muy similares a los núcleos / campos receptivos en la corteza visual primaria y las capas posteriores se parecen a los campos receptivos en las áreas visuales superiores (ver el trabajo de Nikolaus Kriegeskorte, por ejemplo ). El reentrenamiento de las redes neuronales puede causar cambios similares al entrenamiento conductual extenso (Wenliang y Seitz, 2018) . Los DNN y los humanos a veces, pero no siempre, también tienen patrones de error similares.
Por el momento, todavía no está claro si esto refleja la similitud entre las redes neuronales reales y artificiales en general, algo sobre las imágenes específicamente [*], o la tendencia de las redes neuronales de todas las rayas a encontrar patrones, incluso cuando no están allí. Sin embargo, comparar los dos se ha convertido en un área de investigación cada vez más candente y parece probable que aprendamos algo de ella.
* Por ejemplo, la representación utilizada en el sistema visual temprano / primeras capas de una CNN es una base dispersa óptima para imágenes naturales.
fuente
Lo que realmente aprendimos es el uso de la activación dispersa y el uso de funciones de activación lineal rectificada. La última es, básicamente, una de las razones por las que vimos una explosión en la actividad con respecto a la llamada red neuronal, ya que el uso de este tipo de funciones de activación dio como resultado una reducción dramática de la capacitación para esas redes computacionales artificiales que usamos para llamar redes neuronales.
Lo que aprendimos es por qué las sinapsis y las neuronas se construyen de esta manera y por qué es preferible. Esta activación lineal rectificada (f (x): = x> a? X: 0) da como resultado una activación dispersa (solo algunas de las 'neuronas' (pesos)) se activan.
Entonces, lo que hacemos mientras nuestro conocimiento se extiende hacia las funciones biológicas, entendemos por qué esto fue seleccionado y preferido por la evolución. Entendemos que esos sistemas son lo suficientemente suficientes pero también estables en términos de control de errores durante el entrenamiento y también preservan recursos como la energía y los recursos químicos / biológicos en un cerebro.
Simplemente entendemos por qué el cerebro es lo que es. Además, al entrenar y observar las estrategias, comprendemos los posibles flujos de información y el procesamiento de información involucrado que nos ayuda a construir y evaluar hipótesis sobre los mismos temas.
Por ejemplo, algo que recuerdo de hace una década fue entrenar un sistema para aprender el lenguaje hablado natural y el descubrimiento realizado fue que el sistema mostró problemas similares que reagrupan el comportamiento analógico de los bebés que aprenden a hablar un idioma. Incluso las diferencias entre aprender diferentes tipos de idiomas fueron lo suficientemente similares.
Entonces, al estudiar este enfoque y diseño, se llegó a la conclusión de que el procesamiento de la información humana durante el aprendizaje de idiomas es lo suficientemente similar como para extraer recomendaciones de capacitación y tratamiento para problemas relacionados con el lenguaje, que ayudó a ayudar y comprender las dificultades de los humanos y a desarrollar un tratamiento más eficiente (lo que sea de lo que realmente se hizo en la práctica es otra cuestión).
Hace un mes leí un artículo sobre cómo funciona realmente la navegación en 3D y el recuerdo de cerebros de ratas, y al crear modelos computacionales sobre cada hallazgo, fue de gran ayuda para comprender lo que realmente está sucediendo. Entonces, el modelo artificial llenó los espacios en blanco de lo que se observó en el sistema biológico.
Realmente me sorprendió cuando supe que los científicos neurológicos usaban un lenguaje que reunía más el de un ingeniero que una persona biológica que hablaba de circuitos, flujo de información y unidades de procesamiento lógico.
Por lo tanto, estamos aprendiendo mucho de las redes neuronales artificiales, ya que nos presenta un terreno de juego empírico del que podemos derivar reglas y garantías cuando se trata de por qué la arquitectura del cerebro es lo que es y también por qué la evolución prefiere esto en lugar de formas alternativas.
Todavía hay muchos espacios en blanco, pero por lo que leí: recientemente ingresé a CNN, etc., pero tuve IA artificial, lógica difusa y redes neuronales durante la universidad a principios de la década de 2000.
Así que me puse al día con una década de desarrollo y descubrimiento que resultó en gratitud para todos aquellos científicos y practicantes de la red neuronal y el campo de la IA. ¡Bien hecho gente, muy bien hecho!
fuente