El impulso detrás de la transición del siglo XX de los circuitos analógicos a digitales fue impulsado por el deseo de una mayor precisión y menor ruido. Ahora estamos desarrollando un software donde los resultados son aproximados y el ruido tiene un valor positivo.
- En redes artificiales, utilizamos modelos de gradientes (jacobianos) o de segundo grado (hessianos) para estimar los próximos pasos en un algoritmo convergente y definir niveles aceptables de inexactitud y duda. 1
- En las estrategias de convergencia, nosotros agregamos deliberadamente ruido al inyectar perturbaciones aleatorias o pseudoaleatorias para mejorar la confiabilidad al saltar esencialmente los mínimos locales en la superficie de optimización durante la convergencia. 2
Lo que aceptamos e introducimos deliberadamente en los sistemas actuales de IA son las mismas cosas que llevaron la electrónica a los circuitos digitales.
¿Por qué no volver a los circuitos analógicos para redes neuronales e implementarlas con matrices de amplificadores operacionales en lugar de matrices de elementos de procesamiento de señales digitales?
Los valores de los parámetros de aprendizaje de la red artificial pueden mantenerse utilizando condensadores integrados cargados a través de convertidores D-a-A, de modo que los estados aprendidos puedan beneficiarse de la precisión y conveniencia digital, mientras que la propagación directa se beneficia de ventajas analógicas.
- Mayor velocidad 3
- Órdenes de magnitud menos transistores para representar células de red
- Ruido térmico natural 4
Un artículo académico o una búsqueda de patente para redes artificiales analógicas revela mucho trabajo en los últimos cuarenta años, y la tendencia de investigación se ha mantenido. Los circuitos analógicos computacionales están bien desarrollados y proporcionan una base para las matrices neurales.
¿Podría la obsesión actual con la computación digital estar nublando la visión común de las opciones arquitectónicas de IA?
¿Es el análogo híbrido la arquitectura superior para redes artificiales?
Notas al pie
[1] El marco de aprendizaje PAC (probablemente aproximadamente correcto) relaciona el error aceptable y la duda aceptable con el tamaño de muestra requerido para el aprendizaje de tipos de modelos específicos. (Tenga en cuenta que representa la precisión y representa confianza en este marco).
[2] El descenso de gradiente estocástico se muestra, cuando se utilizan estrategias apropiadas e hiperparámetros, para converger más rápidamente durante el aprendizaje y se está convirtiendo en una práctica recomendada en aplicaciones típicas del mundo real de redes artificiales.
[3] El procesador Intel Core i9-7960X funciona a velocidades turbo de 4.2 GHz, mientras que la transmisión satelital fija estándar es de 41 GHz.
[4] Se puede obtener ruido térmico en el silicio amplificando y filtrando la fuga de electrones a través de diodos zener polarizados inversamente en su punto de avalancha. La fuente de los fenómenos cuánticos es el ruido térmico de Johnson-Nyquist. Sanguinetti et. Alabama. en su 'Generación de números aleatorios cuánticos en un teléfono móvil' (2014), "Un detector se puede modelar como un canal con pérdida con una probabilidad de transmisión η seguido de un convertidor de fotón a electrón con eficiencia de la unidad ... la distribución medida sea la combinación de incertidumbre cuántica y ruido técnico ", y está el trabajo JTWPA de CalTech. Ambos pueden convertirse en estándares para producir ruido cuántico verdaderamente no determinista en circuitos integrados.
Referencias
- STDP Aprendizaje de parches de imagen con redes neuronales convolucionales espirales , Saunders et. Alabama. 2018, Misa en U y TIENE
- Aceleración de código de uso general con computación analógica de precisión limitada , Amant et. al., 2014
- La computación analógica y las simulaciones biológicas reciben un impulso del nuevo compilador MIT , por Devin Coldewey, 2016
- Retornos de computación analógica , por Larry Hardesty, 2016 *
- ¿Por qué la computación analógica? , Documento desclasificado de la NSA
- Volver a la computación analógica: los investigadores de Columbia fusionan la computación analógica y digital en un solo chip , Columbia U, 2016
- Matriz de barra transversal programable en campo (FPCA) para computación reconfigurable , Zidan et. al., IEEE, 2017
- Infraestructura de computación híbrida FPAA / Memristor , Laiho et. al., IEEE, 2015
- Fundamentos y paradigmas emergentes para la computación en células vivas , Ma, Perli, Lu, Harvard U, 2016
- Un modelo flexible de una matriz de transistores programables de campo CMOS dirigida a la evolución del hardware (FPAA), por Zebulum, Stoica, Keymeulen, NASA / JPL, 2000
- La matriz lineal personalizada incorpora hasta 48 amplificadores operacionales de precisión por chip , Ashok Bindra, 2001, diseño electrónico
- Matrices analógicas programables en campo a gran escala para el procesamiento de señales analógicas , Hall et. al., IEEE Transactions on Circuits and Systems, vol. 52, no. 11 de 2005
- Matrices analógicas programables en campo a gran escala para procesamiento de señales analógicas , Hall et. Alabama. 2005
- Un conjunto VLSI de neuronas de punta de baja potencia y sinapsis biestables con plasticidad dependiente del tiempo de pico , Indiveri G, Chicca E, Douglas RJ, 2006
- https://www.amazon.com/Analog-Computing-Ulmann/dp/3486728970
- https://www.amazon.com/Neural-Networks-Analog-Computation-Theoretical/dp/0817639497
Respuestas:
Creo que hay varias razones. En primer lugar: flexibilidad. Con las CPU y GPU modernas, puede construir prácticamente todos los modelos de IA que desee y en cada tamaño y complejidad que desee. ¿Cómo puede estar seguro de que el modelo que está utilizando actualmente sigue siendo adecuado en unos años? ¿Tal vez habrá un gran avance en las NN en los próximos años? Tal vez algunos científicos descubran que hay una forma mucho mejor de desarrollar una IA que con NN, algoritmos genéticos, etc. Los chips normales pueden manejarlo todo y pueden manejarlo lo suficientemente bien. Pero si desea optimizarlo y no tiene que preocuparse por el dinero, puede desarrollar una arquitectura especializada (esto ya lo hacen diferentes empresas, lo que aumenta la velocidad en tareas específicas).
Razón número dos: producción en masa. Quiero decir, las empresas podrían producir componentes de inteligencia artificial analógicos altamente integrados (digamos, por ejemplo, chips NN). Pero eso sería una mayor inversión. No está claro si las unidades que son lo suficientemente flexibles como para ser una alternativa de hardware de IA seria, se pueden producir fácilmente en una producción de nm en masa que puede competir contra CPU y GPU. Especialmente estos últimos están altamente optimizados para hacer cálculos paralelos masivos. Y, si observa el desarrollo de arquitecturas similares a GPU (puede hacer algunas cosas, pero muy bien) que están optimizadas adicionalmente para el aprendizaje de máquinas, puede ver que sería una dura competencia para las unidades analógicas.
Todo lo anterior no significa que no haya investigación en esta área. Hay varios experimentos que intentan archivar eso, pero aún no son "peligrosos" para las arquitecturas comunes. Eventualmente, vendrán en el futuro, cuando comprendamos mejor la inteligencia artificial y la inteligencia en general y solo intentemos ajustar, pero soy bastante escéptico al respecto.
EDITAR: Además, algo que también pertenece a la flexibilidad: puede experimentar mejor con los algoritmos de IA que se ejecutan en hardware digital 'normal'. Por ejemplo, puede inspeccionar fácilmente un NN en ciertas ubicaciones, puede modificar rápidamente los datos de entrada o proporcionar otros, realmente no está obligado a nada. Y dado que todavía no conocemos o entendemos completamente cada modelo, cuándo usar cuál, si hay mejores arquitecturas para una determinada tarea, etc., no tiene sentido poner algo 'joven' y 'experimental' en un análogo fijo arquitectura.
fuente
Respuesta rápida
Cuando Intel adquirió Nirvana, indicaron su creencia de que el VLSI analógico tiene su lugar en los chips neuromórficos del futuro cercano 1, 2, 3 .
Si fue debido a la capacidad de explotar más fácilmente el ruido cuántico natural en los circuitos analógicos aún no es público. Es más probable debido a la cantidad y complejidad de las funciones de activación paralelas que se pueden empaquetar en un solo chip VLSI. Lo analógico tiene una ventaja de órdenes de magnitud sobre lo digital en ese sentido.
Es probable que sea beneficioso para los miembros de AI Stack Exchange ponerse al día con esta evolución tecnológica altamente indicada.
Tendencias importantes y no tendencias en IA
Para abordar esta cuestión científicamente, es mejor contrastar la teoría de señales analógicas y digitales sin el sesgo de las tendencias.
Los entusiastas de la inteligencia artificial pueden encontrar mucho en la web sobre aprendizaje profundo, extracción de características, reconocimiento de imágenes y las bibliotecas de software para descargar e inmediatamente comenzar a experimentar. Es la forma en que la mayoría se moja los pies con la tecnología, pero la introducción rápida a la IA también tiene su lado negativo.
Cuando no se entienden los fundamentos teóricos de los primeros despliegues exitosos de IA orientada al consumidor, se forman suposiciones que entran en conflicto con esos fundamentos. Se pasan por alto opciones importantes, como neuronas artificiales analógicas, redes con picos y retroalimentación en tiempo real. La mejora de las formas, las capacidades y la fiabilidad se ven comprometidas.
El entusiasmo en el desarrollo tecnológico siempre debe atenuarse con al menos una medida igual de pensamiento racional.
Convergencia y Estabilidad
En un sistema donde la precisión y la estabilidad se logran a través de la retroalimentación, los valores de señal tanto analógicos como digitales son siempre meras estimaciones.
Comprender el paralelismo entre la convergencia a través de la corrección de errores en un algoritmo digital y la estabilidad lograda a través de la retroalimentación en la instrumentación analógica es importante al pensar en esta pregunta. Estos son los paralelos que utilizan la jerga contemporánea, con digital a la izquierda y análogo a la derecha.
Popularidad de los circuitos digitales
El factor principal en el aumento de la popularidad del circuito digital es su contención de ruido. Los circuitos digitales VLSI de hoy tienen tiempos medios largos hasta el fallo (tiempo medio entre instancias cuando se encuentra un valor de bit incorrecto).
La eliminación virtual del ruido le dio a los circuitos digitales una ventaja significativa sobre los circuitos analógicos para la medición, el control PID, el cálculo y otras aplicaciones. Con los circuitos digitales, se pueden medir hasta cinco dígitos decimales de precisión, controlar con una precisión notable y calcular π a mil dígitos decimales de precisión, de forma repetible y confiable.
Fueron principalmente los presupuestos de aeronáutica, defensa, balística y contramedidas los que aumentaron la demanda de fabricación para lograr la economía de escala en la fabricación de circuitos digitales. La demanda de resolución de pantalla y velocidad de representación está impulsando el uso de la GPU como procesador de señal digital ahora.
¿Estas fuerzas en gran medida económicas están causando las mejores opciones de diseño? ¿Son las redes artificiales basadas digitalmente el mejor uso de los preciosos bienes inmuebles de VLSI? Ese es el desafío de esta pregunta, y es buena.
Realidades de la complejidad de IC
Como se menciona en un comentario, se necesitan decenas de miles de transistores para implementar en silicio una neurona de red artificial independiente y reutilizable. Esto se debe principalmente a la multiplicación de la matriz de vectores que conduce a cada capa de activación. Solo se necesitan unas pocas docenas de transistores por neurona artificial para implementar una multiplicación de matriz de vectores y la matriz de amplificadores operacionales de la capa. Los amplificadores operacionales pueden diseñarse para realizar funciones como paso binario, sigmoide, soft plus, ELU e ISRLU.
Ruido de señal digital de redondeo
La señalización digital no está libre de ruido porque la mayoría de las señales digitales son redondeadas y, por lo tanto, aproximaciones. La saturación de la señal en retropropagación aparece primero como el ruido digital generado a partir de esta aproximación. Se produce una saturación adicional cuando la señal siempre se redondea a la misma representación binaria.
Los programadores a veces encuentran los efectos del redondeo en números de coma flotante IEEE de precisión doble o simple cuando las respuestas que se espera que sean 0.2 aparecen como 0.20000000000001. Un quinto no puede representarse con una precisión perfecta como un número binario porque 5 no es un factor de 2.
Ciencia sobre el bombo mediático y las tendencias populares
En el aprendizaje automático, como ocurre con muchos productos de tecnología, existen cuatro métricas clave de calidad.
A veces, pero no siempre, el logro de uno compromete a otro, en cuyo caso debe alcanzarse un equilibrio. El descenso de gradiente es una estrategia de convergencia que se puede realizar en un algoritmo digital que equilibra muy bien estos cuatro, por lo que es la estrategia dominante en el entrenamiento de perceptrones multicapa y en muchas redes profundas.
Esas cuatro cosas fueron centrales para el trabajo cibernético temprano de Norbert Wiener antes de los primeros circuitos digitales en Bell Labs o el primer flip flop realizado con tubos de vacío. El término cibernética se deriva del griego κυβερνήτης (pronunciado kyvernítis ) que significa timonel, donde el ruder y las velas tenían que compensar los cambios constantes del viento y la corriente y el barco necesitaba converger en el puerto o puerto previsto.
La tendencia de esta pregunta impulsada por la tendencia podría rodear la idea de si se puede lograr VLSI para lograr una economía de escala para redes analógicas, pero el criterio dado por su autor es evitar las opiniones impulsadas por la tendencia. Incluso si ese no fuera el caso, como se mencionó anteriormente, se requieren considerablemente menos transistores para producir capas de red artificiales con circuitos analógicos que con digitales. Por esa razón, es legítimo responder a la pregunta suponiendo que el análogo VLSI sea muy factible a un costo razonable si la atención se dirige a lograrlo.
Diseño de red artificial analógica
Se están investigando redes artificiales análogas en todo el mundo, incluida la empresa conjunta IBM / MIT, Intel Nirvana, Google, la Fuerza Aérea de EE. UU. Desde 1992 5 , Tesla y muchos otros, algunos indicados en los comentarios y la adición a este pregunta.
El interés en lo analógico para redes artificiales tiene que ver con la cantidad de funciones de activación paralelas involucradas en el aprendizaje que pueden caber en un milímetro cuadrado de bienes inmuebles con chips VLSI. Eso depende en gran medida de cuántos transistores se requieren. Las matrices de atenuación (las matrices de parámetros de aprendizaje) 4 requieren la multiplicación de matriz de vectores, lo que requiere una gran cantidad de transistores y, por lo tanto, una porción significativa de bienes inmuebles VLSI.
Debe haber cinco componentes funcionales independientes en una red básica de perceptrón multicapa si va a estar disponible para una capacitación totalmente paralela.
En circuitos analógicos, con el mayor paralelismo inherente al método de transmisión de señal, 2 y 4 pueden no ser necesarios. La teoría de retroalimentación y el análisis armónico se aplicarán al diseño del circuito, utilizando un simulador como Spice.
Para valores comunes de estos circuitos en circuitos integrados analógicos actuales, tenemos un costo para chips VLSI analógicos que convergen con el tiempo a un valor de al menos tres órdenes de magnitud por debajo de los chips digitales con paralelismo de entrenamiento equivalente.
Directamente abordando la inyección de ruido
La pregunta dice: "Estamos utilizando gradientes (jacobianos) o modelos de segundo grado (hessianos) para estimar los próximos pasos en un algoritmo convergente y agregar deliberadamente ruido [o] inyectando perturbaciones pseudoaleatorias para mejorar la confiabilidad de la convergencia saltando pozos locales en el error superficie durante la convergencia ".
La razón por la que se inyecta ruido pseudoaleatorio en el algoritmo de convergencia durante el entrenamiento y en las redes entrantes en tiempo real (como las redes de refuerzo) se debe a la existencia de mínimos locales en la superficie de disparidad (error) que no son los mínimos globales de ese superficie. El mínimo global es el estado óptimo entrenado de la red artificial. Los mínimos locales pueden estar lejos de ser óptimos.
Esta superficie ilustra la función de error de los parámetros (dos en este caso altamente simplificado 6 ) y la cuestión de un mínimo local que oculta la existencia del mínimo global. Los puntos bajos en la superficie representan mínimos en los puntos críticos de las regiones locales de convergencia de entrenamiento óptima. 7,8
Las funciones de error son simplemente una medida de la disparidad entre el estado actual de la red durante el entrenamiento y el estado deseado de la red. Durante el entrenamiento de redes artificiales, el objetivo es encontrar el mínimo global de esta disparidad. Tal superficie existe ya sea que los datos de la muestra estén etiquetados o no y si los criterios de finalización del entrenamiento son internos o externos a la red artificial.
Si la tasa de aprendizaje es pequeña y el estado inicial está en el origen del espacio de parámetros, la convergencia, usando el descenso de gradiente, convergerá al pozo más a la izquierda, que es un mínimo local, no el mínimo global a la derecha.
Incluso si los expertos que inicializan la red artificial para el aprendizaje es lo suficientemente inteligente como para elegir el punto medio entre los dos mínimos, el gradiente en ese punto todavía se inclina hacia el mínimo de la mano izquierda, y la convergencia llegará a un estado de entrenamiento no óptimo. Si la optimización de la capacitación es crítica, lo cual es frecuente, la capacitación no logrará resultados de calidad de producción.
Una solución en uso es agregar entropía al proceso de convergencia, que a menudo es simplemente la inyección de la salida atenuada de un generador de números pseudoaleatorios. Otra solución que se usa con menos frecuencia es ramificar el proceso de capacitación e intentar la inyección de una gran cantidad de entropía en un segundo proceso convergente para que haya una búsqueda conservadora y una búsqueda algo salvaje que se ejecute en paralelo.
Es cierto que el ruido cuántico en circuitos analógicos extremadamente pequeños tiene una mayor uniformidad en el espectro de la señal desde su entropía que un generador pseudoaleatorio digital y se requieren muchos menos transistores para lograr el ruido de mayor calidad. Si los desafíos de hacerlo en las implementaciones de VLSI se han superado aún no se ha revelado por los laboratorios de investigación integrados en gobiernos y corporaciones.
Los tres desafíos son plausibles. Lo que es seguro y también muy interesante es cómo los diseñadores y fabricantes facilitan el control digital de las rutas de señal analógica y las funciones de activación para lograr un entrenamiento de alta velocidad.
Notas al pie
[1] https://ieeexplore.ieee.org/abstract/document/8401400/
[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age
[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820
[4] La atenuación se refiere a la multiplicación de una salida de señal de una actuación por un perameter entrenable para proporcionar un suma para ser sumado con otros para la entrada a una activación de una capa posterior. Aunque este es un término de física, a menudo se usa en ingeniería eléctrica y es el término apropiado para describir la función de la multiplicación de matriz de vectores que logra lo que, en círculos menos educados, se llama ponderar las entradas de capa.
[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf
[6] Hay muchas más de dos parámetros en redes artificiales, pero solo dos se muestran en esta ilustración porque la gráfica solo puede ser comprensible en 3-D y necesitamos una de las tres dimensiones para el valor de la función de error.
[7] Definición de superficie:z= ( x - 2 )2+ ( y- 2 )2+ 60 - 401 + ( y- 1.1 )2+ ( x - 0.9 )2√- 40( 1 + ( ( y- 2.2 )2+ ( x - 3.1 )2)4 4)
[8] Comandos gnuplot asociados:
fuente
Instrumentación digital de las células analógicas.
Uno de los desafíos clave en las redes artificiales analógicas es que la instrumentación de red sería más práctica si fuera digital. Cualquier implementación VLSI de perceptrones analógicos, convoluciones o redes de picos probablemente necesitará tener componentes digitales en una disposición híbrida para varias funciones.
Esto significa que la realización de una red de aprendizaje artificial analógica de propósito general requerirá una conversión de A a D y de D a A. 2 El desafío del diseño de VLSI es evitar la acumulación de transistores a partir de la introducción de una gran cantidad de bloques de conversión. Esto derrotaría la ventaja de densidad de la realización analógica de la propagación hacia adelante y hacia atrás.
La solución probable es utilizar una matriz de enclavamiento para distribuir señales desde los convertidores D-a-A a los condensadores y la matriz de conmutación de baja fuga para seleccionar qué valor leerán los convertidores A-D. Esto debe hacerse sin introducir ruido digital en las rutas analógicas y sin degradar las cargas almacenadas o la pérdida de precisión al cargarlas.
La importancia de la cantidad de transistores y rutas adicionales en un circuito fuera de la red primaria solo se puede encontrar ejerciendo un proceso de diseño VLSI.
Importantes contribuciones de código abierto
La Universidad de Massachusetts presentó el repositorio de código abierto BindsNet 3,4 en febrero de 2018. Simula redes de picos analógicos con software y hardware digital y aprovecha la aceleración de GPU a través de PyTorch.
Esto facilita la experimentación actual en los diseños y estrategias de red de punta. El éxito con la simulación, si es lo suficientemente significativo, probablemente conduciría a diseños VLSI superiores.
Notas al pie
[1] En cualquier sistema de aprendizaje práctico, los parámetros aprendidos deben extraerse de la implementación de VLSI, almacenarse en una base de datos y ponerse a disposición de cualquier número de sistemas de desarrollo, prueba, UAT o producción para su implementación, análisis de causa raíz de fallas, escalado y recuperación de desastres. Guardar y cargar debe ser una característica básica de las redes artificiales analógicas híbridas VLSI, incluso entre épocas durante el entrenamiento y durante el uso real en el campo.
[2] No se puede mantener el estado aprendido de una red artificial en condensadores indefinidamente. Aunque los condensadores se han convertido en el componente pasivo dominante para los circuitos analógicos diseñados en procesos CMOS estándar, no pueden tener mucha capacidad y la fuga no es cero. La vida media de los circuitos de almacenamiento capacitivo y la precisión requerida de los valores de los parámetros determinarán la velocidad de un ciclo de actualización condicional y de lectura.
[3] Repositorio de código abierto BindsNet
[4] BindsNET [paper]: una biblioteca de redes neuronales con picos orientada al aprendizaje automático en Python para la publicación en Harvard U del resumen del artículo de BindsNet.
fuente
Me sorprende que nadie haya mencionado algunas de las instrucciones específicas de investigación en el campo de la IA analógica. Y también para aclarar que la Inteligencia Artificial no es exactamente lo mismo que el Aprendizaje automático como sugiere esta respuesta . Los avances recientes en computación analógica solo han estado en el campo del aprendizaje automático.
CMOS analógico:
Primero, hablemos de las primeras implementaciones analógicas de neuronas. Dr.Giacomo Indiveri, et al ha sido pocos de los pioneros en el campo. Aunque con la lógica CMOS puedes diseñar redes neuronales con STDP (Plasticidad dependiente del tiempo de ), es difícil utilizar algoritmos de aprendizaje automático. El cerebro humano aún no se comprende por completo, especialmente cómo comunica información compleja con picos. Las redes basadas en picos son buenas para realizar tareas de reconocimiento de imagen relativamente pequeñas y de baja complejidad (la mayoría de los documentos parecen estar más preocupados por mejorar el rendimiento en lugar de aplicarlo a tareas altamente complejas). Debido a la gran cantidad de transistores disponibles, podríamos usarlo en tareas complejas.
El mejor ejemplo sería que Google está usando esta idea de baja precisión en TPU y precisión de compensación, al usar una gran cantidad de unidades de procesamiento que está causando algún tipo de compensación entre tiempo, precisión y área. Esto puede ser análogo a la gran cantidad de transistores en un procesador, aunque con poca precisión. ( Una mirada en profundidad a la primera Unidad de procesamiento de tensor (TPU) de Google )
NOTA: Algunos podrían argumentar que la tecnología CMOS cae dentro del dominio digital, pero dado que no estamos usando CMOS específicamente aquí para realizar ninguna operación digital, me gusta pensar que es analógica.
Las tareas basadas en Spike son aparentemente bastante buenas para las redes Winner Take All (algo así como Mapas de autoorganización ), por lo que es la forma general de implementar Algoritmos de aprendizaje automático en chips VLSI.
Las redes basadas en espigas no tienen memoria ideal, no puede tener pesos de alta precisión. Han propuesto implementar pesos biológicos o sinapsis o memoria usando condensadores, pero aparentemente enfrenta problemas similares a los chips de silicio normales, como la fuga de carga y también de otras no idealidades basadas en silicio y, por lo que he entendido, también pueden modelar pesos limitados ( como -1, 0, 1).
Computación digital:
Aquí, viene la computación digital. Las tareas que requieren una gran cantidad de representación en coma flotante no pueden implementarse simplemente mediante picos, ya que aún no sabemos ni somos capaces de imitar por completo la biofísica o cualquier aspecto de una neurona verdadera. La computación digital simplemente ayuda a transmitir más información y con tanta precisión como queramos (si diseñamos tal CPU). Aunque los cuellos de botella son un inconveniente conocido de la arquitectura de Von Neumann para la computación digital, no es tan problemático como la representación de información a través de picos. Los picos siempre tienen una magnitud fija, la única forma en que probablemente transmite información es por su frecuencia y signo (excitador o inhibidor). Además, las velocidades de reloj son bastante altas en las computadoras modernas.
Memristors: una nueva dirección
Aquí viene el invento más reciente, el Memristor . Este ha sido el dispositivo analógico más prometedor en Machine Learning. Los Memristors son un concepto muy nuevo predicho en los años 70 y producido solo en 2008. Básicamente, son RRAM o Resisitive RAM's. En esto, la resistencia de la resistencia de memoria o Memristor está directamente relacionada con la historia actual pasada, que es muy similar a los modelos biofísicos de neurona. También se pueden entrenar fácilmente usando conjuntos de barras cruzadas (básicamente matriz de contactos eléctricos) de memristors (los conjuntos de barras cruzadas representarán matrices de peso, el voltaje aplicado a lo largo de filas o columnas determina la propagación hacia adelante o hacia atrás).
Por lo tanto, Memristor da un giro analógico real a los algoritmos de Machine Learning. Desafortunadamente, debido a su reciente llegada, hay muchos problemas que aún no se han resuelto.
Laboratorio de Investigación en Nanoelectrónica, Universidad de Purdue
Materiales electroquímicos, ETH Zurich
Proyecto de cerebro humano
El Instituto MARCS para el cerebro, el comportamiento y el desarrollo
Fotónica neuromórfica:
Recientemente, ha habido un interés en el campo de la fotónica neuromórfica. Aquí hay un breve artículo sobre lo mismo. No estoy familiarizado con el funcionamiento interno de la misma, pero AFAIK implica la transmisión de información en forma óptica dentro del propio chip de procesamiento. Esto conlleva algunas ventajas sobre los circuitos analógicos o digitales normales:
fuente
Creo que la mayoría de las personas han respondido la pregunta con diligencia de una manera realmente informativa. Solo me gustaría decir que usamos circuitos digitales comúnmente porque esa es la tecnología existente y que definitivamente los circuitos analógicos parecen realmente prometedores.
Sin embargo, en este momento, esta idea no está muy bien desarrollada a pesar de la cantidad de investigación realizada en los últimos años. Hasta el momento, ninguna compañía ha intentado implementar la idea a nivel comercial donde están fabricando dichos chips para usarlos fuera de sus laboratorios.
Además, esta idea se siente como un nuevo enfoque y tiene un gran potencial.
Pero, con nuestra falta de comprensión sobre cómo funcionan algunos modelos, algunos simplemente no lo hacen por un problema; cómo las redes neuronales realmente resuelven problemas tan complejos y muchas otras cosas. Por lo tanto, todavía es una tecnología bastante distante para alcanzar su máximo potencial.
PD: Todavía soy un principiante en este campo y creo que mi opinión no cuenta, si fui redundante en algún lugar o no le di la respuesta esperada, lo lamento sinceramente.
fuente
También se puede abordar la cuestión desde el aspecto de la teoría de la información:
Hay dos compensaciones para elegir:
Información analógica que puede representar información de una manera más precisa / específica, pero limitada en cantidad.
Información digital que no representa completamente el mundo real, pero que puede contener una cantidad ilimitada de información en unos pocos bits. Un buen ejemplo podría ser algo así como un bucle incremental para:
¿Cuál es más poderoso entonces?
fuente
Hava Siegelmann
A primera vista, la computación analógica es superior a la digital. Las computadoras cuánticas son más rápidas que las computadoras Von-Neumann y los chips neuromórficos necesitan menos energía que las CPU Intel. También desde un punto de vista teórico, muchos hablan por computadoras analógicas. Hava Siegelmann ha investigado la capacidad de Super-turing de la red neuronal, lo que significa que una computadora analógica puede emular una digital pero no al revés. Entonces, ¿por qué no deberíamos usar la computación analógica?
Stephen Wolfram
La razón tiene que ver con el sistema educativo. La matemática clásica que se enseña en las escuelas es la matemática analógica. Se basa en reglas de cálculo, tabla de logaritmos y el pensamiento en circuitos. Por el contrario, pensar en valores discretos de un algoritmo y describir el mundo en cero y unos es fundamentalmente diferente y nos lleva a un nuevo tipo de matemática. Stephen Wolfram ha explicado que la comprensión de los autómatas celulares es un paso importante para describir el universo y tiene razón. Ignorar las matemáticas analógicas y preferir los lenguajes de computadora capaces es un método poderoso en la educación. Ayuda no solo a familiarizarse con las computadoras, sino también con todas las demás cosas, como la medicina, la literatura y la economía. Incluso si las máquinas analógicas son técnicas superiores, preferimos máquinas Turing lentas pero discretas,
Enseñanza de las matemáticas
Para comprender la diferencia entre la computación digital y la analógica, debemos centrarnos en las matemáticas mismas que se utilizan en las escuelas. Si la idea es impulsar la computación analógica, el tipo apropiado de matemáticas se agrupa en torno a campos eléctricos, integración y diferenciación. En las escuelas, esto se enseña bajo el término general "Análisis matemático". Este tema fue muy importante en el pasado, porque el análisis ayuda a construir puentes, máquinas y automóviles. En todos estos dominios se utiliza el álgebra vectorial para describir el espacio geométrico.
Si la computación analógica es tan poderosa, ¿por qué alguien necesita las matemáticas digitales? Tiene que ver con el algoritmo. Lo que el analizador de planímetro y diferencial no tiene para ofrecer son las capacidades de programación. No es posible definir algoritmos y lenguajes artificiales. Una mirada a la historia de las matemáticas muestra que la teoría de algoritmos no era muy común en el pasado. En matemáticas modernas se discute bajo el término cálculo Lambda y problema de detención .
Lo curioso es que, a primera vista, el cálculo de Lamda no tiene aplicaciones prácticas. No es necesario si alguien quiere calcular el área de un puente. La teoría de algoritmos es una escuela de pensamiento para mejorar el pensamiento crítico. Es una filosofía que necesitan los humanos, no las máquinas.
fuente