¿Por qué ML solo se volvió viable después de que los chips de Nvidia estuvieran disponibles?

11

Escuché una charla por panel compuesta por dos científicos chinos influyentes: Wang Gang y Yu Kai y otros.

Cuando se le preguntó sobre el mayor cuello de botella del desarrollo de la inteligencia artificial en el futuro cercano (3 a 5 años), Yu Kai, que tiene experiencia en la industria del hardware, dijo que el hardware sería el problema esencial y que deberíamos pagar la mayor parte nuestra atención a eso. Nos dio dos ejemplos:

  1. En el desarrollo temprano de la computadora, comparamos nuestras máquinas por sus chips;
  2. La inteligencia artificial, que es muy popular en estos años, sería casi imposible si no estuviera potenciada por la GPU de Nvidia.

Los algoritmos fundamentales ya existían en las décadas de 1980 y 1990, pero la inteligencia artificial pasó por 3 inviernos de IA y no fue empírica hasta que podamos entrenar modelos con mega servidores con GPU.

Luego, el Dr. Wang comentó sus opiniones de que también deberíamos desarrollar sistemas de software porque no podemos construir un automóvil automático, incluso si hemos combinado todas las GPU y la computación en el mundo juntas.

Luego, como de costumbre, mi mente se desvió y comencé a pensar que si aquellos que pueden operar supercomputadoras en los años ochenta y noventa utilizaron los algoritmos de red neuronal existentes en ese momento y los entrenaron con toneladas de datos científicos. Algunas personas en ese momento obviamente pueden intentar construir los sistemas de IA que estamos construyendo ahora. Pero, ¿por qué la IA se convirtió en un tema candente y empírico hasta décadas después? ¿Es solo una cuestión de hardware, software y datos?

Lerner Zhang
fuente
3
Esta pregunta presupone que la IA es solo aprendizaje automático, lo cual es evidentemente incorrecto. Ha existido por más de 60 años, y solo el campo muy estrecho de aprendizaje profundo / redes neuronales ha sido acelerado por el hardware actualmente disponible. La IA ha sido un tema candente en varias ocasiones, rechazado por haber sido exagerado cada vez.
Oliver Mason
@OliverMason Sí. En ese contexto, redujimos la IA solo al aprendizaje automático y el aprendizaje profundo.
Lerner Zhang el
OK, modifiqué el título en consecuencia.
Oliver Mason

Respuestas:

14

Hay muchos factores para el auge de la industria de IA. Sin embargo, lo que mucha gente echa de menos es que el auge ha estado principalmente en la parte de aprendizaje automático de la IA. Esto puede atribuirse a varias razones simples junto con sus comparaciones en épocas anteriores:

  • Matemáticas : las matemáticas detrás de los algoritmos de ML son bastante simples y conocidas desde hace mucho tiempo (aunque no se sabía si funcionaría o no). Durante épocas anteriores no fue posible implementar algoritmos que requieren una alta precisión de números, que se calcularán en un chip, en un período de tiempo aceptable. Una de las principales operaciones aritméticas de la división de números todavía requiere muchos ciclos en los procesadores modernos. Los procesadores más antiguos eran una magnitud veces más lentos que los procesadores modernos (más de 100x), este cuello de botella hacía imposible entrenar modelos sofisticados en procesadores contemporáneos.
  • Precisión : la precisión en los cálculos es un factor importante en los algoritmos de ML. La precisión de 32 bits en el procesador se realizó en los años 80 y probablemente estaba disponible comercialmente a fines de los 90 ( x86 ), pero aún era muy lenta que los procesadores actuales. Esto dio lugar a que los científicos improvisaran en la parte de precisión y el algoritmo de aprendizaje de Perceptron más básico inventado en la década de 1960 para entrenar a un clasificador usa solo 'y ', por lo que básicamente es un clasificador binario. Se ejecutó en computadoras especiales . Sin embargo, es interesante notar que hemos cerrado un círculo completo y Google ahora está utilizando TPU con una precisión de 8-16 bits para implementar modelos ML con gran éxito.10 0
  • Paralelización : el concepto de paralelización de las operaciones matriciales no es nada nuevo. Fue solo cuando comenzamos a ver el Aprendizaje Profundo como un conjunto de operaciones matriciales que nos dimos cuenta de que se puede paralelizar fácilmente en GPU masivamente paralelas, aunque si su algoritmo ML no es inherentemente paralelo, apenas importa si usa CPU o GPU ( por ejemplo, RNN).
  • Datos : Probablemente la mayor causa en el auge de ML. Internet ha brindado oportunidades para recopilar grandes cantidades de datos de los usuarios y también ponerlos a disposición de las partes interesadas. Dado que un algoritmo ML es solo un aproximador de función basado en datos, por lo tanto, los datos son lo más importante en un algoritmo ML. Cuantos más datos, mejor será el rendimiento de su modelo.
  • Costo : el costo de entrenar un modelo ML ha disminuido significativamente. Entonces, usar una Supercomputadora para entrenar un modelo podría estar bien, pero ¿valió la pena? Las supercomputadoras, a diferencia de las PC normales, necesitan muchísimo recursos en términos de refrigeración, espacio, etc. Un artículo recienteen MIT Technology Review señala la huella de carbono de la capacitación de un modelo de Deep Learning (sub-rama de ML). Es un buen indicador de por qué no hubiera sido factible entrenar en supercomputadoras en épocas anteriores (considerando que los procesadores modernos consumen mucha menos energía y dan velocidades más altas). Sin embargo, no estoy seguro, pero creo que las supercomputadoras anteriores estaban especializadas en "computación paralela + de muy alta precisión" (requerida para el clima, astronomía, aplicaciones militares, etc.) y la "parte de muy alta precisión" es exagerada en el escenario de Machine Learning.

Otro aspecto importante es que hoy en día todos tienen acceso a computadoras potentes. Por lo tanto, cualquiera puede construir nuevos modelos ML, volver a entrenar modelos preexistentes, modificar modelos, etc. Esto no fue posible en épocas anteriores,

Todos estos factores han llevado a un gran aumento en el interés en el aprendizaje automático y ha causado el auge que estamos viendo hoy. Consulte también esta pregunta sobre cómo nos estamos moviendo más allá de los procesadores digitales.

DuttaA
fuente
2

Las GPU eran ideales para el boom de la IA porque

  • Golpearon el momento correcto

La IA ha sido investigada por MUCHO tiempo. Casi medio siglo. Sin embargo, eso fue todo exploración de cómo funcionarían y se verían los algoritmos. Cuando NV vio que la IA estaba a punto de convertirse en una corriente principal, observaron sus GPU y se dieron cuenta de que la enorme potencia de procesamiento en paralelo, con relativa facilidad de programación, es ideal para la era futura. Muchas otras personas se dieron cuenta de eso también.

  • Las GPU son una especie de aceleradores de uso general

GPGPU es un concepto de uso del procesamiento paralelo de GPU para tareas generales. Puede acelerar los gráficos o hacer que su algoritmo utalice miles de núcleos disponibles en la GPU. Eso hace que GPU sea un objetivo increíble para todo tipo de casos de uso, incluida la IA. Dado que ya están disponibles y no son demasiado difíciles de programar, es la opción ideal para acelerar los algoritmos de IA.

Aleksandar Kostovic
fuente