¿Cuán cierta es esta diapositiva sobre el aprendizaje profundo que afirma que todas las mejoras de la década de 1980 se deben solo a muchos más datos y computadoras mucho más rápidas?

22

Estaba escuchando una charla y vi esta diapositiva:

ingrese la descripción de la imagen aquí

Que tan cierto es

Franck Dernoncourt
fuente
66
Necesito más contexto.
cardenal
2
Sería útil si citaras al investigador. para mí, en esencia, el aprendizaje profundo implica redes mucho más grandes en recuentos de neuronas y más capas. Es cierto que está algo implicado por los puntos anteriores que parecen más o menos precisos. Los puntos anteriores facilitan redes más grandes.
vzn
¿Cuál es la fuente de esto?
MachineEpsilon

Respuestas:

11

Estaba navegando por AI StackExchange y me encontré con una pregunta muy similar: ¿Qué distingue el "Aprendizaje profundo" de otras redes neuronales?

Como AI StackExchange se cerrará mañana (nuevamente), copiaré las dos respuestas principales aquí (contribuciones de usuarios con licencia bajo cc by-sa 3.0 con atribución requerida):


Autor: mommi84less

Dos documentos de 2006 bien citados devolvieron el interés de la investigación al aprendizaje profundo. En "Un algoritmo de aprendizaje rápido para redes de creencias profundas" , los autores definen una red de creencias profundas como:

[...] redes de creencias densamente conectadas que tienen muchas capas ocultas.

Encontramos casi la misma descripción para redes profundas en " Greedy Layer-Wise Training of Deep Networks" :

Las redes neuronales profundas de capas múltiples tienen muchos niveles de no linealidades [...]

Luego, en la encuesta "Aprendizaje de representación: una revisión y nuevas perspectivas" , el aprendizaje profundo se utiliza para abarcar todas las técnicas (ver también esta charla ) y se define como:

[...] construyendo múltiples niveles de representación o aprendiendo una jerarquía de características.

El adjetivo "profundo" fue utilizado por los autores anteriores para resaltar el uso de múltiples capas ocultas no lineales .


Autor: lejlot

Solo para agregar a la respuesta @ mommi84.

El aprendizaje profundo no se limita a las redes neuronales. Este es un concepto más amplio que solo los DBN de Hinton, etc. El aprendizaje profundo se trata de

construyendo múltiples niveles de representación o aprendiendo una jerarquía de características.

Por lo tanto, es un nombre para algoritmos de aprendizaje de representación jerárquica . Hay modelos profundas basado en modelos ocultos de Markov, condicional Random Fields, Máquinas de vectores de soporte, etc. Lo único punto en común es, que en lugar de (popular en los años 90) de ingeniería característica , donde los investigadores estaban tratando de crear un conjunto de características, que es el mejor para resolver algún problema de clasificación: estas máquinas pueden resolver su propia representación a partir de datos sin procesar. En particular, aplicados al reconocimiento de imágenes (imágenes en bruto) producen una representación de varios niveles que consiste en píxeles, luego líneas, luego rasgos faciales (si estamos trabajando con rostros) como narices, ojos y, finalmente, caras generalizadas. Si se aplica al procesamiento del lenguaje natural, construyen un modelo de lenguaje que conecta palabras en fragmentos, fragmentos en oraciones, etc.


Otra diapositiva interesante:

ingrese la descripción de la imagen aquí

fuente

Franck Dernoncourt
fuente
6

Esta es ciertamente una pregunta que provocará controversia.

Cuando las redes neuronales se usan en el aprendizaje profundo, generalmente se entrenan de formas que no se usaban en la década de 1980. En particular, se afirma que las estrategias que pre-entrenan a las capas individuales de la red neuronal para reconocer características en diferentes niveles hacen que sea más fácil entrenar redes con varias capas. Ese es ciertamente un nuevo desarrollo desde la década de 1980.

Brian Borchers
fuente
5

La clave es la palabra "profundo" en el aprendizaje profundo. Alguien (olvidó la referencia) en los años 80 demostró que todas las funciones no lineales podían ser aproximadas por una red neuronal de capa única con, por supuesto, un número suficientemente grande de unidades ocultas. Creo que este resultado probablemente desanimó a las personas a buscar una red más profunda en la era anterior.

Pero la profundidad de la red es lo que resultó ser el elemento crucial en la representación jerárquica que impulsa el éxito de muchas de las aplicaciones actuales.

horaceT
fuente
0

No exactamente, el ANN comienza en los años 50. Echa un vistazo a una de las diapositivas de las estrellas de rock de ML Yann LeCun para una introducción auténtica y completa. http://www.cs.nyu.edu/~yann/talks/lecun-ranzato-icml2013.pdf

lanza
fuente
Esto es una abreviatura de una respuesta según nuestros estándares, más un comentario. ¡Realmente debería expandirlo a una respuesta completa al dar algunos de los puntos importantes de esa diapositiva!
kjetil b halvorsen