¿Existe algún problema de aprendizaje supervisado que las redes neuronales (profundas) obviamente no puedan superar a otros métodos?

33

He visto que la gente ha puesto muchos esfuerzos en SVM y Kernels, y se ven bastante interesantes como iniciadores en Machine Learning. Pero si esperamos que casi siempre podamos encontrar una solución superior en términos de red neuronal (profunda), ¿cuál es el significado de probar otros métodos en esta era?

Aquí está mi restricción sobre este tema.

  1. Pensamos solo en Aprendizajes Supervisados; Regresión y clasificación.
  2. La legibilidad del resultado no se cuenta; solo cuenta la precisión en el problema de aprendizaje supervisado.
  3. El costo computacional no está en consideración.
  4. No estoy diciendo que ningún otro método sea inútil.
Robin
fuente
3
¿Alguna restricción sobre la cantidad de datos de capacitación disponibles?
Jake Westfall
1
No lo he hecho, pero espero que le resulte muy difícil entrenar a una red neuronal para que realice, por ejemplo, una descomposición de valor singular en una matriz de tamaño no trivial (por ejemplo, rango> 10).
Mehrdad
1
Google Translate ahora usa redes neuronales , y ahora produce fallas más curiosas para el nombre de una ciudad brasileña donde el uso de un diccionario palabra por palabra hubiera sido mucho mejor
Henry
Nunca he oído hablar del aprendizaje profundo para el uso de la finalización de la matriz (aunque usar la finalización de la matriz antes del aprendizaje profundo es una práctica común). Se podría argumentar que esto podría ser un problema de costo computacional, pero también vale la pena señalar que no sé si todas las computadoras en el mundo podrían completar la matriz de aprendizaje profundo con, por ejemplo, el problema de netflix.
Cliff AB
@CliffAB: (lengua a la mitad de la mejilla ...) probablemente valga la pena señalar que tal vez no puedan hacerlo, pero no estoy seguro de que valga la pena señalar que no sabes si pueden;)
Mehrdad

Respuestas:

31

Aquí hay una razón teórica y dos razones prácticas por las cuales alguien podría racionalmente preferir un enfoque que no sea DNN.

  1. El teorema del almuerzo libre de Wolpert y Macready dice

    Hemos denominado los resultados asociados con los teoremas de la NFL porque demuestran que si un algoritmo funciona bien en una determinada clase de problemas, necesariamente paga eso con un rendimiento degradado en el conjunto de todos los problemas restantes.

    En otras palabras, ningún algoritmo único los gobierna a todos; Tienes que hacer una referencia.

    La refutación obvia aquí es que generalmente no le importan todos los problemas posibles, y el aprendizaje profundo parece funcionar bien en varias clases de problemas que a las personas sí les interesan (por ejemplo, el reconocimiento de objetos), por lo que es una primera / única opción razonable para otras aplicaciones en esos dominios.

  2. Muchas de estas redes muy profundas requieren toneladas de datos, así como toneladas de computación, para encajar. Si tiene (por ejemplo) 500 ejemplos, una red de veinte capas nunca va a aprender bien, aunque es posible que se ajuste a un modelo mucho más simple. Hay una cantidad sorprendente de problemas en los que no es factible recopilar una tonelada de datos. Por otro lado, uno podría intentar aprender a resolver un problema relacionado (donde hay más datos disponibles), usar algo como transferencia de aprendizaje para adaptarlo a la tarea específica de baja disponibilidad de datos.

  3. Las redes neuronales profundas también pueden tener modos de falla inusuales. Hay algunos documentos que muestran que los cambios apenas perceptibles de humano pueden causar una red para dar la vuelta a la correcta clasificación de una imagen para hacer con confianza mal clasificarlo. (Ver aquí y el documento adjunto de Szegedy et al.) Otros enfoques pueden ser más sólidos contra esto: hay ataques de envenenamiento contra SVM (por ejemplo, esto por Biggio, Nelson y Laskov), pero estos ocurren en el tren, en lugar de la prueba hora. En el extremo opuesto, existen límites de rendimiento conocidos (pero no excelentes) para el algoritmo vecino más cercano. En algunas situaciones, puede ser más feliz con un rendimiento general más bajo con menos posibilidades de catástrofe.

Matt Krause
fuente
Acepté todo lo que dices. Pero el problema es sobre "problemas computacionales ignorados". Eso significa que el OP asume que tendría muestras infinitas y recursos informáticos infinitos.
SmallChess
17
¡Cálculo infinito! = Muestras infinitas. Por ejemplo, tengo acceso a un clúster asombrosamente grande para procesar datos. Sin embargo, los experimentos de laboratorio que realizamos para adquirir algunos de esos datos son difíciles, lentos y requieren mucho tiempo (del orden de horas a días para un solo punto de datos) y toda la computación en el mundo no ayudará en nada. .
Matt Krause
2
Los SVM con cualquier extractor de características dado son probablemente tan vulnerables a las entradas adversas como los CNN: es más difícil encontrarlos, porque no tenemos gradientes fácilmente disponibles de las capas de extracción de características.
Dougal
1
Un ejemplo reciente e interesante de la vida real del problema que da @MattKrause y un intento de circunnavegarlo usando el aprendizaje por transferencia se presenta en Sim-to-Real Robot Learning from Pixels with Progressive Nets
HBeel
@Dougal, también me pregunto si importa que los extractores de características DNN se aprendan, mientras que los SVM están (generalmente) hechos a mano y corresponden a características que los humanos notan. Parte de lo que hace que el ejemplo del panda sea tan insidioso es la diferencia imperceptible entre el ejemplo adversario y el habitual.
Matt Krause
24

En algún lugar de esta lista de reproducción de conferencias de Geoff Hinton (de su curso Coursera en redes neuronales), hay un segmento en el que habla sobre dos clases de problemas:

  1. Problemas donde el ruido es la característica clave,
  2. Problemas donde la señal es la característica clave.

Recuerdo la explicación de que si bien las redes neuronales prosperan en este último espacio, los métodos estadísticos tradicionales a menudo son más adecuados para el primero. El análisis de fotografías digitales de alta resolución de cosas reales en el mundo, un lugar donde se destacan las redes convolucionales profundas, constituye claramente lo último.

Por otro lado, cuando el ruido es la característica dominante, por ejemplo, en un estudio médico de casos y controles con 50 casos y 50 controles, los métodos estadísticos tradicionales pueden ser más adecuados para el problema.

Si alguien encuentra ese video, comente y lo actualizaré.

Ben Ogorek
fuente
Excelente respuesta Exactamente por qué recurrimos al aprendizaje profundo para las cosas que ya podemos hacer (como reconocer imágenes y escribir texto) pero podemos recurrir a otros modelos para cosas que pueden ser intuitivamente difíciles.
Mustafa S Eisa
Yo personalmente tomo esta respuesta en mi mayor interés. Muchas gracias por la respuesta.
Robin
13

Dos variables correlacionadas linealmente perfeccionadas. ¿Puede una red profunda con 1 millón de capas ocultas y 2 billones de neutrones superar una simple regresión lineal?

EDITADO

En mi experiencia, la recolección de muestras es más costosa que la computación. Quiero decir, solo podemos contratar algunas instancias de Amazon, realizar un entrenamiento de aprendizaje profundo y luego regresar unos días después. El costo en mi campo es de aproximadamente $ 200 USD. El costo es mínimo. Mis colegas ganan más que eso en un día.

La recolección de muestras generalmente requiere conocimiento de dominio y equipos especializados. El aprendizaje profundo solo es adecuado para problemas con un conjunto de datos de acceso fácil y económico, como el procesamiento del lenguaje natural, el procesamiento de imágenes y cualquier cosa que pueda extraer de Internet.

SmallChess
fuente
1
Por supuesto, cualquier método MLE superará el aprendizaje profundo condicional en que el modelo generador cumpla con los supuestos del MLE . Sin embargo, esto nunca sucede en datos reales, o al menos para problemas interesantes (es decir, no predecir el resultado del lanzamiento de una moneda). Entonces, creo que el OP está pidiendo ejemplos que involucren preguntas reales de interés con datos reales.
Cliff AB
Es una muy buena respuesta. Ha ofrecido un punto de vista muy intuitivo y realista. Muchas gracias.
Robin