He visto que la gente ha puesto muchos esfuerzos en SVM y Kernels, y se ven bastante interesantes como iniciadores en Machine Learning. Pero si esperamos que casi siempre podamos encontrar una solución superior en términos de red neuronal (profunda), ¿cuál es el significado de probar otros métodos en esta era?
Aquí está mi restricción sobre este tema.
- Pensamos solo en Aprendizajes Supervisados; Regresión y clasificación.
- La legibilidad del resultado no se cuenta; solo cuenta la precisión en el problema de aprendizaje supervisado.
- El costo computacional no está en consideración.
- No estoy diciendo que ningún otro método sea inútil.
Respuestas:
Aquí hay una razón teórica y dos razones prácticas por las cuales alguien podría racionalmente preferir un enfoque que no sea DNN.
El teorema del almuerzo libre de Wolpert y Macready dice
En otras palabras, ningún algoritmo único los gobierna a todos; Tienes que hacer una referencia.
La refutación obvia aquí es que generalmente no le importan todos los problemas posibles, y el aprendizaje profundo parece funcionar bien en varias clases de problemas que a las personas sí les interesan (por ejemplo, el reconocimiento de objetos), por lo que es una primera / única opción razonable para otras aplicaciones en esos dominios.
Muchas de estas redes muy profundas requieren toneladas de datos, así como toneladas de computación, para encajar. Si tiene (por ejemplo) 500 ejemplos, una red de veinte capas nunca va a aprender bien, aunque es posible que se ajuste a un modelo mucho más simple. Hay una cantidad sorprendente de problemas en los que no es factible recopilar una tonelada de datos. Por otro lado, uno podría intentar aprender a resolver un problema relacionado (donde hay más datos disponibles), usar algo como transferencia de aprendizaje para adaptarlo a la tarea específica de baja disponibilidad de datos.
Las redes neuronales profundas también pueden tener modos de falla inusuales. Hay algunos documentos que muestran que los cambios apenas perceptibles de humano pueden causar una red para dar la vuelta a la correcta clasificación de una imagen para hacer con confianza mal clasificarlo. (Ver aquí y el documento adjunto de Szegedy et al.) Otros enfoques pueden ser más sólidos contra esto: hay ataques de envenenamiento contra SVM (por ejemplo, esto por Biggio, Nelson y Laskov), pero estos ocurren en el tren, en lugar de la prueba hora. En el extremo opuesto, existen límites de rendimiento conocidos (pero no excelentes) para el algoritmo vecino más cercano. En algunas situaciones, puede ser más feliz con un rendimiento general más bajo con menos posibilidades de catástrofe.
fuente
En algún lugar de esta lista de reproducción de conferencias de Geoff Hinton (de su curso Coursera en redes neuronales), hay un segmento en el que habla sobre dos clases de problemas:
Recuerdo la explicación de que si bien las redes neuronales prosperan en este último espacio, los métodos estadísticos tradicionales a menudo son más adecuados para el primero. El análisis de fotografías digitales de alta resolución de cosas reales en el mundo, un lugar donde se destacan las redes convolucionales profundas, constituye claramente lo último.
Por otro lado, cuando el ruido es la característica dominante, por ejemplo, en un estudio médico de casos y controles con 50 casos y 50 controles, los métodos estadísticos tradicionales pueden ser más adecuados para el problema.
Si alguien encuentra ese video, comente y lo actualizaré.
fuente
Dos variables correlacionadas linealmente perfeccionadas. ¿Puede una red profunda con 1 millón de capas ocultas y 2 billones de neutrones superar una simple regresión lineal?
EDITADO
En mi experiencia, la recolección de muestras es más costosa que la computación. Quiero decir, solo podemos contratar algunas instancias de Amazon, realizar un entrenamiento de aprendizaje profundo y luego regresar unos días después. El costo en mi campo es de aproximadamente $ 200 USD. El costo es mínimo. Mis colegas ganan más que eso en un día.
La recolección de muestras generalmente requiere conocimiento de dominio y equipos especializados. El aprendizaje profundo solo es adecuado para problemas con un conjunto de datos de acceso fácil y económico, como el procesamiento del lenguaje natural, el procesamiento de imágenes y cualquier cosa que pueda extraer de Internet.
fuente