Después de haber trabajado con redes neuronales durante aproximadamente medio año, he experimentado de primera mano lo que a menudo se consideran sus principales desventajas, es decir, sobreajustar y atascarse en los mínimos locales. Sin embargo, a través de la optimización de hiperparámetros y algunos enfoques recién inventados, estos se han superado para mis escenarios. De mis propios experimentos:
- La deserción parece ser un muy buen método de regularización (¿también un pseudo-ensamblador?),
- La normalización por lotes facilita el entrenamiento y mantiene la intensidad de la señal constante en muchas capas.
- Adadelta alcanza consistentemente muy buenas optimas
Experimenté con la implementación de SciKit-learn de SVM junto con mis experimentos con redes neuronales, pero encuentro que el rendimiento es muy pobre en comparación, incluso después de haber realizado búsquedas en la red de hiperparámetros. Me doy cuenta de que hay muchos otros métodos, y que los SVM pueden considerarse una subclase de NN, pero aún así.
Entonces, a mi pregunta:
Con todos los métodos más nuevos investigados para redes neuronales, ¿se han convertido lentamente o serán "superiores" a otros métodos? Las redes neuronales tienen sus desventajas, al igual que otras, pero con todos los métodos nuevos, ¿se han mitigado estas desventajas a un estado de insignificancia?
Me doy cuenta de que a menudo "menos es más" en términos de complejidad del modelo, pero eso también puede ser diseñado para redes neuronales. La idea de "no almuerzo gratis" nos prohíbe asumir que un enfoque siempre reinará superior. Es solo que mis propios experimentos, junto con innumerables artículos sobre increíbles actuaciones de varias NN, indican que podría haber, al menos, un almuerzo muy barato.
fuente
Respuestas:
Las redes neuronales también tienen otras deficiencias.
Estoy ansioso por lo que otras personas tienen que decir aquí.
fuente
Solo para agregar a lo que se ha dicho en la brillante respuesta de @ MikeWise,
En igualdad de condiciones, los modelos de aprendizaje profundo generalmente se clasifican como superiores en comparación con otros algoritmos a medida que aumenta el tamaño del conjunto de datos:
Como todo, todo se reduce al conjunto de datos en cuestión, las redes neuronales son buenas en otros conjuntos de datos, pero al mismo tiempo, serán malas en otros conjuntos de datos. Cuando se trata de problemas no estructurados (por ejemplo , imágenes, texto, sonido ), en este momento las redes neuronales parecen ser el mejor algoritmo. Dicho esto, cuando se trata de datos estructurados, un escaneo rápido del tipo de algoritmo utilizado para ganar concursos de ciencia de datos en línea revela que los llamados algoritmos de aprendizaje automático, como XGboost , son los primeros .
Cuando se trata de otros modelos, la ingeniería de características juega un papel importante en la eficiencia del algoritmo. La ingeniería de características es generalmente una cosa difícil de hacer y hacer bien. Los algoritmos de aprendizaje profundo no requieren tanta ingeniería de características (si es que tienen alguna) en comparación con otros algoritmos, de hecho , aprenden características por sí mismos .
Si los muchachos de Google dicen que no vieron venir el aprendizaje profundo, ¿ quién debe descartar la posibilidad de que aparezca un algoritmo de aprendizaje automático que se apodere del mundo?
Aquí hay una encuesta sobre lo que dijo el científico de datos cuando se le preguntó: ¿si el aprendizaje profundo coincide con la exageración en la aplicación del mundo real? .
Incluso algunas de las aplicaciones populares de aprendizaje profundo como AlphaGo de Google no son 100% de aprendizaje profundo , sino que son en parte aprendizaje en profundidad, en parte buen "aprendizaje automático". Mi 2 centavo es, quizás aún no deberíamos descartar otros algoritmos de aprendizaje automático.
fuente