No he encontrado una respuesta satisfactoria a esto de google .
Por supuesto, si los datos que tengo son del orden de millones, entonces el aprendizaje profundo es el camino.
Y he leído que cuando no tengo grandes datos, tal vez sea mejor usar otros métodos en el aprendizaje automático. La razón dada es demasiado ajustada. Aprendizaje automático: es decir, mirar datos, extracciones de características, crear nuevas características de lo que se recopila, etc., como eliminar variables muy correlacionadas, etc. todo el aprendizaje automático de 9 yardas.
Y me he estado preguntando: ¿por qué las redes neuronales con una capa oculta no son la panacea para los problemas de aprendizaje automático? Son estimadores universales, el ajuste excesivo se puede gestionar con abandono, regularización l2, regularización l1, normalización por lotes. La velocidad de entrenamiento generalmente no es un problema si tenemos solo 50,000 ejemplos de entrenamiento. Son mejores en el momento de la prueba que, digamos, bosques aleatorios.
Entonces, ¿por qué no? Limpie los datos, impute los valores faltantes como lo haría generalmente, centre los datos, estandarice los datos, tírelos a un conjunto de redes neuronales con una capa oculta y aplique la regularización hasta que no vea un ajuste excesivo y luego entrene ellos hasta el final. No hay problemas con la explosión de gradiente o la desaparición de gradiente ya que es solo una red de 2 capas. Si se necesitaban capas profundas, eso significa que se deben aprender las características jerárquicas y luego otros algoritmos de aprendizaje automático tampoco son buenos. Por ejemplo, SVM es una red neuronal con solo pérdida de bisagra.
Se apreciaría un ejemplo en el que algún otro algoritmo de aprendizaje automático superaría a una red neuronal de 2 capas (¿quizás 3?) Cuidadosamente regularizada. Puede darme el enlace al problema y entrenaría la mejor red neuronal que pueda y podemos ver si las redes neuronales de 2 capas o de 3 capas no alcanzan ningún otro algoritmo de aprendizaje automático de referencia.
fuente
Respuestas:
Cada algoritmo de aprendizaje automático tiene un sesgo inductivo diferente, por lo que no siempre es apropiado usar redes neuronales. Una tendencia lineal siempre se aprenderá mejor mediante una regresión lineal simple en lugar de un conjunto de redes no lineales.
Si echas un vistazo a los ganadores de las competiciones pasadas de Kaggle , excepto cualquier desafío con datos de imagen / video, rápidamente encontrarás que las redes neuronales no son la solución para todo. Algunas soluciones pasadas aquí.
No hay garantía de que pueda aplicar suficiente regularización para evitar el sobreajuste sin destruir por completo la capacidad de la red para aprender algo. En la vida real, rara vez es factible eliminar la brecha entre la prueba y el tren, y es por eso que los documentos aún informan el rendimiento del tren y la prueba.
Esto solo es cierto en el límite de tener un número ilimitado de unidades, lo que no es realista.
Un problema de ejemplo que espero que una red neuronal nunca pueda resolver: dado un número entero, clasifíquelo como primo o no primo.
Creo que esto podría resolverse perfectamente con un algoritmo simple que itera sobre todos los programas válidos en longitud ascendente y encuentra el programa más corto que identifica correctamente los números primos. De hecho, esta cadena de expresiones regulares de 13 caracteres puede coincidir con números primos, lo que no sería intratable computacionalmente para buscar.
Sí, hay un punto dulce, pero generalmente es mucho antes de que dejes de sobreajustar. Ver esta figura:
Si voltea el eje horizontal y lo vuelve a etiquetar como "cantidad de regularización", es bastante preciso: si lo regulariza hasta que no haya sobreajuste, su error será enorme. El "punto óptimo" se produce cuando hay un poco de sobreajuste, pero no demasiado.
Si. Aquí hay una figura fea pero con suerte efectiva para ilustrar mi punto.
La pregunta no es "puede", sino "lo hará", y si está entrenando la propagación hacia atrás, la respuesta probablemente no sea.
Sin calificación adicional, esa afirmación es simplemente incorrecta.
fuente
Agregaría que no existe una panacea de aprendizaje automático:
Por el teorema de no almuerzo gratis :
fuente