Redes neuronales profundas: ¿solo para clasificar imágenes?

14

Todos los ejemplos que encontré usando creencias profundas o redes neuronales convolucionales las usan para la clasificación de imágenes, detección de caracteres o reconocimiento de voz.

¿Las redes neuronales profundas también son útiles para las tareas de regresión clásicas, donde las características no están estructuradas (por ejemplo, no están organizadas en una secuencia o cuadrícula)? En caso afirmativo, ¿puedes dar un ejemplo?

Julian
fuente
3
Su primera oración muestra redes neuronales convolucionales. Parece que los estás confundiendo con redes de creencias profundas. No son lo mismo, aunque ambas son formas de redes neuronales.
MSalters
1
Estoy de acuerdo con @msalters, pero diría que las redes de creencias profundas son redes realmente profundas y han tenido un éxito limitado, mientras que las redes convolucionales son más como un híbrido: filtros de imagen adaptativos en capas convolucionales seguidas de nn superficial.
seanv507
¿Qué quiere decir con "observaciones" siendo "no estructurado (no organizado en una secuencia o cuadrícula)"? ¿Se refiere a imágenes "estructuradas" en el sentido de que los píxeles individuales están dispuestos en una cuadrícula? Pero, ¿son características "estructuradas", no "observaciones" (esas serían imágenes individuales)?
ameba dice Reinstate Monica
Yo diría que todas las redes de convolución son profundas, no todas las redes profundas son convolución, y de manera similar todas las redes de creencias profundas son profundas, no todas las redes profundas son redes de creencias profundas. De hecho, puede tener redes profundas que no son profundas ni convolucionales, solo tienden a ser difíciles de entrenar. Sin embargo, ciertamente hay margen para un debate inútil sobre la terminología.
Lyndon White
No puede aplicar una red convolucional a datos no estructurados (no en secuencia / cuadrícula, etc.). Básicamente no tiene sentido. Una red convolucional está estrechamente relacionada con tomar la transformación de Fourier de su entrada, por ejemplo, para secuencias que la convierten del dominio del tiempo al dominio de la frecuencia.
Lyndon White el

Respuestas:

8

Las características de las imágenes que las hacen susceptibles de clasificación con una red neuronal profunda es que hay un montón de características (posiblemente millones si no miles de millones de píxeles con RGB, intensidad, etc.) y si tiene etiquetas precisas, no son datos ruidosos. Las cámaras en estos días son muy buenas y no miden mal nada. Gracias a Internet, ahora tenemos muchas imágenes etiquetadas con precisión. Una red profunda puede expresar funciones arbitrariamente complicadas, lo cual es un problema con datos ruidosos porque puede sobreajustar fácilmente el ruido, por lo tanto, muchos métodos de aprendizaje tienden a penalizar los modelos complicados. Sin embargo, en el caso del reconocimiento de imágenes, la verdadera función parece ser realmente muy complicada, no tenemos idea de cómo se ve la forma funcional, y ni siquiera sabemos cuáles son las características relevantes en muchos casos.

Esto no significa que no pueda usar redes profundas para aprender funciones que no tienen nada que ver con las imágenes. Solo debe tener mucho cuidado con las desventajas, sobre todo porque es muy propenso al sobreajuste, pero también porque es computacionalmente costoso y puede llevar mucho tiempo entrenar (no es un problema en estos días con SGD y GPU paralelas). La otra desventaja es que tiene muy poca o ninguna interpretación del modelo, lo que realmente no importa para la clasificación de imágenes. Solo estamos tratando de hacer que las computadoras reconozcan la diferencia entre un chimpancé y un orangután. La comprensión humana de la fórmula no importa. Para otros dominios, especialmente el diagnóstico médico, la investigación de políticas, etc., desea o incluso puede necesitar la comprensión humana.

Adam Acosta
fuente
5

Claro que puede usar redes neuronales profundas para muchos problemas, aparte del reconocimiento de imagen o de voz. El problema es si realmente lo necesitas.

Las redes neuronales profundas son mucho más potentes que un simple MLP, sin embargo, también requieren más recursos y son más difíciles de desarrollar. Por lo tanto, se utilizan en dominios realmente complejos. Podrías usarlos para resolver problemas más fáciles, pero generalmente los modelos más simples también obtienen buenos resultados.

Usar redes neuronales profundas para problemas fáciles será como matar moscas con una bazuca, seguro que las matarás, pero ¿no podrías encontrar una manera más simple?

davidivad
fuente
2
Esta no es una respuesta. ¿Qué es fácil, qué es difícil? Predecir el mercado de valores / extrapolar a partir de ejemplos limitados / ... ¿Hay muchos problemas difíciles que son profundos en todos ellos?
seanv507
No he dicho que las redes neuronales profundas puedan resolver cualquier cosa. Lo que quise decir es que se usan en dominios complejos donde tienes una gran cantidad de entradas. Sé que no pueden resolver todos los problemas, pero no es el punto en esta pregunta. El punto es enfatizar que podrían aplicarse a otros problemas además del reconocimiento de imagen / discurso, pero tienen desventajas que vale la pena considerar en los casos en que podrían aplicarse otros modelos.
davidivad
5

Estoy de acuerdo con la respuesta de davidivad. Pero también creo que la aplicación de redes neuronales profundas a las imágenes es que las imágenes (y, lo que es más importante, las imágenes etiquetadas ) son relativamente baratas de recopilar. En otros dominios, puede ser muy costoso recopilar datos a gran escala, especialmente dentro de las limitaciones de una empresa industrial o gubernamental típica. Para agravar este problema, en muchas aplicaciones, el fenómeno de interés es relativamente raro, por lo que habrá pocos ejemplos valiosos de los que aprender, por lo que incluso un esfuerzo de recopilación de datos a una escala relativamente grande podría generar un pequeño número de miembros de alguna clase.

Sycorax dice reinstalar a Mónica
fuente