¿Por qué no simplemente volcar las redes neuronales y el aprendizaje profundo? [cerrado]

25

Problema fundamental con el aprendizaje profundo y las redes neuronales en general.

  1. Las soluciones que se ajustan a los datos de entrenamiento son infinitas. No tenemos una ecuación matemática precisa que se satisfaga con una sola y que podamos decir que generaliza mejor. Simplemente hablando, no sabemos cuál generaliza mejor.

  2. La optimización de los pesos no es un problema convexo, por lo que nunca sabemos que terminamos con un mínimo global o local.

Entonces, ¿por qué no simplemente volcar las redes neuronales y en su lugar buscar un mejor modelo de ML? ¿Algo que comprendamos y que sea consistente con un conjunto de ecuaciones matemáticas? Lineal y SVM no tienen estos inconvenientes matemáticos y son completamente consistentes con un conjunto de ecuaciones matemáticas. ¿Por qué no simplemente pensar en las mismas líneas (aunque no es necesario que sea lineal) y crear un nuevo modelo de ML mejor que Linear y SVM y redes neuronales y aprendizaje profundo?

Rajesh Dachiraju
fuente
37
Si lo encuentra, la gente lo hará.
Matthew Drury
23
"¿Por qué no se te ocurre ...?" ¡No creerías cuántos investigadores están ocupados tratando de hacer exactamente eso! Simplemente no han tenido éxito hasta ahora.
Kilian Foth
31
"Todos los modelos están equivocados pero algunos son útiles" y los nns son ciertamente útiles.
josh
15
@RajeshDachiraju: es un viejo modismo, pero quizás era un poco vago. Usted preguntó por qué no tirar NN porque no son perfectos. Mi respuesta es que no son perfectos, pero son ÚTILES. ¡La gente los usa para conducir automóviles, traducir idiomas extranjeros, etiquetar videos, conservar ballenas e incluso aplicar esos filtros de basura con orejas de perro a sus fotos! por ejemplo, funcionan, así que seguimos
usándolos
13
También sabes lo que está mal: la mecánica newtoniana. Mecánica cuántica. Relatividad. Toda la física está mal (no hay un solo modelo que describa todo, todos tienen sus defectos). La química está completamente equivocada con tantas cosas (describir un átomo siempre es solo una buena aproximación pero nunca exacta). Lo único exactamente cierto en el mundo son las matemáticas. Pura matemática. Todo lo demás se acerca a la respuesta correcta. ¿Deberíamos tirar el resto? (a partir de su computadora construida con leyes incorrectas). No. De nuevo: todos los modelos están equivocados, pero algunos son útiles.
Mayou36

Respuestas:

48
  1. No ser capaz de saber qué solución generaliza mejor es un problema, pero no debería disuadirnos de usar una buena solución. Los humanos mismos a menudo no saben qué generaliza mejor (considere, por ejemplo, las teorías unificadoras de la física que compiten), pero eso no nos causa demasiados problemas.

  2. Se ha demostrado que es extremadamente raro que la capacitación falle debido a los mínimos locales. La mayoría de los mínimos locales en una red neuronal profunda tienen un valor cercano al mínimo global, por lo que esto no es un problema. fuente

Pero la respuesta más amplia es que puedes hablar todo el día sobre la no convexidad y la selección de modelos, y las personas seguirán usando redes neuronales simplemente porque funcionan mejor que cualquier otra cosa (al menos en cosas como la clasificación de imágenes).

Por supuesto, también hay personas que argumentan que no deberíamos centrarnos demasiado en las CNN como la comunidad se centró en SVM hace unas décadas, y en su lugar seguir buscando la próxima gran cosa. En particular, creo recordar a Hinton lamentando la efectividad de las CNN como algo que podría dificultar la investigación. Publicación relacionada

shimao
fuente
1
Me gusta el último párrafo en particular.
Rajesh Dachiraju
10
¿Tiene una cita para el punto # 2?
DrMcCleod
@DrMcCleod: para mí, el punto 2 se parece más al jingoísmo. Solo en un sentido más ligero.
Rajesh Dachiraju
66
@DrMcCleod hay mucho trabajo que sugiere que los mínimos locales están muy cerca de los mínimos globales y que los puntos de silla son el problema. Vea este documento para una discusión de los puntos de referencia y este documento sobre por qué los mínimos locales no son necesariamente malos.
jld
1
Prefiero solo un teatro, espero. Pero supongamos que sé que disfrutaré casi cualquier película, casi tanto como la película que realmente quiero ver. Entonces no me decepcionaré cuando haya 10 teatros y tenga que elegir uno al azar, porque sé que cualquier teatro y película me dejarán satisfecho.
shimao
14

Como señalan los comentarios a su pregunta, hay muchas personas trabajando para encontrar algo mejor. Sin embargo, me gustaría responder a esta pregunta ampliando el comentario dejado por @josh


Todos los modelos están equivocados pero algunos son útiles (Wiki)

La afirmación anterior es una verdad general utilizada para describir la naturaleza de los modelos estadísticos. Con los datos que tenemos disponibles, podemos crear modelos que nos permitan hacer cosas útiles, como aproximar un valor pronosticado.

Tomemos por ejemplo la regresión lineal

Usando una serie de observaciones, podemos ajustar un modelo para darnos un valor aproximado para una variable dependiente dado cualquier valor para la variable o variables independientes.

Burnham, KP; Anderson, DR (2002), Model Selection and Multimodel> Inference: A Practical Information-Theoretic Approach (2nd ed.):

"Un modelo es una simplificación o aproximación de la realidad y, por lo tanto, no reflejará toda la realidad ... Box señaló que" todos los modelos están equivocados, pero algunos son útiles ". Si bien un modelo nunca puede ser" verdad ", un modelo podría ser clasificado de muy útil, a útil, a algo útil para, finalmente, esencialmente inútil ".

Las desviaciones de nuestro modelo (como se puede ver en la imagen de arriba) aparecen al azar, algunas observaciones están debajo de la línea y otras arriba, pero nuestra línea de regresión muestra una correlación general. Si bien las desviaciones en nuestro modelo parecen aleatorias, en escenarios realistas habrá otros factores en juego que causen esta desviación. Por ejemplo, imagine ver autos mientras conducen a través de un cruce donde deben girar a la izquierda o derecha para continuar, los autos no giran en ningún patrón en particular. Si bien podríamos decir que la dirección en la que giran los autos es completamente aleatoria, ¿llega cada conductor al cruce y en ese punto toma una decisión aleatoria sobre qué camino tomar? En realidad, probablemente se dirigen a un lugar específico por una razón específica, y sin intentar detener cada auto para preguntarles sobre su razonamiento, solo podemos describir sus acciones como aleatorias.

Cuando podamos ajustar un modelo con una desviación mínima, ¿qué tan seguros podemos estar de que una variable desconocida, inadvertida o inconmensurable no arrojará en algún momento nuestro modelo? ¿La aleta de las alas de una mariposa en Brasil desencadenó un tornado en Texas?

El problema con el uso de los modelos Lineal y SVN que usted menciona solo es que estamos obligados a observar manualmente nuestras variables y cómo se afectan entre sí. Luego necesitamos decidir qué variables son importantes y escribir un algoritmo específico de la tarea. Esto puede ser sencillo si solo tenemos unas pocas variables, pero ¿y si tuviéramos miles? ¿Qué pasaría si quisiéramos crear un modelo generalizado de reconocimiento de imágenes, podría lograrse esto de manera realista con este enfoque?

El aprendizaje profundo y las redes neuronales artificiales (ANN) pueden ayudarnos a crear modelos útiles para grandes conjuntos de datos que contienen grandes cantidades de variables (por ejemplo, bibliotecas de imágenes). Como mencionas, hay una cantidad incomprensible de soluciones que podrían ajustarse a los datos usando ANN, pero ¿es esta cifra realmente diferente a la cantidad de soluciones que necesitaríamos desarrollar a través de prueba y error?

La aplicación de ANN hace gran parte del trabajo por nosotros, podemos especificar nuestras entradas y nuestros resultados deseados (y ajustarlos más tarde para realizar mejoras) y dejar que ANN dependa de la solución. Esta es la razón por la cual las ANN a menudo se describen como "cajas negras" . A partir de una entrada dada, generan una aproximación, sin embargo (en términos generales) estas aproximaciones no incluyen detalles sobre cómo se aproximaron.

Entonces, realmente se reduce a qué problema está tratando de resolver, ya que el problema determinará qué enfoque modelo es más útil. Los modelos no son absolutamente precisos, por lo que siempre hay un elemento de estar 'equivocado'; sin embargo, cuanto más precisos sean los resultados, más útiles serán. Tener más detalles en los resultados sobre cómo se hizo la aproximación también puede ser útil, dependiendo del problema, incluso puede ser más útil que una mayor precisión.

Si, por ejemplo, está calculando el puntaje de crédito de una persona, el uso de regresión y SVM proporciona cálculos que pueden explorarse mejor. Es muy útil poder ajustar el modelo directamente y explicar a los clientes el efecto que tienen las variables independientes separadas en su puntaje general. Un ANN puede ayudar en el procesamiento de grandes cantidades de variables para lograr una puntuación más precisa, pero ¿sería más útil esta precisión?

Carrosivo
fuente
66
Usted hace algunos buenos puntos, pero el hecho de que "en muchos casos nuestras observaciones y predicciones no se ubicarán exactamente en la línea ajustada" no es una demostración adecuada del eslogan "todos los modelos están equivocados". En la regresión lineal, estamos modelando E (Y | X) y, por lo tanto, los puntos que no se encuentran exactamente en la línea no demuestran una deficiencia en nuestro modelo. La aleatoriedad es preespecificada y esperada; el modelo no está "equivocado" cuando observamos desviaciones de la línea ajustada.
klumbard
@klumbard Gracias por el comentario. He actualizado mi respuesta con más detalle, lo que explica mi razonamiento detrás de usar esto como ejemplo. Tomé un enfoque más filosófico en mi respuesta y hablé en términos más generales en lugar de específicos, esta es mi primera publicación en esta comunidad, así que me disculpo si este no es el lugar para hacerlo. Parece conocedor de los detalles, ¿podría explicar un poco más su comentario? La pregunta que tengo es, si las desviaciones no demuestran deficiencia, ¿un modelo de regresión con un R cuadrado de 0.01 tampoco está "equivocado"?
Carrosivo el
2
Mi único problema con tu publicación es la forma en que expresas "... ya que en muchos casos nuestras observaciones y predicciones no se ubicarán exactamente en la línea ajustada. Esta es una forma en que nuestro modelo a menudo está" equivocado "..." . Simplemente digo que la especificación del modelo incluye un término de error y, por lo tanto, el hecho (solo) de que los datos observados no caen en la línea ajustada no indica la "incorrección" del modelo. Esto puede parecer una sutil distinción semántica, pero creo que es importante
klumbard
1
El punto sobresaliente, que usted aborda, es que todos los modelos están equivocados debido al sesgo variable omitido, así como a la especificación errónea de la forma funcional. Cada vez que escribe un modelo de regresión y realiza inferencia en las estimaciones, asume que ha especificado correctamente el modelo, lo cual nunca es el caso.
klumbard
1
@klumbard Oh, ahora puedo ver de dónde vienes. Entonces, aunque el modelo produce estimaciones que es poco probable que sean completamente precisas, podemos medir el término de error para establecer cuánto pueden desviarse los valores reales de las estimaciones, y por lo tanto sería incorrecto decir que el modelo es inherentemente incorrecto. Tomaré esa parte de mi respuesta, creo que mi punto se explica mejor en la parte que agregué después. Gracias por explicar :)
Carrosive
8

El mínimo global puede ser inútil, por lo que no nos importa si lo encontramos o no. La razón es que, para redes profundas, no solo el tiempo para encontrarlo se vuelve exponencialmente más largo a medida que aumenta el tamaño de la red, sino que también el mínimo global a menudo corresponde a sobreajustar el conjunto de entrenamiento. Por lo tanto, la capacidad de generalización del DNN (que es lo que realmente nos importa) sufriría. Además, a menudo preferimos mínimos más planos que corresponden a un valor más alto de la función de pérdida, que mínimos más agudos que corresponden a un valor más bajo de la función de pérdida, porque el segundo tratará muy mal con la incertidumbre en las entradas. Esto se vuelve cada vez más claro con el desarrollo del aprendizaje profundo bayesiano. La optimización robusta supera a la optimización determinista con mucha frecuencia, cuando se aplica a problemas del mundo real donde la incertidumbre es importante.

Finalmente, es un hecho que los DNN simplemente patean el culo de métodos como XGBoost en la clasificación de imágenes y PNL. Una empresa que debe obtener beneficios de la clasificación de imágenes los seleccionará correctamente como modelos para implementar en producción ( e invertirá una cantidad significativa de dinero en ingeniería de características, canalización de datos, etc., pero estoy divagando). Esto no significa que dominen todo el entorno de ML: por ejemplo, les va peor que XGBoost en datos estructurados (ver los últimos ganadores de las competencias de Kaggle) y parece que aún no funcionan tan bien como los filtros de partículas en el modelado de series de tiempo. Sin embargo, algunas innovaciones muy recientes en RNN pueden modificar esta situación.

DeltaIV
fuente
2
De Verdad? ¿Un voto negativo? Eso es un poco innecesario. Es una respuesta razonable (+1).
usεr11852 dice Reinstate Monic el
55
@RajeshDachiraju, ya que aparentemente estás tratando de inferir lo que yo sabría o no, probablemente te interesaría saber que las personas con una comprensión mucho mayor de las redes neuronales y la optimización no convexa que pareces tener, hablan de forma rutinaria un mínimo global único para redes neuronales. Entre la gran cantidad de documentos que utilizan esta terminología, podría intentar leer este y ver si comprende dónde se equivoca.
DeltaIV
2
@RajeshDachiraju: Gracias por explicar su razonamiento, muchas personas simplemente no se molestarían. Dicho esto, creo que su razonamiento es erróneo y se debe a una interpretación errónea de una frase muy particular. Estoy de acuerdo con DeltaIV en que esta terminología estándar.
usεr11852 dice Reinstate Monic el
1
@DeltaIV: Mi punto es que podría haber múltiples vectores de peso que tienen 0 pérdidas en los datos de entrenamiento (por supuesto, manteniendo constante la arquitectura). Todo el punto de entrenamiento es obtener el vector de peso inst it? Así que no estoy de acuerdo contigo. Uno de estos vectores de peso es extremadamente útil. Pero solicito aceptar estar en desacuerdo y terminar esta conversación aquí. Saludos Rajesh
Rajesh Dachiraju 01 de
1
7

Creo que la mejor manera de pensar sobre esta pregunta es a través del mercado competitivo. Si abandonas el aprendizaje profundo y tus competidores lo usan, Y resulta que funciona mejor que lo que usaste, entonces serás derrotado en el mercado.

Creo que eso es lo que está sucediendo, en parte, hoy, es decir, el aprendizaje profundo parece funcionar mejor que nada para la gran cantidad de problemas en el mercado. Por ejemplo, los traductores de idiomas en línea que utilizan el aprendizaje profundo son mejores que los enfoques puramente lingüísticos que se utilizaron anteriormente. Hace solo unos años, este no era el caso, pero los avances en el aprendizaje profundo llevaron a quienes solían ocupar puestos de liderazgo en el mercado.

Sigo repitiendo "el mercado" porque eso es lo que está impulsando el aumento actual en el aprendizaje profundo. En el momento en que los negocios encuentren algo útil, ese algo se extenderá ampliamente. No es que nosotros , el comité, hayamos decidido que el aprendizaje profundo debería ser popular. Es negocio y competencia.

La segunda parte, es que además del éxito real de ML, también existe el temor de perder el barco. Muchas empresas son paranoicas porque si se pierden la inteligencia artificial, fracasarán como empresas. Este temor está siendo alimentado por todas estas casas de consultoría, Gartners , etc., susurrando a los CEO que deben hacer IA o morir mañana.

Nadie obliga a las empresas a utilizar el aprendizaje profundo. TI e I + D están entusiasmados con un nuevo juguete. La academia anima, por lo que esta fiesta va a durar hasta que la música se detenga, es decir, hasta que el aprendizaje profundo deje de funcionar. Mientras tanto, puede volcarlo y encontrar una mejor solución.

Aksakal
fuente
¿Qué pasa con la financiación de la investigación académica? ¿Puedes arrojar algo de luz sobre esto?
Rajesh Dachiraju
2
Una gran cantidad de fondos proviene de la industria. Los profesores que obtienen más dinero de la industria son los que tienen más influencia en la academia. Las universidades les quitan una gran cantidad de dinero que obtienen de las empresas, por lo que aman a estos profesores. Si lees este artículo del NYT, puedes hacerte una idea del frenesí tanto en la academia como en la industria
Aksakal
Muy buena referencia al mercado (+1): dije lo mismo ("Una empresa que debe obtener un beneficio de la clasificación de imágenes los seleccionará correctamente como modelos para implementar en producción"). Sin embargo, estaría ligeramente en desacuerdo con la paranoia. Es un hecho (no paranoia) que Waymo está listo para vencer a Tesla, Audi y otro fabricante de automóviles cuyo nombre no recuerdo ahora, y esto se debe en gran parte a las enormes inversiones de Google en Deep Learning. Audi definitivamente podría haber usado SIFT y SURF (tecnologías de visión por computadora bien probadas que de ninguna manera están relacionadas con el aprendizaje profundo), si ...
DeltaIV
...querido. La superioridad de DL con respecto a SIFT, SURF y otros métodos basados ​​en geometría, cuando se trata de clasificación de imágenes, es un hecho atestiguado por cinco años de sólida investigación académica e industrial. Definitivamente no es una panacea (ver las fallas de IBM Watson), y hay algo de exageración, pero también hay hechos duros y fríos.
DeltaIV
2
@DeltaIV ML definitivamente funciona en algunas aplicaciones, pero creo que la adopción generalizada de la actualidad se debe en gran medida a la paranoia y al bombo publicitario. Ya sea que esté funcionando o no, los CTO simplemente lo están buscando. Tengo amigos que no tenían idea de lo que estaba hablando hace solo un año, ahora dicen que la IA es el futuro, comenzarán implementaciones, etc.
Aksakal
4

Hay excelentes respuestas, en su mayoría con la utilidad de DL y ANN. Pero me gustaría objetar el OP de una manera más fundamental, ya que la pregunta ya da por sentada la inconsistencia matemática de las redes neuronales.

En primer lugar, no es una teoría matemática detrás (la mayoría de los modelos de) Redes Neuronales. También podría argumentar que la regresión lineal no se generaliza, a menos que el modelo subyacente sea ... bueno, lineal. En algoritmos neuronales, se supone un modelo (incluso si no es explícitamente) y se calcula el error de ajuste. El hecho de que los algoritmos se modifiquen con diversas heurísticas no anula el soporte matemático original. Por cierto, la optimización local también es una teoría matemáticamente consistente, y mucho menos útil.

En esta línea, si las redes neuronales solo constituyen una clase de métodos dentro de toda la caja de herramientas de los científicos, ¿cuál es la línea que separa las redes neuronales del resto de técnicas? De hecho, los SVM alguna vez se consideraron una clase de NN y todavía aparecen en los mismos libros. Por otro lado, los NN podrían considerarse como una técnica de regresión (no lineal), quizás con alguna simplificación. Estoy de acuerdo con el OP en que debemos buscar algoritmos mejores, bien fundados y eficientes, independientemente de que los etiquete como NN o no.

Miguel
fuente
El problema con ser inconsistente es que, uno no puede hacer preguntas simples como, ¿cuándo debería dejar de entrenar y darse por vencido? También muchos rumores como 'Dropot', 'pérdida de peso', 'ReLu' y varias activaciones, normalización de lotes, agrupación máxima, softmax, paradas tempranas, diversos horarios de aprendizaje y todas las permutaciones y combinaciones de estos hacen que el diseñador siempre tenga dudas si rendirse o no en algún momento.
Rajesh Dachiraju
1
@RajeshDachiraju Lo mismo podría decirse sobre los coeficientes de penalización en los algoritmos de optimización de punto exterior, o el tamaño del paso en los métodos Runge-Kutta. La palabra "inconsistente" tiene un significado preciso en la ciencia que no se aplica aquí.
Miguel
0

Supongo que por algún problema nos preocupamos menos por el rigor matemático y la simplicidad, pero más por su utilidad, el estado actual es que la red neuronal es mejor para realizar ciertas tareas como el reconocimiento de patrones en el procesamiento de imágenes.

Lirio largo
fuente
0

Hay mucho en esta pregunta. Repasemos lo que ha escrito uno por uno.

Las soluciones que se ajustan a los datos de entrenamiento son infinitas. No tenemos una ecuación matemática precisa que se satisfaga con una sola y que podamos decir que generaliza mejor.

El hecho de que haya infinitas soluciones proviene de que el problema de aprendizaje es un problema mal planteado, por lo que no puede haber una sola que generalice mejor. Además, sin un teorema de almuerzo gratis, cualquiera que sea el método que usemos no puede garantizar que sea el mejor en todos los problemas de aprendizaje.

Simplemente hablando, no sabemos cuál generaliza mejor.

Esta afirmación no es realmente cierta. Existen teoremas sobre la minimización empírica del riesgo por Vapnik y Chervonenkis que conectan el número de muestras, la dimensión VC del método de aprendizaje y el error de generalización. Tenga en cuenta que esto solo se aplica a un conjunto de datos determinado. Entonces, dado un conjunto de datos y un procedimiento de aprendizaje, conocemos los límites de la generalización. Tenga en cuenta que, para diferentes conjuntos de datos, no hay y no puede ser el mejor procedimiento de aprendizaje debido al teorema de almuerzo gratuito.

La optimización de los pesos no es un problema convexo, por lo que nunca sabemos que terminamos con un mínimo global o local. Entonces, ¿por qué no simplemente volcar las redes neuronales y en su lugar buscar un mejor modelo de ML?

Aquí hay algunas cosas que debe tener en cuenta. La optimización del problema no convexo no es tan fácil como el convexo; eso es verdad. Sin embargo, la clase de métodos de aprendizaje que son convexos es limitada (regresión lineal, SVM) y, en la práctica, funcionan peor que la clase de los no convexos (impulso, CNN) en una variedad de problemas. Entonces, la parte crucial es que, en la práctica, las redes neuronales funcionan mejor. Aunque hay una serie de elementos muy importantes que hacen que las redes neuronales funcionen bien:

  1. Se pueden aplicar en conjuntos de datos muy grandes debido al descenso de gradiente estocástico.
  2. A diferencia de los SVM, la inferencia con redes profundas no depende del conjunto de datos. Esto hace que las redes neuronales sean eficientes en el momento de la prueba.
  3. Con las redes neuronales es posible controlar directamente su capacidad de aprendizaje (piense en el número de parámetros) simplemente agregando más capas o haciéndolas más grandes. Esto es crucial ya que para diferentes conjuntos de datos es posible que desee modelos más grandes o más pequeños.

¿Algo que comprendamos y que sea consistente con un conjunto de ecuaciones matemáticas? Lineal y SVM no tienen estos inconvenientes matemáticos y son completamente consistentes con un conjunto de ecuaciones matemáticas. ¿Por qué no simplemente pensar en las mismas líneas (aunque no es necesario que sea lineal) y crear un nuevo modelo de ML mejor que Linear y SVM y redes neuronales y aprendizaje profundo?

Tirar cosas que funcionan por no entenderlas no es una gran dirección de investigación. Hacer un esfuerzo para comprenderlos es, por otro lado, una gran dirección de investigación. Además, no estoy de acuerdo con que las redes neuronales sean inconsistentes con las ecuaciones matemáticas. Son bastante consistentes. Sabemos cómo optimizarlos y realizar inferencias.

Gnattuha
fuente
-2

¿Qué tal ver redes neuronales desde un punto de vista experimental? El hecho de que los hayamos creado no significa que estamos obligados a comprenderlos intuitivamente. O que no se nos permite jugar con ellos para comprender mejor lo que están haciendo.

Aquí hay un par de pensamientos que tengo sobre ellos:

  • Estructura: son jerarquías. Son como árboles que comparten entradas. Las raíces son las entradas y las hojas son la capa de salida. Cuanto más cerca está la capa de las salidas, más relevante es para ellas, mayor es el nivel de abstracción que contiene (se trata más de la imagen que de los píxeles).
  • Funcionalidad: "juegan" con los datos, el modus operandi es experimentar con las relaciones en las neuronas (pesos) hasta que las cosas "hagan clic" (el margen de error es aceptable).

Esto es consistente con cómo pensamos. Incluso es coherente con el funcionamiento del método científico. Entonces, al descifrar las redes neuronales también podemos resolver la pregunta general de qué conocimiento representa.

ROBERTO EDWINS
fuente
-3

No olvide que hay un vasto campo de investigación que utiliza LM, GLM, modelado multinivel. Últimamente, las técnicas bayesianas y el hamiltoniano Monte Carlo (la comunidad de STAN está realmente a la vanguardia de esto) han alcanzado la mayoría de edad y una serie de problemas que STAN resuelve con mucha facilidad y que realmente no necesitan NN o redes profundas. Investigación en Ciencias Sociales, Microeconomía son dos ejemplos (grandes) de tales campos que adoptan a Stan rápidamente.

Los modelos Stan son muy "legibles". Los coeficientes en realidad tienen una interpretación distributiva posterior y también las predicciones. Los anteriores son parte del proceso de generación de datos y no necesitan ser conjugados para ser efectivos (como gibbs). El ajuste del modelo en Stan es una delicia, en realidad ajusta los molestos params MCMC automáticamente bastante bien y te advierte cuando la exploración se atasca con visualizaciones realmente agradables.

Si aún no lo ha probado, vea impresionantes demostraciones de stan aquí ).

Al final del día, creo que la gente no habla tanto de estas cosas porque la investigación en este campo y los problemas no son tan "sexy" / "cool" como con las NN.

Sid
fuente
-5

Lo que suele ocurrir cuando no hay consistencia matemática (al menos en este caso de redes neuronales) ... cuando no está dando los resultados deseados, en el conjunto de prueba, su jefe volverá y dirá ... Oye, ¿por qué no? intente Abandonar (qué pesos, qué capa, cuántos son sus dolores de cabeza, ya que no hay una forma matemática de determinar), así que después de intentarlo y, con suerte, obtendrá una mejora marginal pero no la deseada, su jefe volverá y dirá por qué No intente la pérdida de peso (¿qué factor?) y más tarde, ¿por qué no prueba ReLU o alguna otra activación en algunas capas, y aún no lo hace, por qué no prueba la 'agrupación máxima'? todavía no, por qué no prueba la normalización por lotes, todavía no, o al menos convergencia, pero no el resultado deseado, Oh, usted está en un mínimo local, pruebe diferentes horarios de aprendizaje, solo cambia la arquitectura de la red? y repite todo lo anterior en diferentes combinaciones! ¡Manténgalo al tanto hasta que tenga éxito!

Por otro lado, cuando intentas un SVM consistente, después de la convergencia, si el resultado no es bueno, entonces está bien, el núcleo lineal que estamos usando no es lo suficientemente bueno, ya que los datos pueden no ser lineales, usa un núcleo con forma diferente, prueba un núcleo de forma diferente si tiene alguna corazonada, si aún no lo tiene, simplemente déjelo, es una limitación de SVM.

Lo que digo es que las redes neuronales son tan inconsistentes que ni siquiera están equivocadas. ¡Nunca acepta su derrota! El ingeniero / diseñador toma la carga, en caso de que no funcione como se desea.

Rajesh Dachiraju
fuente
3
Esto no me parece que contenga una respuesta a su propia pregunta. ¿Crees que podrías editarlo para que suene menos como una diatriba y dejar en claro de qué manera esto explica por qué las redes neuronales y el aprendizaje profundo pueden ser más útiles que un modelo ML (que parece ser tu pregunta original)?
Silverfish
1
Su punto es que con SVM sabemos cuándo lo hemos hecho tan bien como podemos, pero con NN no podemos saberlo. Podría decirse que, dada la facilidad con la que se engaña DL, incluso las métricas como el error no nos dicen qué tan bien está funcionando realmente el modelo.
Yters
1
@yters, sí, pero el comentario de silverfish fue que esta no es una respuesta a por qué no volcar DL. Está más cerca de una reformulación de la pregunta. Sugeriría fusionarlo con la pregunta.
P.Windridge