¿Cuál es la diferencia entre el "aprendizaje profundo" y el modelado multinivel / jerárquico?

31

¿Es "aprendizaje profundo" solo otro término para el modelado multinivel / jerárquico?

Estoy mucho más familiarizado con este último que con el primero, pero por lo que puedo decir, la diferencia principal no está en su definición, sino en cómo se usan y evalúan dentro del dominio de su aplicación.

Parece que el número de nodos en una aplicación típica de "aprendizaje profundo" es mayor y usa una forma jerárquica genérica, mientras que las aplicaciones de modelado multinivel generalmente usan relaciones jerárquicas que imitan el proceso generativo que se está modelando. El uso de una jerarquía genérica en un dominio de estadística aplicada (modelado jerárquico) se consideraría como un modelo "incorrecto" de los fenómenos, mientras que modelar una jerarquía específica de dominio podría subvertir el objetivo de hacer una máquina genérica de aprendizaje profundo.

¿Son estas dos cosas realmente la misma maquinaria bajo dos nombres diferentes, utilizados de dos maneras diferentes?

usuario4733
fuente

Respuestas:

38

Semejanza

Básicamente, ambos tipos de algoritmos se desarrollaron para responder una pregunta general en aplicaciones de aprendizaje automático:

Dados los predictores (factores) : ¿cómo incorporar las interacciones entre estos factores para aumentar el rendimiento?x1,x2,,xp

Una forma es simplemente introducir nuevos predictores: Pero esto demuestra ser una mala idea debido a la gran cantidad de parámetros y el tipo muy específico de interacciones.xp+1=x1x2,xp+2=x1x3,

Tanto el modelado multinivel como los algoritmos de aprendizaje profundo responden esta pregunta al presentar un modelo de interacciones mucho más inteligente. Y desde este punto de vista son muy similares.

Diferencia

Ahora déjame tratar de dar mi comprensión sobre cuál es la gran diferencia conceptual entre ellos. Para dar una explicación, veamos los supuestos que hacemos en cada uno de los modelos:

Modelado multinivel: capas que reflejan la estructura de datos se pueden representar como una red jerárquica bayesiana . Esta red es fija y generalmente proviene de aplicaciones de dominio.1

Aprendizaje profundo: los datos fueron generados por las interacciones de muchos factores. Se desconoce la estructura de las interacciones, pero se puede representar como una factorización en capas: las interacciones de nivel superior se obtienen transformando las representaciones de nivel inferior.2

La diferencia fundamental proviene de la frase "la estructura de las interacciones no se conoce" en Deep Learning. Podemos asumir algunos antecedentes sobre el tipo de interacción, pero el algoritmo define todas las interacciones durante el procedimiento de aprendizaje. Por otro lado, tenemos que definir la estructura de interacciones para el modelado multinivel (luego aprendemos a variar los parámetros del modelo).

Ejemplos

Por ejemplo, supongamos que se nos dan tres factores y definimos y como capas diferentes. { x 1 } { x 2 , x 3 }x1,x2,x3{x1}{x2,x3}

En la regresión de modelado multinivel, por ejemplo, obtendremos las interacciones y , pero nunca obtendremos la interacción . Por supuesto, en parte los resultados se verán afectados por la correlación de los errores, pero esto no es tan importante para el ejemplo.x 1 x 3 x 2 x 3x1x2x1x3x2x3

En el aprendizaje profundo, por ejemplo, en máquinas de Boltzmann restringido multicapa ( RBM ) con dos capas ocultas y función de activación lineal, tendremos todas las posibles interacciones polinomiales con un grado menor o igual a tres.

Ventajas y desventajas comunes

Modelado multinivel

(-) necesidad de definir la estructura de interacciones

(+) los resultados suelen ser más fáciles de interpretar

(+) puede aplicar métodos estadísticos (evaluar intervalos de confianza, verificar hipótesis)

Aprendizaje profundo

(-) requiere una gran cantidad de datos para entrenar (y también tiempo para entrenar)

(-) los resultados generalmente son imposibles de interpretar (siempre como un cuadro negro)

(+) no se requiere conocimiento experto

(+) una vez bien entrenado, generalmente supera a la mayoría de los otros métodos generales (no específicos de la aplicación)

¡Espero que ayude!

Dmitry Laptev
fuente
¿Por qué una red neuronal profunda requiere una gran cantidad de datos para entrenar? No he oído hablar de esto antes.
Jase
1
@Jase Las redes neuronales generalmente tienen muchos parámetros, por lo tanto, en muchos casos, si usa un conjunto de datos pequeño, probablemente se sobreajustará. Por supuesto, todo depende de la tarea, pero la mayoría de los resultados NN más impresionantes en la actualidad utilizan conjuntos de datos extremadamente grandes.
Dmitry Laptev
Estuve de acuerdo en que los resultados impresionantes están en grandes conjuntos de datos, pero no estoy seguro de que no podamos usar el abandono y otros trucos para lograr que se generalice bien a partir de pequeños conjuntos de datos.
Jase
1
@Jase Claro, hay diferentes heurísticas que puedes usar. Pero según mi experiencia con el procesamiento de imágenes, casi todos introducen cierta regularización, que es básicamente equivalente a introducir algunos prejuicios anteriores y, por lo tanto, sesgos. Que no siempre es lo que quieres.
Dmitry Laptev
Presumiblemente, no necesita definir la estructura de las interacciones si usa elementos no paramétricos, por ejemplo, un Dirichlet jerárquico antes.
Astrid
2

Si bien esta pregunta / respuesta ha estado disponible por un tiempo, pensé que podría ser útil aclarar algunos puntos en la respuesta. Primero, la frase planteada como una distinción principal entre los métodos jerárquicos y las redes neuronales profundas 'Esta red es fija' Es incorrecto. Los métodos jerárquicos no son más 'fijos' que las redes neuronales alternativas. Véase, por ejemplo, el documento Deep Learning with Hierarchical Convolutional Factor Analysis, Chen et. Alabama.. Creo que también encontrará que el requisito de definir interacciones ya no es un punto distintivo. Un par de puntos que no figuran como una ventaja con el modelado jerárquico es, desde mi experiencia, el problema significativamente reducido de sobreajuste y la capacidad de manejar conjuntos de entrenamiento muy grandes y muy pequeños. Un punto clave es que cuando se utilizan métodos jerárquicos bayesianos, los intervalos de confianza y las pruebas de hipótesis generalmente no son métodos estadísticos que se aplicarían.

Aengus
fuente