¿Por qué las personas no usan RBF más profundos o RBF en combinación con MLP?

12

Entonces, al mirar las redes neuronales de la función de base radial, me di cuenta de que las personas solo recomiendan el uso de 1 capa oculta, mientras que con las redes neuronales de perceptrón multicapa, más capas se consideran mejores.

Dado que las redes RBF se pueden entrenar con la versión de propagación inversa, ¿hay alguna razón por la cual las redes RBF más profundas no funcionarían, o que una capa RBF no se pudiera usar como penúltima o primera capa en una red MLP profunda? (Estaba pensando en la penúltima capa, por lo que esencialmente podría ser entrenado en las características aprendidas por las capas MLP anteriores)

usuario1646196
fuente
No soy un experto en NN, pero mi impresión es que con las NN de alimentación estándar, las capas ocultas múltiples generalmente no agregan mucho.
gung - Restablece a Monica
1
Eso fue en los primeros días de la investigación de NN, sin embargo, ahora más capas suele ser la receta para un mayor rendimiento (aprendizaje profundo). Creo que el enfoque favorito actual es una inicialización inteligente, tantas capas como sea posible, regularización mediante abandono y softmax en lugar de activaciones sigmoidales para evitar la saturación. (Pero puedo estar equivocado en las técnicas). Creo que algunas personas también usan la profundización iterativa para obtener mejores resultados. Además, Google obtuvo el estado del arte en imageNet en 2014 con una red de 100 capas.
user1646196

Respuestas:

4

El problema fundamental es que los RBF son a) demasiado no lineales, b) no reducen las dimensiones.

debido a a) los RBF siempre fueron entrenados por k-medios en lugar de gradiente de descenso.

Yo diría que el principal éxito en Deep NNs son las redes, donde una de las partes clave es la reducción de dimensiones: aunque trabajando con digamos 128x128x3 = 50,000 entradas, cada neurona tiene un campo receptivo restringido, y hay muchas menos neuronas en cada capa En una capa dada en un MLP, cada neurona representa una característica / dimensión), por lo que reduce constantemente la dimensionalidad (al pasar de una capa a otra).

Aunque uno podría hacer que la matriz de covarianza RBF sea adaptativa y también la reducción de dimensiones, esto hace que sea aún más difícil de entrenar.

seanv507
fuente
Hace poco leí un artículo que proponía un algoritmo de retropropagación para entrenar redes RBF. Dado esto, ¿podría ser un beneficio tener un RBF como capa final en una red profunda? Supongo que de esta forma el resto de la red profunda estaría esencialmente detectando características que el RBF puede clasificar
user1646196
tal vez deberías enlazar al documento y luego la gente puede dar respuestas más informadas. No veo ningún beneficio ... dado que el RBF es demasiado no lineal (y, por ejemplo, los sigmoides han sido reemplazados por relu porque eran un gradiente de desaparición demasiado no lineal ...). Lo que la gente hace es entrenar con red de conv con mlp estándar en la parte superior, luego tirar mlp y usar svm
seanv507
El documento es "Capacitación de redes RBF con retropropagación selectiva", no estoy seguro si puede leerlo aquí o si hay un muro de pago sciencedirect.com/science/article/pii/S0925231203005411 . No sabía que los sigmoides habían sido reemplazados por relu debido a la no linealidad, pero dado que puedo ver cómo se evitaría el aumento de la no linealidad.
Marcaré