He visto algunos artículos de investigación que afirman que las redes neuronales clásicas generalmente carecen de una capacidad de generalización satisfactoria, lo que generalmente da como resultado predicciones imprecisas, y las ANNs regularizadas bayesianas (BRANN) son más robustas que las redes estándar de propagación inversa y pueden reducir o eliminar el necesidad de una larga validación cruzada.
Sin embargo, estos artículos no dan el razonamiento / justificación adecuados para esta afirmación.
¿De qué maneras , o para qué fines particulares, las BRANN son mejores que las NN clásicas? ¿Y por qué?
El problema clave con las redes neuronales tiende a evitar el sobreajuste. La regularización bayesiana (que restringe la magnitud de los pesos) es un enfoque para esto, la estabilización estructural (es decir, restringir el número de nodos ocultos y / o pesos es otro). Ninguno de los dos enfoques es una panacea, y generalmente una combinación de regularización y estabilización estructural es mejor (lo que significa que necesita una validación cruzada nuevamente para seleccionar la arquitectura de red; usar la evidencia bayesiana para esto es una mala idea ya que la evidencia está sesgada como resultado de su uso en el ajuste de los parámetros de regularización y poco confiable si hay alguna especificación errónea del modelo). Lo que funciona mejor depende esencialmente del problema, y la mejor manera de averiguarlo es probar ambos y ver (usar, por ejemplo, validación cruzada para estimar el rendimiento de manera imparcial).
Además, la regularización no tiene que ser bayesiana, puede elegir cuánto regularizar la red mediante la validación cruzada. Uno de los problemas con los métodos bayesianos es que pueden dar malos resultados si el modelo no se especifica correctamente, en cuyo caso los métodos de regularización basados en validación cruzada pueden ser más sólidos.
Otro punto importante es que no todas las formulaciones de redes neuronales bayesianas son iguales. El marco de evidencia de MacKay tiende a no funcionar bien para problemas de clasificación, ya que la aproximación de Laplace que utiliza no funciona muy bien para distribuciones posteriores sesgadas para los pesos. Es probable que el enfoque MCMC de Radford Neal funcione mejor para estas tareas, pero es computacionalmente costoso y evaluar la convergencia, etc., no es tan sencillo.
Sin embargo, los modelos de redes neuronales son bastante complicados de entender y, en la práctica, es más fácil obtener un buen rendimiento de generalización de los métodos del núcleo o procesos gaussianos, por lo que los usaría en su lugar para la mayoría de las tareas, especialmente si hay relativamente pocos datos de entrenamiento.
Hice un estudio empírico muy extenso sobre esto recientemente, pero necesito encontrar una revista que acepte estudios empíricos de interés para los profesionales, pero con muy poco contenido nuevo de investigación.
¿Cómo quiere decir que "la evidencia está sesgada como resultado de su uso para ajustar los parámetros de regularización"? Esos parámetros, generalmenteα y βen la notación de Bishop, se ponen a mano, en función de la precisión estimada de los datos y las creencias sobre los pesos del modelo.
Ytsen de Boer
@YtsendeBoer La evidencia (probabilidad marginal) se evalúa a través de un conjunto finito de datos, por lo que su valor depende de la muestra en particular, y tal tiene un componente que es esencialmente solo ruido. Si ajusta el modelo optimizando la evidencia, parte de la mejora aparente se debe al ajuste del ruido en la probabilidad marginal, así como a los cambios que realmente mejoran el rendimiento. Por lo tanto, después de la optimización, la evidencia ofrece una visión optimista sobre el rendimiento real del modelo y, por lo tanto, no es una buena guía para, por ejemplo, la optimización de la estructura posterior.
Dikran Marsupial
Parece sugerir que ajustar el modelo optimizando la evidencia conduce a un sobreajuste, por lo tanto, la regularización bayesiana no funciona. Pero el modelo debe ajustarse optimizando las posibilidades de tiempo antes de los pesos del modelo (manteniendoα y βfijo). Después de eso, se puede elegir el mejor modelo evaluando sus evidencias. Me parece que solo se introduce un sesgo una vez que se optimiza la evidencia para encontrar el antecedente más "apropiado" para los pesos del modelo, o peor aún, los datos. Estoy de acuerdo en que un modelo elegido de esta manera no es confiable y debe verificarse con nuevos datos.
Ytsen de Boer
Si mantiene el a l p h a y b e t aconstante, no es la regularización bayesiana, solo la regularización. Si elige el mejor modelo de acuerdo con la evidencia, entonces eso es optimizar la evidencia e introduce la posibilidad de sobreajustar el criterio de selección del modelo. No estoy diciendo que la regularización bayesiana (es decir, el marco de evidencia de MacKay) no funciona, hasta cierto punto, pero es probable que falle si hay muy pocos datos o demasiados hiperparámetros (por ejemplo, ARD). La optimización / ajuste excesivo de la evidencia puede causar un ajuste excesivo o insuficiente de los datos.
Dikran Marsupial
4
Utiliza BRANN para los mismos fines que los ANN normales, generalmente clasificación y regresión. Como dice Dikran Marsupial, son mejores porque son más robustos contra el sobreajuste, y le permite trabajar con un mayor número de neuronas sin encontrarse con un sobreajuste. Además, le proporciona barras de error en las salidas, es decir, tiene una medida de la confianza de cada una de las salidas.
Sin embargo, las nuevas técnicas como el abandono y el maxout parecen haber anulado esta técnica, tanto porque son más fáciles de usar y producen mejores resultados. Aquí se muestra que la deserción realiza escalado y regularización en cierto sentido.
Aún así, si está interesado en los detalles, puede consultar los documentos por David MacKay (el tipo que ganó algunas competiciones con esta técnica).
Utiliza BRANN para los mismos fines que los ANN normales, generalmente clasificación y regresión. Como dice Dikran Marsupial, son mejores porque son más robustos contra el sobreajuste, y le permite trabajar con un mayor número de neuronas sin encontrarse con un sobreajuste. Además, le proporciona barras de error en las salidas, es decir, tiene una medida de la confianza de cada una de las salidas.
Sin embargo, las nuevas técnicas como el abandono y el maxout parecen haber anulado esta técnica, tanto porque son más fáciles de usar y producen mejores resultados. Aquí se muestra que la deserción realiza escalado y regularización en cierto sentido.
Aún así, si está interesado en los detalles, puede consultar los documentos por David MacKay (el tipo que ganó algunas competiciones con esta técnica).
fuente