Dos puntos:
- La deserción también se suele comparar con los conjuntos de redes neuronales. Parece que tiene algunos de los beneficios de rendimiento del entrenamiento y el promedio de varias redes neuronales.
- La deserción es más fácil de calibrar que la regularización. Solo hay un hiperparámetro que es la tasa de deserción y la gente usa ampliamente 0.5 durante el entrenamiento (y luego 1.0 en la evaluación, por supuesto :)), vea, por ejemplo, este ejemplo de TensorFlow .
De todos modos, soy un poco escéptico de los estudios empíricos de redes neuronales. Hay demasiados hiperparámetros para ajustar, desde la topología de la red hasta el procedimiento de optimización de descenso de gradiente y las funciones de activación y lo que sea que esté probando como regularización. Entonces, todo es estocástico y, por lo general, las ganancias de rendimiento son tan pequeñas que apenas se pueden realizar pruebas estadísticas de las diferencias. Muchos autores ni siquiera se molestan en hacer pruebas estadísticas. Simplemente promedian la validación cruzada y declaran que cualquier modelo que tenga la mayor ganancia de punto decimal para ser el ganador.
Puede encontrar un estudio que promueva el abandono escolar solo para ser contradicho por otro que promueva la regularización.
Creo que todo se reduce a preferencias estéticas. El abandono en mi humilde opinión suena más plausible biológico que la regularización. También parece más fácil de calibrar. Por lo tanto, personalmente lo prefiero cuando uso un marco como TensorFlow. Si tenemos que usar nuestra propia red neuronal, que a menudo hacemos, usaremos la regularización porque fue más fácil de implementar.