Digamos que tengo una arquitectura de modelo de aprendizaje profundo, así como un tamaño de mini lote elegido. ¿Cómo obtengo de estos los requisitos de memoria esperados para entrenar ese modelo?
Como ejemplo, considere un modelo (no recurrente) con entrada de dimensión 1000, 4 capas ocultas completamente conectadas de dimensión 100 y una capa de salida adicional de dimensión 10. El tamaño del mini lote es de 256 ejemplos. ¿Cómo se determina la huella aproximada de memoria (RAM) del proceso de entrenamiento en la CPU y en la GPU? Si hace alguna diferencia, supongamos que el modelo está entrenado en una GPU con TensorFlow (usando cuDNN).
fuente