Mientras entrena modelos en aprendizaje automático, ¿por qué a veces es ventajoso mantener el tamaño del lote a una potencia de 2? Pensé que sería mejor usar un tamaño que sea el más grande en la memoria / RAM de tu GPU.
Esta respuesta afirma que para algunos paquetes, una potencia de 2 es mejor como tamaño de lote. ¿Alguien puede proporcionar una explicación detallada / enlace a una explicación detallada de esto? ¿Es esto cierto para todos los algoritmos de optimización (descenso de gradiente, retropropagación, etc.) o solo para algunos de ellos?
fuente