La copia exacta del código de la máquina funciona un 50% más lento que la función original

He estado experimentando un poco con la ejecución desde RAM y memoria flash en sistemas integrados. Para la creación rápida de prototipos y pruebas, actualmente estoy usando un Arduino Due (SAM3X8E ARM Cortex-M3). Hasta donde puedo ver, el tiempo de ejecución Arduino y el gestor de arranque no...