El circuito de sondeo más rápido: ¿cómo puedo recortar 1 ciclo de CPU?

En una aplicación en tiempo real¹ en un ARM Cortex M3 (similar a STM32F101), necesito sondear un poco del registro de un periférico interno hasta que sea cero, en un bucle lo más ajustado posible. Utilizo bandas de bits para acceder al bit apropiado. El código C (de trabajo) es while (*(volatile...