Corrección de precisión de reloj distribuido normalmente

10

Tengo un experimento que se ejecuta en cientos de computadoras distribuidas por todo el mundo que mide las ocurrencias de ciertos eventos. Los eventos dependen el uno del otro para que pueda ordenarlos en orden creciente y luego calcular la diferencia horaria.

Los eventos deben estar distribuidos exponencialmente, pero al trazar un histograma esto es lo que obtengo:

Histograma de eventos.

La imprecisión de los relojes en las computadoras hace que a algunos de los eventos se les asigne una marca de tiempo anterior a la del evento del que dependen.

Me pregunto si se puede culpar a la sincronización del reloj por el hecho de que el pico del PDF no está en 0 (que desplazaron todo a la derecha).

Si las diferencias de los relojes se distribuyen normalmente, ¿puedo suponer que los efectos se compensarán entre sí y, por lo tanto, solo usaré la diferencia de tiempo calculada?

cdecker
fuente

Respuestas:

13

Los problemas de sincronización del reloj podrían causar que el pico se desplace a la derecha. La siguiente simulación en R muestra este fenómeno. Utilicé tiempos exponenciales y diferencias de reloj normales para obtener una forma que se asemeje a su imagen:

Relojes

La distribución hacia la izquierda (las diferencias reales, medidas sin error) tiene su pico en 0, mientras que la distribución hacia la derecha (diferencias medidas con error) tiene su pico alrededor de 100.

Código R:

set.seed(20120904)

# Generate exponential time differences:
x<-rexp(100000,1/900)

# Generate normal clock differences:
y<-rnorm(100000,0,50)

# Resulting observations:
xy<-x+y

# Truncate at 500:
xy<-xy[xy<=500]

# Plot histograms:
par(mfrow=c(1,2))
hist(x[x<=500],breaks=100,col="blue",main="Actual differences")
hist(xy,breaks=100,col="blue",main="Observed differences")
lines(c(0,0),c(0,550),col="red")

Si las diferencias de reloj son normales con media 0, las diferencias deberían cancelarse en el sentido de que la media de las diferencias observadas debería ser igual a la de las diferencias reales. Si este es el caso depende de si existe una diferencia sistemática entre las computadoras donde ocurre el primer evento y las computadoras donde ocurre el segundo evento.

MånsT
fuente
44
+1 Muy bien ilustrado. Matemáticamente, los datos se extraen de la suma de la distribución del error y la distribución (presunta) exponencial. Es tentador estimar la distribución del error y desconvolver los datos para estimar la distribución verdadera.
whuber