Determine si un proceso distribuido de cola pesada ha mejorado significativamente

12

Observo los tiempos de procesamiento de un proceso antes y después de un cambio para averiguar si el proceso ha mejorado con el cambio. El proceso ha mejorado si se reduce el tiempo de procesamiento. La distribución del tiempo de procesamiento es de cola gruesa, por lo que la comparación basada en el promedio no es razonable. En cambio, me gustaría saber si la probabilidad de observar un menor tiempo de procesamiento después del cambio es significativamente superior al 50%.

Sea la variable aleatoria para el tiempo de procesamiento después del cambio e Y la anterior. Si P ( X < Y ) está significativamente por encima de 0.5, entonces diría que el proceso ha mejorado.XYP(X<Y)0.5

Ahora tengo observaciones xi i de X y m observaciones y j de Y . La observada probabilidad de P ( X < Y ) es p = 1nxiXmyjYP(X<Y).p^=1nmij1xi<yj

¿Qué puedo decir sobre dadas las observaciones x i e y j ?P(X<Y)xiyj

cristiano
fuente

Respuestas:

12

Su estimación p es igual a la de Mann-Whitney U estadística dividido por m n (gracias, Glen!), Y por lo tanto es equivalente a la suma de rangos de Wilcoxon estadística W (también conocida como la estadística de Wilcoxon-Mann-Whitney): W = U + n ( n + 1 )p^UmnWW=U+n(n+1)2 , dondenes el tamaño de muestra dey(suponiendo que no hay vínculos). Por lo tanto, puede usar tablas / software de la prueba de Wilcoxon y transformarlos nuevamente enUpara obtener un intervalo de confianza o unvalorp.

Sea m el tamaño de muestra de x , N = m+n . Entonces, asintóticamente,

W=Wm(N+1)2mn(N+1)12N(0,1)

Fuente: Hollander y Wolfe , Métodos estadísticos no paramétricos, aproximadamente p. 117, pero probablemente la mayoría de los libros de estadísticas no paramétricas lo llevarán allí.

jbowman
fuente
@Glen_b: gracias, he actualizado la respuesta. ¡Muy generoso, adivinaste sobre la causa del error!
jbowman
13

@jbowman proporciona una solución estándar (agradable) al problema de estimar que se conoce como modelo de resistencia al estrés .θ=P(X<Y)

Se propuso otra alternativa no paramétrica en Baklizi y Eidous (2006) para el caso en que e Y son independientes. Esto se describe a continuación.XY

Por definición tenemos eso

θ=P(X<Y)=FX(y)fY(y)dy,

donde es la CDF de X y f Y es la densidad de Y . Luego, usando las muestras de X e Y , podemos obtener estimadores del núcleo de F X y f Y y, en consecuencia, un estimador de θFXXfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

Esto se implementa en el siguiente código R utilizando un núcleo gaussiano.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Para obtener un intervalo de confianza para , puede obtener una muestra de arranque de este estimador de la siguiente manera.θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

También se pueden considerar otros tipos de intervalos de arranque.


fuente
2
Interesante y una buena referencia de papel (+1). ¡Lo agregaré a mi repertorio!
jbowman
0

XiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n

Michael R. Chernick
fuente
2
¿Cuál es la base del emparejamiento, Michael?
whuber
El OP dijo "Sea X la variable aleatoria para el tiempo de procesamiento después del cambio e Y la anterior". Entonces Xi es después de la intervención e Yi es antes.
Michael R. Chernick
m=nXiYj
1
Tienes razón. Supongo que sería apropiado algún tipo de prueba de dos muestras, como el Wilcoxon, según lo sugerido por jbowman anteriormente. Es interesante que la forma de Mann-Whitney de la prueba cuente el número de Xis <los Yjs.
Michael R. Chernick