Distribución asintótica de muestras censuradas de

8

Sea la estadística de orden de una muestra iid de tamaño de . Supongamos que los datos están censurados, por lo que vemos solo la parte superior por ciento de los datos, es decirPonga , ¿cuál es la distribución asintótica de X(1),,X(n)nexp(λ)(1p)×100

X(pn),X(pn+1),,X(n).
m=pn
(X(m),i=m+1nX(i)(nm))?

Esto está algo relacionado con esta pregunta y esto y también marginalmente con esta pregunta.

Cualquier ayuda sería apreciada. Intenté diferentes enfoques pero no pude progresar mucho.

ellos
fuente
Se puede demostrar que está condicionado por , vector se distribuye como una estadística de orden de iid muestras de (con como se define en la pregunta, es decir, ), por lo tanto así que en el límite , recuperamos el CLT debido a la independencia de , este parece ser el camino correcto, pero No puedo ampliar este argumento y encontrar asintótico para .. .X(m)(X(m+1)X(m),,X(n)X(m)|X(m)){Yi}1nmexp(1)mm=pn1mni=m+1nX(i)X(m)|X(m)=1mni=1nmY(i)nYi(X(m),1mni=m+1nX(i))
ellos
2
Para OP: ¿Por qué se refiere a su muestra como censurada? El término censurado indicaría que los valores por debajo del punto de censura se registran como 0, o se registran en el punto de censura, etc. Pero eso no es lo que está haciendo ... los está descartando, lo que no es censurar ... es más como truncarlos. Y dado que está considerando la distribución asintótica y considera que es grande, ¿por qué le importa ordenar primero la muestra y truncar la muestra ordenada? ¿Por qué no simplemente considerar una distribución exponencial truncada, truncada a continuación en p%, y luego sumar los términos de eso? n
Wolfies
@wolfies, arreglé todos los errores tipográficos que has señalado. Voy a mirar en la distribución truncada . En cuanto a la censura, he eliminado la nota. Sin embargo, algunas fuentes que he mirado refieren a un problema similar al tipo II censurar la parte superior de la página 6 aquí
les
1
@ ellos son terminología no estándar hasta donde yo sé. Debe usar un modelo truncado aquí.
shadowtalker

Respuestas:

2

Dado que es solo un factor de escala, sin pérdida de generalidad, elija unidades de medida que hagan , haciendo que la distribución subyacente funcione con densidad .λλ=1F(x)=1exp(x)f(x)=exp(x)

A partir de consideraciones paralelas a las del teorema del límite central para medianas de muestra , es asintóticamente normal con una media y varianzaX(m)F1(p)=log(1p)

Var(X(m))=p(1p)nf(log(1p))2=pn(1p).

Debido a la propiedad sin memoria de la distribución exponencial , las variables actúan como las estadísticas de orden de una muestra aleatoria de extraída de , a la que ha sido añadido. Escritura(X(m+1),,X(n))nmFX(m)

Y=1nmi=m+1nX(i)

por su media, es inmediato que la media de es la media de (igual a ) y la varianza de es veces la varianza de (también igual a ). El teorema del límite central implica que la estandarizada es asintóticamente estándar normal. Por otra parte, debido es condicionalmente independiente de , que al mismo tiempo tiene la versión estandarizada de convertirse asintóticamente normal estándar y sin correlación con . Es decir,YF1Y1/(nm)F1YYX(m)X(m)Y

(1)(X(m)+log(1p)p/(n(1p)),YX(m)1nm)

asymptotically has a bivariate Standard Normal distribution.


The graphics report on simulated data for samples of n=1000 (500 iterations) and p=0.95. A trace of positive skewness remains, but the approach to bivariate normality is evident in the lack of relationship between YX(m) and X(m) and the closeness of the histograms to the Standard Normal density (shown in red dots). Figure

The covariance matrix of the standardized values (as in formula (1)) for this simulation was

(0.9670.0210.0211.010),
comfortably close to the unit matrix which it approximates.

The R code that produced these graphics is readily modified to study other values of n, p, and simulation size.

n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))

plot(X[,1], X[,2], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab="Y",
     main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))

plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
     main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)

x <- (X[,1] + log(1-p))  / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)

y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))

round(var(cbind(x,y)), 3) # Should be close to the unit matrix
whuber
fuente