Si ,

9

Suponga la siguiente configuración:
Sea Zi=min{ki,Xi},i=1,...,n . También XiU[ai,bi],ai,bi>0 . Además ki=cai+(1c)bi,0<c<1 es decir, ki es una combinación convexa de los límites de los respectivos soportes. c es común para todos i .

Yo creo que tengo la distribución de Zi derecha: se trata de una distribución mixta .
Tiene una parte continua,

Xi[ai,ki),Zi=XiPr(Zizi)=ziaibiai
y luego una discontinuidad y una parte discreta donde concentrados de masa de probabilidad:
Pr(Zi=ki)=Pr(Xi>ki)=1Pr(Xiki)
=1kiaibiai=1(1c)(biai)biai=c

Entonces, en todos

FZi(zi)={0zi<aiziaibiaiaizi<ki1kizi

mientras que para la función de masa / densidad "discreta / continua" mixta, es 0 fuera del intervalo [ai,ki] , tiene una parte continua que es la densidad de una U uniforme (a_i, b_i)U(ai,bi) , 1biai pero para aizi<ki , y concentra la masa de probabilidad positiva c>0 en zi=ki .

En total, resume la unidad sobre los reales.

Me gustaría poder derivar, o decir algo sobre, la distribución y / o los momentos de la variable aleatoria Sni=1nZi , como n .

Digamos que si las son independientes, se ve como como . ¿Puedo "ignorar" esa parte, incluso como una aproximación? Entonces me quedaría con una variable aleatoria que varía en el intervalo , que parece la suma de uniformes censurados, en camino de convertirse en "no censurados", y quizás algún teorema del límite central ... pero probablemente estoy divergiendo en lugar de converger aquí, entonces, alguna sugerencia? Pr ( S n = n i k i ) = c n0 n [ n i = 1 a i ,XiPr(Sn=inki)=cn0n[i=1nai,i=1nki)

PD: Esta pregunta es relevante, derivando la distribución de la suma de variables censuradas , pero la respuesta de @Glen_b no es lo que necesito. Tengo que trabajar esto analíticamente, incluso usando aproximaciones. Esto es investigación, así que trátelo como tarea: las sugerencias generales o las referencias a la literatura son lo suficientemente buenas.

Alecos Papadopoulos
fuente
Si lo necesita, escriba la distribución de como , con una adecuada , en el que es un conjunto Borel. μ Z i ( B ) = P ( Z iB ) = B g ( t )Zig BμZi(B)=P(ZiB)=Bg(t)dt+cIB(ki)gB
Zen
@Zen Ya escribí en la pregunta que la distribución es discontinua. También el RHS de hace obvio que esta representa una densidad en , pero una probabilidad de y prefiero la notación compacta. f [ a i , k i ) k iff[ai,ki)ki
Alecos Papadopoulos
Hasta donde yo sé, esta notación con sido un pdf y un pmf no existe; y tenemos el lenguaje matemático adecuado para describir distribuciones mixtas con precisión. Dudo que esta notación sea aceptada cuando publique su investigación. Sólo mi opinión, por supuesto. Siempre debes hacerlo como quieras. f
Zen
@Zen Publishing tiene un largo camino por recorrer y, de hecho, los revisores fruncen el ceño cuando ven una notación no establecida. Este es solo una abreviatura cuando se quiere describir una distribución por pasos en muchas líneas. No hay ningún "argumento a favor" en su contra y en contra de la notación establecida, como por ejemplo la que utilizó en un comentario anterior.
Alecos Papadopoulos

Respuestas:

5

Seguiría el consejo de Henry y comprobaría Lyapunov con . El hecho de que las distribuciones sean mixtas no debería ser un problema, siempre que las y comporten correctamente. La simulación del caso particular en el que , , para cada muestra que la normalidad está bien.a i b i un i = 0 b i = 1 k i = 2 / 3 i 1δ=1aibiai=0bi=1ki=2/3i1

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

zen
fuente
De hecho bastante normal. Bueno saber. Las condiciones habituales para CLT nunca fueron un problema aquí, mi pregunta era si había otros problemas, quizás sutiles, que retorcían el resultado asintótico y requerían un CLT modificado. Su simulación muestra que, de hecho, la discontinuidad discreta se vuelve insignificante en la probabilidad a medida que ingresan más variables en la suma.
Alecos Papadopoulos
Nada específico, pero no plantean ningún problema. Piense en ellos como números finitos que se comportan bien, independientemente del índice . Se puede aumentar o disminuir como crece (hay una regla específica), y no uno cualquiera de ellos es desproporcionadamente mayor que los otros ... que representan diferencias en el tamaño de las entidades sin embargo "comparables". Entonces, la condición de Lindeberg ciertamente se mantieneiii
Alecos Papadopoulos
Agradable. Buena suerte con los próximos pasos. Parece un problema interesante
Zen
3

Consejos:

Suponiendo que es fijo y que es independiente, puede calcular la media y la varianza de cada : por ejemplo y sabes . X icXiσ 2 i Z i μ i = E [ Z i ] = c a i + k iμiσi2Ziki=cai+(1-c)biμi=E[Zi]=cai+ki2+(1c)kiki=cai+(1c)bi

Luego, si y no crecen demasiado rápido, puede usar las condiciones de Lyapunov o Lindeberg para aplicar el teorema del límite central con la conclusión de que converge en la distribución a una normal estándar, o en un sentido de se distribuye aproximadamente normalmente con media y varianza .b i 1aibin1Zin1μin1σ2i11nσi2(1nZi1nμi)1nZi1nμi1nσi2

Enrique
fuente
Gracias. No hay ningún problema con los y los , no crecen con el índice, simplemente fluctúan. Entonces, ¿está diciendo esencialmente que el CLT puede cubrir también variables aleatorias con distribuciones mixtas? b iaibi
Alecos Papadopoulos
Si, por ejemplo, y fueran fijos, tendría variables aleatorias independientes distribuidas idénticamente con una varianza finita, por lo que se aplicaría el teorema del límite central. Si esto es una distribución de mezcla o no, no afecta este resultado. Lo que digo es que puede extender esto a los casos en que las variables aleatorias son independientes pero no están distribuidas de manera idéntica, siempre que las medias y las variaciones sigan siendo razonables. b iaibi
Henry
2

Mi principal preocupación en esta pregunta era si uno podría aplicar el CLT "como de costumbre" en el caso que estoy examinando. El usuario @Henry afirmó que se puede, el usuario @Zen lo mostró a través de una simulación. Alentado así, ahora lo probaré analíticamente.

Lo que voy a hacer primero es verificar que esta variable con la distribución mixta tenga una función de generación de momentos "habitual". Denote el valor esperado de , su desviación estándar, y la versión centrada y escalada de por . Aplicando la fórmula de cambio de variable, encontramos que la parte continua es La función generadora de momento de debe ser Z i σ i Z i ˜ Z i = Z i - μ iμiZiσiZi f ˜ Z ( ˜ z i)=σifZ(zi)=σiZ~i=Ziμiσi
˜ Z i ˜ M i(t)=E(e ˜ z it)=- e ˜ z itdF ˜ Z ( ˜ z i)= ˜ k i ˜ a i σie ˜ z i t

fZ~(z~i)=σifZ(zi)=σibiai
Z~i
M~i(t)=E(ez~it)=ez~itdFZ~(z~i)=a~ik~iσiez~itbiaidzi+cek~it

˜ k i=ki-μi

M~i(t)=σibiaiek~itea~itt+cek~it
con
k~i=kiμiσi,a~i=aiμiσi

Usando primos para denotar derivados, si hemos especificado la función de generación de momento correctamente, entonces deberíamos obtener desde esto es una variable aleatoria centrada y escalada. Y, de hecho, al calcular derivados, aplicando la regla de L'Hopital muchas veces (dado que el valor del MGF en cero debe calcularse a través de límites), y haciendo manipulaciones algebraicas, he verificado las dos primeras igualdades. La tercera igualdad resultó demasiado agotadora, pero confío en que se mantenga.

M~i(0)=1,M~i(0)=E(Z~)=0M~i(0)=E(Z~i2)=Var(Z~i)=1

Entonces tenemos un MGF adecuado. Si tomamos su expansión Taylor de segundo orden alrededor de cero, tenemos

M~(t)=M~(0)+M~(0)t+12M~(0)t2+o(t2)

M~(t)=1+12t2+o(t2)

Esto implica que la característica función es (aquí representa la unidad imaginaria) .i

ϕ~(t)=1+12(it)2+o(t2)=112t2+o(t2)

Por las propiedades de la función característica , tenemos que la función característica de es igual aZ~/n

ϕ~Z~/n(t)=ϕ~Z~(t/n)=1t22n+o(t2/n)

y dado que tenemos variables aleatorias independientes, la función característica de es1ninZ~i

ϕ~1ninZ~i(t)=i=1nϕ~Z~(t/n)=i=1n(1t22n+o(t2/n))

Entonces

limnϕ~1ninZ~i(t)=limn(1t22n)n=et2/2

por cómo se representa el númeroe . Sucede que el último término es la función característica de la distribución normal estándar, y según el teorema de continuidad de Levy , tenemos que

1ninZ~idN(0,1)

cual es el CLT. Tenga en cuenta que el hecho de que las variables no están distribuidas de forma idéntica, "desaparecieron" de la vista una vez que consideramos sus versiones centradas y escaladas y consideramos la expansión Taylor de segundo orden de su MGF / CHF: en ese nivel de aproximación, estas funciones son idénticos, y todas las diferencias se compactan en los términos restantes que desaparecen asintóticamente. Z

Sin embargo, el hecho de que el comportamiento idiosincrásico a nivel individual, de todos los elementos individuales, desaparezca cuando consideramos el comportamiento promedio, creo que se muestra muy bien usando una criatura desagradable como una variable aleatoria que tiene una distribución mixta.

Alecos Papadopoulos
fuente
Realmente genial, Alecos. Mi opinión es que el argumento debería depender de condiciones más específicas en los y . Por ejemplo: ¿se rompe la prueba if rápidamente? (Sé que en su solicitud esto no sucede). ¿Qué piensa? b i ( b i - a i ) 0aibi(biai)0
Zen
@Zen El problema con respecto a las variaciones de rv independientes pero no idénticamente distribuidos es muy sutil, no creo que todavía lo entienda claramente. Las condiciones conocidas de Lyapunov o Lindeberg solo son suficientes para que el CLT se mantenga. Hay casos en los que el CLT se cumple aunque estas condiciones no. Así que creo que si no limitamos las variaciones, entonces no hay una respuesta única, y el problema se vuelve totalmente específico para cada caso. Incluso el libro de Billingsley no es claro al respecto. La pregunta es cómo se verá el resto y qué podemos decir al respecto.
Alecos Papadopoulos