¿Existe una versión de muestra de la desigualdad unilateral de Chebyshev?

32

Estoy interesado en la siguiente versión unilateral de Cantelli de la desigualdad de Chebyshev :

PAGS(X-mi(X)t)Vunar(X)Vunar(X)+t2.

Básicamente, si conoce la media y la varianza de la población, puede calcular el límite superior de la probabilidad de observar un cierto valor. (Al menos eso entendí).

Sin embargo, me gustaría utilizar la media muestral y la varianza muestral en lugar de la media poblacional real y la varianza.

Supongo que dado que esto introduciría más incertidumbre, el límite superior aumentaría.

¿Existe una desigualdad análoga a la anterior, pero que utiliza la media y la varianza de la muestra?

Editar : El análogo "muestra" de la desigualdad de Chebyshev (no unilateral), ha sido resuelto. La página de Wikipedia tiene algunos detalles. Sin embargo, no estoy seguro de cómo se traduciría al caso unilateral que tengo arriba.

casandra
fuente
Gracias Glen_b. Es un problema bastante interesante. Siempre pensé que la desigualdad de Chebyshev era poderosa (ya que te permite hacer inferencia estadística sin requerir una distribución de probabilidad); así que poder usarlo con la media y la varianza de la muestra sería bastante impresionante
casandra

Respuestas:

26

Sí, podemos obtener un resultado análogo utilizando la media y la varianza de la muestra, y tal vez surjan algunas sorpresas en el proceso.

Primero, necesitamos refinar un poco el enunciado de la pregunta y establecer algunas suposiciones. Es importante destacar que debe quedar claro que no podemos esperar reemplazar la varianza de la población con la varianza de la muestra en el lado derecho ya que esta última es aleatoria . Entonces, reenfocamos nuestra atención en la desigualdad equivalente En caso de que no esté claro que estos son equivalentes, tenga en cuenta que simplemente hemos reemplazado t con t σ en la desigualdad original sin ninguna pérdida en general.

PAGS(X-miXtσ)11+t2.
ttσ

En segundo lugar, suponemos que tenemos una muestra aleatoria estamos interesados ​​en un límite superior para la cantidad análoga P ( X 1 - ˉ Xt S ) , donde ˉ X es la media de la muestra y S es la desviación estándar de la muestra.X1,...,XnortePAGS(X1-X¯tS)X¯S

Un medio paso adelante

Tenga en cuenta que al aplicar la desigualdad original de Chebyshev unilateral a , obtenemos que P ( X 1 - ˉ Xt σ ) 1X1-X¯ dondeσ2=Var(X1), que esmás pequeñoque el lado derecho de la versión original. ¡Esto tiene sentido! Cualquier realización particular de una variable aleatoria de una muestra tenderá a estar (ligeramente) más cerca de la media de la muestra a la que contribuye que de la media de la población. Como veremos a continuación, reemplazaremosσporSbajo supuestos aún más generales.

PAGS(X1-X¯tσ)11+nortenorte-1t2
σ2=Vunar(X1)σS

Una versión de muestra de Chebyshev unilateral

Reclamación : Sea una muestra aleatoria tal que P ( S = 0 ) = 0 . Entonces, P ( X 1 - ˉ Xt S ) 1X1,...,XnortePAGS(S=0 0)=0 0En particular, la versión de muestra del límite esmás estrictaque la versión original de la población.

PAGS(X1-X¯tS)11+nortenorte-1t2.

Nota : Nosotros no asumir que el tiene media o la varianza finita, ya sea!Xyo

Prueba . La idea es adaptar la prueba de la desigualdad original de Chebyshev unilateral y emplear simetría en el proceso. Primero, configure por conveniencia de notación. Luego, observe que P ( Y 1t S ) = 1Yyo=Xyo-X¯

PAGS(Y1tS)=1norteyo=1nortePAGS(YyotS)=mi1norteyo=1norte1(YyotS).

Ahora, para cualquier , en { S > 0 } , 1 ( Y it S ) = 1 ( Y i + t c S t S ( 1 + c ) )1 ( ( Y i + t c S ) 2t 2 ( 1 + c ) 2 S 2do>0 0{S>0 0}

1(YitS)=1(Yi+tcStS(1+c))1((Yi+tcS)2t2(1+c)2S2)(Yi+tcS)2t2(1+c)2S2.

Entonces

1ni1(YitS)1ni(Yi+tcS)2t2(1+c)2S2=(n1)S2+nt2c2S2nt2(1+do)2S2=(norte-1)+nortet2do2nortet2(1+do)2,
Y¯=0 0yoYyo2=(norte-1)S2

PAGS(X1-X¯tS)(norte-1)+nortet2do2nortet2(1+do)2.
dodo=norte-1nortet2

Esa molesta condición técnica

PAGS(S=0 0)=0 0S20 0=Yyo=tS=0 0it>0

q=P(S=0)

q=P(S=0)>0

P(X1X¯tS)(1q)11+nn1t2+q.

{S>0}{S=0}{S>0}{S=0 0} es trivial

Una desigualdad ligeramente más limpia resulta si reemplazamos la desigualdad no estricta en la declaración de probabilidad con una versión estricta.

Corolario 2 . Dejarq=PAGS(S=0 0)(posiblemente cero). Luego,

PAGS(X1-X¯>tS)(1-q)11+nortenorte-1t2.

Comentario final : la versión de muestra de la desigualdad no requería suposiciones sobreX(aparte de que no sea constante casi seguramente en el caso desigualdad no estricta, que la versión original también asume tácitamente), en esencia, porque la muestra de la media y la muestra de varianza siempre existe o no sus análogos población sí.

cardenal
fuente
15

This is just a complement to @cardinal 's ingenious answer. Samuelson Inequality, states that, for a sample of size n, when we have at least three distinct values of the realized xi's, it holds that

xix¯<sn1,i=1,...n
where s is calculated without the bias correction, s=(1ni=1n(xix¯)2)1/2.

Then, using the notation of Cardinal's answer we can state that

P(X1X¯Sn1)=0a.s.[1]

Since we require, three distinct values, we will have S0 by assumption. So setting t=n1 in Cardinal's Inequality (the initial version) we obtain

P(X1X¯Sn1)11+n,[2]

Eq. [2] is of course compatible with eq. [1]. The combination of the two tells us that Cardinal's Inequality is useful as a probabilistic statement for 0<t<n1.

If Cardinal's Inequality requires S to be calculated bias-corrected (call this S~) then the equations become

P(X1X¯S~n1n)=0a.s.[1a]

and we choose t=n1n to obtain through Cardinal's Inequality

P(X1X¯S~n1n)1n,[2a]
and the probabilistically meaningful interval for t is 0<t<n1n.
Alecos Papadopoulos
fuente
2
(+1) Incidentally, as I was first considering this problem, the fact that maxi|XiX¯|Sn1 was actually the initial clue that the sample inequality should be tighter than the original. I wanted to squeeze that into my post, but couldn't find a (comfortable) place for it. I'm glad to see you mention it (actually a very slight improvement on it) here along with your very nice additional elaboration. Cheers.
cardenal
Saludos @Cardinal, gran respuesta, solo aclararme, ¿importa para su desigualdad cómo se define la varianza de la muestra (con corrección de sesgo o no)?
Alecos Papadopoulos
Only ever so slightly. I used the bias-corrected sample variance. If you use n instead of n1 to normalize, then you'll end up with
1+t2c2t2(1+c)2
instead of
(n1)+nt2c2nt2(1+c)2,
which means the n/(n1) term in the final inequality will disappear. Thus, you'll get the same bound as in the original one-sided Chebyshev inequality in that case. (Assuming I've done the algebra correctly.) :-)
cardinal
@Cardinal ...which means that the relevant equations in my answer are 1a and 2a, which means that your inequality tells us that for t chosen to activate Samuelson Inequality, the probability of the event we are examining, cannot be greater than 1/n, es decir, no es mayor que elegir al azar cualquier valor realizado de la muestra ... lo que de alguna manera tiene un sentido intuitivo confuso: lo que se demuestra ciertamente imposible en términos deterministas, cuando se aborda probabilísticamente su límite de probabilidad no excede la equiprobabilidad ... no está claro en Mi mente todavía.
Alecos Papadopoulos