¿Existe una versión de muestra de la desigualdad unilateral de Chebyshev?

Estoy interesado en la siguiente versión unilateral de Cantelli de la desigualdad de Chebyshev :

PAGS (X - mi (X) \geq t) \leq \frac{V una r (X)}{V una r (X) + t^{2}} .

$\mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,.$

Básicamente, si conoce la media y la varianza de la población, puede calcular el límite superior de la probabilidad de observar un cierto valor. (Al menos eso entendí).

Sin embargo, me gustaría utilizar la media muestral y la varianza muestral en lugar de la media poblacional real y la varianza.

Supongo que dado que esto introduciría más incertidumbre, el límite superior aumentaría.

¿Existe una desigualdad análoga a la anterior, pero que utiliza la media y la varianza de la muestra?

Editar : El análogo "muestra" de la desigualdad de Chebyshev (no unilateral), ha sido resuelto. La página de Wikipedia tiene algunos detalles. Sin embargo, no estoy seguro de cómo se traduciría al caso unilateral que tengo arriba.

probability mathematical-statistics probability-inequalities mean casandra
fuente

Gracias Glen_b. Es un problema bastante interesante. Siempre pensé que la desigualdad de Chebyshev era poderosa (ya que te permite hacer inferencia estadística sin requerir una distribución de probabilidad); así que poder usarlo con la media y la varianza de la muestra sería bastante impresionante

casandra

Respuestas:

Sí, podemos obtener un resultado análogo utilizando la media y la varianza de la muestra, y tal vez surjan algunas sorpresas en el proceso.

Primero, necesitamos refinar un poco el enunciado de la pregunta y establecer algunas suposiciones. Es importante destacar que debe quedar claro que no podemos esperar reemplazar la varianza de la población con la varianza de la muestra en el lado derecho ya que esta última es aleatoria . Entonces, reenfocamos nuestra atención en la desigualdad equivalente En caso de que no esté claro que estos son equivalentes, tenga en cuenta que simplemente hemos reemplazado con en la desigualdad original sin ninguna pérdida en general.

PAGS (X - mi X \geq t σ) \leq \frac{1}{1 + t^{2}} .

$\mathbb P\left( X - \mathbb E X \geq t \sigma \right) \leq \frac{1}{1+t^2} \>.$

t

$t$

t σ

$t \sigma$

En segundo lugar, suponemos que tenemos una muestra aleatoria estamos interesados en un límite superior para la cantidad análoga , donde es la media de la muestra y es la desviación estándar de la muestra. $X_1,\ldots,X_n$ $\mathbb P(X_1 - \bar X \geq t S)$ $\bar X$ $S$

Un medio paso adelante

Tenga en cuenta que al aplicar la desigualdad original de Chebyshev unilateral a , obtenemos que $X_1 - \bar X$ donde, que esmás pequeñoque el lado derecho de la versión original. ¡Esto tiene sentido! Cualquier realización particular de una variable aleatoria de una muestra tenderá a estar (ligeramente) más cerca de la media de la muestra a la que contribuye que de la media de la población. Como veremos a continuación, reemplazaremosporbajo supuestos aún más generales.

PAGS (X_{1} - \bar{X} \geq t σ) \leq \frac{1}{1 + \frac{norte}{norte - 1} t^{2}}

$\mathbb P( X_1 - \bar X \geq t\sigma ) \leq \frac{1}{1 + \frac{n}{n-1}t^2}$

σ^{2} = V a r (X_{1})

$\sigma^2 = \mathrm{Var}(X_1)$

σ

$\sigma$

S

$S$

Una versión de muestra de Chebyshev unilateral

Reclamación : Sea una muestra aleatoria tal que . Entonces, $X_1,\ldots,X_n$ $\mathbb P(S = 0) = 0$ En particular, la versión de muestra del límite esmás estrictaque la versión original de la población.
$PAGS (X_{1} - \bar{X} \geq t S) \leq \frac{1}{1 + \frac{norte}{norte - 1} t^{2}} .$ $\mathbb P(X_1 - \bar X \geq t S) \leq \frac{1}{1 + \frac{n}{n-1} t^2}\>.$

Nota : Nosotros no asumir que el tiene media o la varianza finita, ya sea! $X_i$

Prueba . La idea es adaptar la prueba de la desigualdad original de Chebyshev unilateral y emplear simetría en el proceso. Primero, configure por conveniencia de notación. Luego, observe que $Y_i = X_i - \bar X$

PAGS (Y_{1} \geq t S) = \frac{1}{norte} \sum_{yo = 1}^{norte} PAGS (Y_{yo} \geq t S) = mi \frac{1}{norte} \sum_{yo = 1}^{norte} 1_{(Y_{yo} \geq t S)} .

$\mathbb P( Y_1 \geq t S ) = \frac{1}{n} \sum_{i=1}^n \mathbb P( Y_i \geq t S ) = \mathbb E \frac{1}{n} \sum_{i=1}^n \mathbf 1_{(Y_i \geq t S)} \>.$

Ahora, para cualquier , en , $c > 0$ $\{S > 0\}$

1_{(Y_{i} \geq t S)} = 1_{(Y_{i} + t c S \geq t S (1 + c))} \leq 1_{((Y_{i} + t c S)^{2} \geq t^{2} (1 + c)^{2} S^{2})} \leq \frac{(Y_{i} + t c S)^{2}}{t^{2} (1 + c)^{2} S^{2}} .

$\newcommand{I}[1]{\mathbf{1}_{(#1)}} \I{Y_i \geq t S} = \I{Y_i + t c S \geq t S (1+c)} \leq \I{(Y_i + t c S)^2 \geq t^2 (1+c)^2 S^2} \leq \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2}\>.$

Entonces

\frac{1}{n} \sum_{i} 1_{(Y_{i} \geq t S)} \leq \frac{1}{n} \sum_{i} \frac{(Y_{i} + t c S)^{2}}{t^{2} (1 + c)^{2} S^{2}} = \frac{(n - 1) S^{2} + n t^{2} c^{2} S^{2}}{n t^{2} (1 + do)^{2} S^{2}} = \frac{(norte - 1) + norte t^{2} {do}^{2}}{norte t^{2} (1 + do)^{2}},

$\frac{1}{n} \sum_i \I{Y_i \geq t S} \leq \frac{1}{n} \sum_i \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2} = \frac{(n-1)S^2 + n t^2 c^2 S^2}{n t^2 (1+c)^2 S^2} = \frac{(n-1) + n t^2 c^2}{n t^2 (1+c)^2} \>,$

\bar{Y} = 0

$\bar Y = 0$

\sum_{i} Y_{i}^{2} = (n - 1) S^{2}

$\sum_i Y_i^2 = (n-1)S^2$

PAGS (X_{1} - \bar{X} \geq t S) \leq \frac{(norte - 1) + norte t^{2} {do}^{2}}{norte t^{2} (1 + do)^{2}} .

$\mathbb P(X_1 - \bar X \geq t S) \leq \frac{(n-1) + n t^2 c^2}{n t^2 (1+c)^2} \>.$

c

$c$

c = \frac{n - 1}{n t^{2}}

$c = \frac{n-1}{n t^2}$

Esa molesta condición técnica

$\mathbb P(S = 0) = 0$ $S^2$ $0 = Y_i = t S = 0$ $i$ $t > 0$

$q = \mathbb P(S = 0)$

$q = \mathbb P(S = 0) > 0$
$P (X_{1} - \bar{X} \geq t S) \leq (1 - q) \frac{1}{1 + \frac{n}{n - 1} t^{2}} + q .$ $\mathbb P(X_1 - \bar X \geq t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} + q \>.$

$\{S > 0\}$ $\{S = 0\}$ $\{S > 0\}$ $\{S = 0\}$ es trivial

Una desigualdad ligeramente más limpia resulta si reemplazamos la desigualdad no estricta en la declaración de probabilidad con una versión estricta.

Corolario 2 . Dejar $q = \mathbb P(S = 0)$ (posiblemente cero). Luego,
$PAGS (X_{1} - \bar{X} > t S) \leq (1 - q) \frac{1}{1 + \frac{norte}{norte - 1} t^{2}} .$ $\mathbb P(X_1 - \bar X > t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} \>.$

Comentario final : la versión de muestra de la desigualdad no requería suposiciones sobre $X$ (aparte de que no sea constante casi seguramente en el caso desigualdad no estricta, que la versión original también asume tácitamente), en esencia, porque la muestra de la media y la muestra de varianza siempre existe o no sus análogos población sí.

cardenal
fuente

This is just a complement to @cardinal 's ingenious answer. Samuelson Inequality, states that, for a sample of size $n$ , when we have at least three distinct values of the realized $x_i$ 's, it holds that

x_{i} - \bar{x} < s \sqrt{n - 1}, i = 1, . . . n

$x_i-\bar x < s\sqrt{n-1},\;\; i=1,...n$ where

s

$s$ is calculated without the bias correction,

s = {(\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2})}^{1 / 2}

$s= \left (\frac 1n\sum_{i=1}^n(x_i-\bar x)^2\right)^{1/2}$ .

Then, using the notation of Cardinal's answer we can state that

P (X_{1} - \bar{X} \geq S \sqrt{n - 1}) = 0 a . s . [1]

$\mathbb P\left(X_1-\bar X \ge S\sqrt{n-1}\right) =0 \;\;a.s. \qquad [1]$

Since we require, three distinct values, we will have $S\neq 0$ by assumption. So setting $t=\sqrt{n-1}$ in Cardinal's Inequality (the initial version) we obtain

P (X_{1} - \bar{X} \geq S \sqrt{n - 1}) \leq \frac{1}{1 + n}, [2]

$\mathbb P\left (X_1 - \bar X \geq S\sqrt{n-1}\right) \leq \frac{1}{1 + n}, \;\; \qquad [2]$

Eq. $[2]$ is of course compatible with eq. $[1]$ . The combination of the two tells us that Cardinal's Inequality is useful as a probabilistic statement for $0< t < \sqrt{n-1}$ .

If Cardinal's Inequality requires $S$ to be calculated bias-corrected (call this $\tilde S$ ) then the equations become

P (X_{1} - \bar{X} \geq \tilde{S} \frac{n - 1}{\sqrt{n}}) = 0 a . s . [1 a]

$\mathbb P\left(X_1-\bar X \ge \tilde S\frac{n-1}{\sqrt{n}}\right) =0 \;\;a.s. \qquad [1a]$

and we choose $t= \frac{n-1}{\sqrt{n}}$ to obtain through Cardinal's Inequality

P (X_{1} - \bar{X} \geq \tilde{S} \frac{n - 1}{\sqrt{n}}) \leq \frac{1}{n}, [2 a]

$\mathbb P\left (X_1 - \bar X \geq \tilde S\frac{n-1}{\sqrt{n}}\right) \leq \frac{1}{ n}, \;\; \qquad [2a]$ and the probabilistically meaningful interval for

t

$t$ is

0 < t < \frac{n - 1}{\sqrt{n}} .

$0< t < \frac{n-1}{\sqrt{n}}.$

Alecos Papadopoulos
fuente

(+1) Incidentally, as I was first considering this problem, the fact that

max_{i} | X_{i} - \bar{X} | \leq S \sqrt{n - 1}

$\max_i |X_i - \bar X| \leq S\sqrt{n-1}$ was actually the initial clue that the sample inequality should be tighter than the original. I wanted to squeeze that into my post, but couldn't find a (comfortable) place for it. I'm glad to see you mention it (actually a very slight improvement on it) here along with your very nice additional elaboration. Cheers.

cardenal

Saludos @Cardinal, gran respuesta, solo aclararme, ¿importa para su desigualdad cómo se define la varianza de la muestra (con corrección de sesgo o no)?

Alecos Papadopoulos

Only ever so slightly. I used the bias-corrected sample variance. If you use

n

$n$ instead of

n - 1

$n-1$ to normalize, then you'll end up with

\frac{1 + t^{2} c^{2}}{t^{2} (1 + c)^{2}}

$\frac{1+t^2c^2}{t^2(1+c)^2}$ instead of

\frac{(n - 1) + n t^{2} c^{2}}{n t^{2} (1 + c)^{2}},

$\frac{(n-1) + n t^2c^2}{nt^2(1+c)^2} \,,$ which means the

n / (n - 1)

$n/(n-1)$ term in the final inequality will disappear. Thus, you'll get the same bound as in the original one-sided Chebyshev inequality in that case. (Assuming I've done the algebra correctly.) :-)

cardinal

@Cardinal ...which means that the relevant equations in my answer are

1 a

$1a$ and

2 a

$2a$ , which means that your inequality tells us that for

t

$t$ chosen to activate Samuelson Inequality, the probability of the event we are examining, cannot be greater than

1 / n

$1/n$ , es decir, no es mayor que elegir al azar cualquier valor realizado de la muestra ... lo que de alguna manera tiene un sentido intuitivo confuso: lo que se demuestra ciertamente imposible en términos deterministas, cuando se aborda probabilísticamente su límite de probabilidad no excede la equiprobabilidad ... no está claro en Mi mente todavía.

Alecos Papadopoulos