Misma media, varianza diferente

Aunque no se puede calcular una probabilidad exacta (excepto en circunstancias especiales con ), se puede calcular numéricamente rápidamente con gran precisión. A pesar de esta limitación, se puede demostrar rigurosamente que el corredor con la mayor desviación estándar tiene la mayor posibilidad de ganar. La figura muestra la situación y muestra por qué este resultado es intuitivamente obvio: $n \le 2$

Figura

Se muestran las densidades de probabilidad para los tiempos de cinco corredores. Todos son continuos y simétricos sobre una media común. $\mu$ . (Se utilizaron densidades beta escaladas para garantizar que todos los tiempos sean positivos). Una densidad, dibujada en azul más oscuro, tiene una propagación mucho mayor. La porción visible en su cola izquierda representa los tiempos que ningún otro corredor puede igualar. Debido a que esa cola izquierda, con su área relativamente grande, representa una probabilidad apreciable, el corredor con esta densidad tiene la mayor probabilidad de ganar la carrera. (¡También tienen la mayor posibilidad de llegar al final!)

Estos resultados están probados para algo más que distribuciones normales: los métodos presentados aquí se aplican igualmente bien a distribuciones simétricas y continuas. (Esto será de interés para cualquier persona que se oponga al uso de distribuciones normales para modelar tiempos de ejecución). Cuando se violan estas suposiciones, es posible que el corredor con la mayor desviación estándar no tenga la mayor posibilidad de ganar (dejo la construcción de contraejemplos a lectores interesados), pero aún podemos probar bajo suposiciones más suaves que el corredor con mayor SD tendrá la mejor oportunidad de ganar siempre que SD sea lo suficientemente grande.

La figura también sugiere que se podrían obtener los mismos resultados al considerar los análogos unilaterales de la desviación estándar (la llamada "semivariancia"), que miden la dispersión de una distribución a un solo lado. Un corredor con gran dispersión hacia la izquierda (hacia mejores tiempos) debería tener una mayor posibilidad de ganar, independientemente de lo que ocurra en el resto de la distribución. Estas consideraciones nos ayudan a apreciar cómo la propiedad de ser el mejor (en un grupo) difiere de otras propiedades como los promedios.

Deje ser variables aleatorias que representan los tiempos de los corredores. La pregunta supone que son independientes y normalmente distribuidos con media común . (Aunque este es literalmente un modelo imposible, ya que presenta probabilidades positivas para tiempos negativos, aún puede ser una aproximación razonable a la realidad siempre que las desviaciones estándar sean sustancialmente más pequeñas que ). $X_1, \ldots, X_n$ $\mu$ $\mu$

Para llevar a cabo el siguiente argumento, conserve la suposición de independencia, pero suponga que las distribuciones de son dadas por y que estas leyes de distribución pueden ser cualquier cosa. Por conveniencia, también suponga que la distribución es continua con densidad . Más tarde, según sea necesario, podemos aplicar supuestos adicionales siempre que incluyan el caso de distribuciones normales. $X_i$ $F_i$ $F_n$ $f_n$

Para cualquier e infinitesimal , la probabilidad de que el último corredor tenga un tiempo en el intervalo y sea el corredor más rápido se obtiene multiplicando todas las probabilidades relevantes (porque todos los tiempos son independientes): $y$ $dy$ $(y-dy, y]$

Pr (X_{n} \in (y - d y, y], X_{1} > y, \dots, X_{n - 1} > y) = f_{n} (y) d y (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) .

$\Pr(X_n \in (y-dy, y], X_1 \gt y, \ldots, X_{n-1} \gt y) = f_n(y)dy(1-F_{1}(y))\cdots(1-F_{n-1}(y)).$

La integración sobre todas estas posibilidades mutuamente excluyentes produce

Pr (X_{n} \leq min (X_{1}, X_{2}, \dots, X_{n - 1})) = \int_{R} f_{n} (y) (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) d y .

$\Pr(X_n \le \min(X_1, X_2, \ldots, X_{n-1})) = \int_{\mathbb R} f_n(y)(1-F_1(y))\cdots(1-F_{n-1}(y)) dy.$

Para distribuciones normales, esta integral no puede evaluarse en forma cerrada cuando : necesita evaluación numérica. $n\gt 2$

Figura

Esta figura traza el integrando para cada uno de los cinco corredores que tienen desviaciones estándar en la proporción 1: 2: 3: 4: 5. Cuanto más grande sea la SD, más se desplazará la función hacia la izquierda, y mayor será su área. Las áreas son aproximadamente 8: 14: 21: 26: 31%. En particular, el corredor con la mayor SD tiene un 31% de posibilidades de ganar.

Aunque no se puede encontrar una forma cerrada, aún podemos sacar conclusiones sólidas y demostrar que el corredor con la mayor SD tiene más probabilidades de ganar. Necesitamos estudiar lo que sucede cuando la desviación estándar de una de las distribuciones, digamos , cambia. Cuando la variable aleatoria se vuelve a escalar por alrededor de su media, su SD se multiplica por y cambiará a $F_n$ $X_n$ $\sigma \gt 0$ $\sigma$ $f_n(y)dy$ $f_n(y/\sigma)dy/\sigma$ . Hacer el cambio de la variable en la integral da una expresión para la posibilidad de que el corredor gane, en función de : $y=x\sigma$ $n$ $\sigma$

ϕ (σ) = \int_{R} f_{n} (y) (1 - F_{1} (y σ)) \dots (1 - F_{n - 1} (y σ)) d y .

$\phi(\sigma) = \int_{\mathbb R} f_n(y)(1-F_1(y\sigma))\cdots(1-F_{n-1}(y\sigma)) dy.$

Supongamos ahora que las medianas de todas las distribuciones son iguales y que todas las distribuciones son simétricas y continuas, con densidades . (Este ciertamente es el caso en las condiciones de la pregunta, porque una mediana normal es su media). Mediante un cambio simple (de ubicación) de la variable podemos suponer que esta mediana común es ; la simetría significa y $n$ $f_i$ $0$ $f_n(y) = f_n(-y)$ $1 - F_j(-y) = F_j(y)$ $y$ $(-\infty, 0]$ $(0,\infty)$

ϕ (σ) = \int_{0}^{\infty} f_{n} (y) (\prod_{j = 1}^{n - 1} (1 - F_{j} (y σ)) + \prod_{j = 1}^{n - 1} F_{j} (y σ)) d y .

$\phi(\sigma) = \int_0^{\infty} f_n(y)\left(\prod_{j=1}^{n-1}\left(1-F_j(y\sigma)\right)+\prod_{j=1}^{n-1}F_j(y\sigma)\right) dy.$

The function $\phi$ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form

y f_{n} (y) f_{i} (y σ) (\prod_{j \neq i}^{n - 1} F_{j} (y σ) - \prod_{j \neq i}^{n - 1} (1 - F_{j} (y σ)))

$y f_n(y) f_i(y\sigma)\left(\prod_{j\ne i}^{n-1}F_j(y\sigma) - \prod_{j\ne i}^{n-1}(1-F_j(y\sigma))\right)$

for $i=1, 2, \ldots, n-1$ .

The assumptions we made about the distributions were designed to assure that $F_j(x) \ge 1-F_j(x)$ for $x\ge 0$ . Thus, since $x=y\sigma\ge 0$ , each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors $y f_n(y) f_i(y\sigma)$ are clearly nonnegative because densities cannot be negative and $y\ge 0$ . We may conclude that $\phi^\prime(\sigma) \ge 0$ for $\sigma \ge 0$ , proving that the chance that player $n$ wins increases with the standard deviation of $X_n$ .

This is enough to prove that runner $n$ will win provided the standard deviation of $X_n$ is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the $X_i$ are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to $1/n$ ). Start by setting all distributions to that of runner $n$ . Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that $n$ wins cannot decrease, while the chances of all the other runners have decreased. Consequently, $n$ has the greatest chances of winning, QED.

whuber
fuente

@Phonon That's correct. (But please do not confuse the distributions with estimates derived from samples. The distribution is a mathematical model, not a set of data.) Increasing the SD by a factor of

λ

$\lambda$ , say, uniformly stretches the horizontal axis. Because (by the Law of Total Probability) the density function will cover a unit area, that stretch must be compensated by a stretch of the vertical axis by

1 / λ

$1/\lambda$ , thereby preserving all areas. Thus, smaller SDs correspond to taller peaks and larger SDs to shorter peaks.

whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.

Phonon

Misma media, varianza diferente

Respuestas: