¿Por qué el promedio del valor más alto de 100 sorteos de una distribución normal es diferente del percentil 98 de la distribución normal?

8

¿Por qué el promedio del valor más alto de 100 sorteos de una distribución normal es diferente del percentil 98% de la distribución normal? Parece que, por definición, deberían ser lo mismo. Pero...

Código en R:

NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
    x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)

Me imagino que estoy malinterpretando algo acerca de cuál debería ser el máximo de 100 sorteos de la distribución normal. Como lo demuestra una distribución inesperadamente asimétrica de los valores máximos.

russellpierce
fuente

Respuestas:

10

El máximo no tiene una distribución normal. Su cdf es donde es el cdf normal estándar. En general, los momentos de esta distribución son difíciles de obtener analíticamente. Hay un documento antiguo sobre esto de Tippett ( Biometrika , 1925) . Φ ( x )Φ(x)100Φ(x)

Rob Hyndman
fuente
¿Hay alguna manera de expresar en lenguaje sencillo cuál es la diferencia entre un percentil dado y el máximo de N valores? Desde una perspectiva simple, es difícil ver por qué no se esperaría que un punto de datos que proviene de un percentil (Y) dado sea (en promedio) el mismo que el máximo anotador de un grupo de 100 / Y. Por ejemplo, si descubriera que sus respuestas se clasificaron en el percentil 90, esperaría que su respuesta fuera generalmente la respuesta principal entre cualquier grupo de 10 respuestas seleccionado al azar.
russellpierce
44
@drknexus Su intuición es correcta. Sin embargo, los extremos (y casi extremos) de las distribuciones de muestreo son algo especiales: sus valores están restringidos por la masa de datos en un lado de ellos, mientras que, para distribuciones parentales con colas infinitas, no hay ninguna restricción en absoluto valores en el otro lado. Así, por ejemplo, la distribución de un máximo (de una distribución sin límite superior) está sesgada positivamente. Esto aumenta sus expectativas en relación con el percentil correspondiente.
whuber
2

Pregunté por qué había una diferencia entre el promedio del máximo de 100 sorteos de una distribución normal aleatoria y el percentil 98 de la distribución normal. La respuesta que recibí de Rob Hyndman fue en su mayoría aceptable, pero técnicamente demasiado densa para aceptarla sin revisión. Me preguntaba si era posible proporcionar una respuesta que explicara en un lenguaje claro intuitivamente comprensible por qué estos dos valores no son iguales.

Finalmente, mi respuesta puede ser insatisfactoriamente circular; pero conceptualmente, la razón por la que max (rnorm (100)) tiende a ser mayor que qnorm (.98) es, en resumen, porque, en promedio, la más alta de las 100 puntuaciones distribuidas al azar normalmente excederá en ocasiones su valor esperado. Sin embargo, esta distorsión no es simétrica, ya que cuando se dibujan puntajes bajos, es poco probable que terminen siendo los más altos de los 100 puntajes. Cada sorteo independiente es una nueva oportunidad de exceder el valor esperado, o de ser ignorado porque el valor obtenido no es el máximo de los 100 valores sorteados. Para una demostración visual, compare el histograma del máximo de 20 valores con el histograma del máximo de 100 valores, la diferencia de sesgo, especialmente en las colas, es marcada.

Llegué a esta respuesta indirectamente mientras trabajaba en un problema / pregunta relacionada que había formulado en los comentarios. Específicamente, si descubrí que los puntajes de las pruebas de alguien se clasificaron en el percentil 95, esperaría que, en promedio, si los coloco en una habitación con otros 99 examinados, su rango promedio sea 95. Esto resulta ser más o menos el caso (código R) ...

for (i in 1:NSIM)
{
    rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)

Como una extensión de esa lógica, también esperaba que si tomaba 100 personas en una habitación y seleccionaba a la persona con el puntaje 95 más alto, luego tomaba otras 99 personas y las hacía tomar la misma prueba, que en promedio la persona seleccionada ocupar el puesto 95 en el nuevo grupo. Pero este no es el caso (código R) ...

for (i in 1:NSIM)
{
    testtakers <- rnorm(100)
    testtakers <- testtakers[order(testtakers)]
    testtakers <- testtakers[order(testtakers)]
    ranked95 <- testtakers[95]
    rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)

Lo que hace que el primer caso sea diferente del segundo caso es que en el primer caso la puntuación del individuo los ubica exactamente en el percentil 95. En el segundo caso, su puntaje puede ser algo más alto o más bajo que el verdadero percentil 95. Como posiblemente no pueden clasificar más alto que 100, los grupos que producen un puntaje de rango 95 que está realmente en el percentil 99 o más alto no pueden compensar (en términos de rango promedio) aquellos casos en los que el puntaje de rango 95 es mucho más bajo que el verdadero 90 percentil Si observa los histogramas de los dos vectores de rango proporcionados en esta respuesta, es fácil ver que existe una restricción de rango en los extremos superiores que es una consecuencia de este proceso que he estado describiendo.

russellpierce
fuente
2

Hay dos problemas: uno es la asimetría en la distribución del valor superior que ha identificado; la otra es que no deberías mirar el percentil 98.

En lugar de la media del valor más alto, considere la mediana. Esto es más fácil ya que es una estadística de orden. La probabilidad de que los 100 valores sean menores que el cuantil es por lo que la mediana del cuantil para el máximo será cuando , es decir, , en lugar de más de . Pero debido a la asimetría, es de esperar que la media sea aún mayor.q 100 q 100 = 1qq100 q=1q100=120.98q=121/1000.993090.98

Como una ilustración en R

require(matrixStats)
NSIM <- 100001
cases <- 100
set.seed(1)
simmat <- matrix(rnorm(cases*NSIM), ncol=cases)
tops <- rowMaxs(simmat)
c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))

lo que da

> c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
[1] 2.508940 2.464794 2.462038
> c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
[1] 0.9939453 0.9931454 0.9930925
Enrique
fuente
1

Solo para ampliar un poco la respuesta de Rob, supongamos que queremos conocer la función de distribución acumulativa (CDF) del valor más alto de independientes de una distribución normal estándar, . Llame a este valor más alto , la estadística de primer orden. Entonces el CDF es:X 1 , . . . , X N Y 1NX1,...,XNY1

P(Y1<x)=P(max(X1,...,XN)<x)=P(X1<x,...,XN<x)=P(X1<x)P(XN<x)=P(X<x)100,
donde la segunda línea sigue por independencia de la sorteos. También podemos escribir esto como donde representa el CDF representa el PDF de la variable aleatoria dada como un subíndice de esta función.
FY1(x)=FX(x)100,
Ff

Rob usa la notación estándar de que se define como para un estándar normal --- es decir, es el CDF normal estándar.Φ(x)P(X<x) Φ(x)

La función de densidad de probabilidad (PDF) de la estadística de primer orden es solo la derivada del CDF con respecto a : el CDF en elevado a 99 (es decir, ) veces el PDF en veces 100 (es decir, ).X

fY1(x)=100FX(x)99fX(x)
xN1xN
Charlie
fuente
Parece que hay algo mal con tu ecuación final (arreglé la composición pero la traduje exactamente como la tenías antes). ¿Qué es ? Además, el pdf de no es equivalente a . De hecho, si tiene una distribución normal (o cualquier distribución continua), entonces cualquier , por lo que no puede ser el pdf. X1XP(X=x)XP(X=x)=0x
Macro
@Macro, es el primer sorteo de sorteos independientes; es la estadística de primer orden (puede preferir escribir lugar). Hice la notación más precisa en respuesta a sus otros comentarios. X1NY1X(1)
Charlie