¿Calcular un percentil es lo mismo que evaluar una función de densidad acumulativa?

8

Estoy tratando de dar el salto desde la idea de un percentil, por ejemplo, sobre la recta numérica real (donde el enésimo percentil es simplemente la posición en la que n% de los puntos de datos están por debajo de él, y 100-n% están por encima de él ), a la idea del área bajo una función de densidad de probabilidad.

Si quiero saber el percentil 50% de un conjunto de números, encontraré el punto en el que la mitad de los números están debajo, la mitad de los números están arriba. Ese es el percentil 50%, y ya terminé.

Si quiero saber el percentil 50% de una distribución, digamos, un puntaje Z, evaluaré el cdf de 0 a 50, y listo. ¿Estoy diciendo esto correcto?

Esto se siente intuitivamente, pero necesito un poco de discusión para ponerlo a punto. O podría estar completamente fuera ...

tumultous_rooster
fuente

Respuestas:

5

Estás cerca pero no exactamente en lo correcto. Recuerde que el área bajo una distribución de probabilidad tiene que sumar 1. La función de densidad acumulativa (CDF) es una función con valores en [0,1] ya que CDF se define como donde f (x) es la función de densidad de probabilidad. Entonces el percentil 50 es la probabilidad total del 50% de las muestras, lo que significa el punto donde el CDF alcanza 0.5. O, en términos más generales, el percentil p es el punto donde el CDF alcanza p / 100.

F(a)=af(x)dx
goker
fuente
3
Quizás valga la pena señalar qué tan cerca se acercó el OP: en lugar de "evaluar un CDF", deberían evaluar un CDF inverso .
Silverfish
1
tan cerca pero tan lejos ... :)
tumultous_rooster
En general, la inversa de un CDF (en el sentido habitual, es decir, inversa de una función) puede no existir. Deberíamos considerar el llamado inverso generalizado (o pseudo-inverso) de un CDF.
Danny Pak-Keung Chan
1

No. Esencialmente, calcular un percentil (o un p-cuantil) es equivalente a encontrar el inverso de un CDF.

Tenga en cuenta que la inversa, en el sentido habitual, de un CDF puede no existir y se debe introducir la noción de inversa generalizada. Para que la discusión sea precisa, aclaramos todas las definiciones.

Definición: Un CDF es una función que cumple las siguientes condiciones:F:[,][0,1]

  1. (En aumento) Para cualquier , si , entonces ,x,y[,]x<yF(x)F(y)

  2. (Continuidad derecha) Para cualquier , tenemos que ,aRF(a)=limxa+F(x)

  3. F()=limxF(x)=0 , y

  4. F()=limxF(x)=1 .

Tenemos al menos dos versiones de inverso generalizado de , denotado por e , que se definen de la siguiente manera.FInv1FInv2F

Inv1F:[0,1][,] , definido porInv1F(x)=inf{yF(y)x},

Inv2F:[0,1][,] , definido por .Inv2F(x)=inf{yF(y)>x}

Aquí, adoptamos la convención que .inf()=

Si no recuerdo mal, dado , el -quantile se define simplemente como .p[0,1]pInv1F(p)

Por supuesto, si es estrictamente creciente y continuo, ambas versiones de inverso generalizado son iguales y se reducen al inverso habitual de la funciónFF1:[0,1][,].

Para más información: https://people.math.ethz.ch/~embrecht/ftp/generalized_inverse.pdf

Danny Pak-Keung Chan
fuente