¿Hay 99 percentiles o 100 percentiles? ¿Y son grupos de números, o líneas divisorias, o punteros a números individuales?
Supongo que la misma pregunta se aplicaría para cuartiles o cualquier cuantil.
He leído que el índice de un número en un percentil particular (p), dado n elementos, es i = (p / 100) * n
Eso me sugiere que hay 100 percentiles ... porque suponiendo que tenga 100 números (i = 1 a i = 100), cada uno tendría un índice (1 a 100).
Si tuviera 200 números, habría 100 percentiles, pero cada uno se referiría a un grupo de dos números. O 100 divisores excluyendo el divisor del extremo izquierdo o del extremo derecho porque de lo contrario obtendría 101 divisores. O punteros a números individuales para que el primer percentil se refiera al segundo número, (1/100) * 200 = 2 Y el percentil cien se refiera al número 200 (100/100) * 200 = 200
Sin embargo, a veces he oído que hay 99 percentiles.
Google muestra el diccionario de Oxford que dice del percentil: "cada uno de los 100 grupos iguales en los que se puede dividir una población de acuerdo con la distribución de valores de una variable en particular". y "cada uno de los 99 valores intermedios de una variable aleatoria que divide una distribución de frecuencia en 100 de tales grupos".
Wikipedia dice que "el percentil 20 es el valor por debajo del cual se puede encontrar el 20% de las observaciones" Pero en realidad significa "el valor por debajo o igual al cual, se puede encontrar el 20% de las observaciones", es decir, el valor para % de los valores son <= a él ". Si fuera solo <y no <=, entonces Por ese razonamiento, el percentil 100 sería el valor por debajo del cual se puede encontrar el 100% de los valores. He escuchado eso como un argumento de que no puede haber un percentil 100, porque no puedes tener un número donde haya 100% de los números debajo de él. Pero creo que tal vez el argumento de que no se puede tener un percentil 100 es incorrecto y se basa en un error de que la definición de un percentil implica <= no <. (o> = no>). Entonces el percentil cien sería el número final y sería>
Respuestas:
Ambos sentidos de percentil , cuartil , etc. se usan ampliamente. Es más fácil ilustrar la diferencia con cuartiles:
el sentido del "divisor": hay 3 cuartiles, que son los valores que dividen la distribución (o muestra) en 4 partes iguales:
(A veces, esto se usa con valores máximos y mínimos incluidos, por lo que hay 5 cuartiles numerados del 0 al 4; tenga en cuenta que esto no entra en conflicto con la numeración anterior, solo la extiende).
el sentido "bin": hay 4 cuartiles, los subconjuntos en los que esos 3 valores dividen la distribución (o muestra)
Ninguno de los dos usos puede llamarse razonablemente "incorrecto": ambos son utilizados por muchos profesionales experimentados, y ambos aparecen en muchas fuentes autorizadas (libros de texto, diccionarios técnicos y similares).
Con los cuartiles, el sentido que se usa generalmente es claro por el contexto: hablar de un valor en el tercer cuartil solo puede ser el sentido "bin", mientras que hablar de todos los valores por debajo del tercer cuartil probablemente significa el sentido "divisor". Con los percentiles, la distinción a menudo no está clara, pero tampoco es tan significativa para la mayoría de los propósitos, ya que el 1% de una distribución es muy pequeña: una franja estrecha es aproximadamente una línea. Hablar de todos los que están por encima del percentil 80 podría significar el 20% superior o el 19% superior, pero en un contexto informal que no es una gran diferencia, y en un trabajo riguroso, el significado necesario debería aclararse presumiblemente por el resto del contexto.
(Partes de esta respuesta están adaptadas de /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , que también da citas + referencias).
fuente
Tome esta respuesta con un grano de sal: comenzó bastante mal y todavía estoy decidiendo qué hacer con ella.
La pregunta es en parte sobre el lenguaje y el uso, mientras que esta respuesta se centra en las matemáticas. Espero que las matemáticas proporcionen un marco para comprender los diferentes usos.
Ejemplo de 1): dejaré esto para el final; sigue leyendo.
Otro ejemplo de 2): para una distribución uniforme en los dos intervalos disjuntos de 0 a 1 y de 2 a 3, el CDF se ve así.
La mayoría de los cuantiles de esta distribución existen y son únicos, pero la mediana (percentil 50) es intrínsecamente ambigua. En R, van a mitad de camino:
quantile(c(runif(100), runif(100) + 2), 0.5)
devuelve alrededor de 1.5.Para el percentil 60, R devuelve 1 (
quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)
). Para el percentil 65, R también devuelve 1. Puede pensar en esto como sacar 100 observaciones, clasificarlas de menor a mayor y devolver el elemento 60 o 65. Si hace esto, con mayor frecuencia obtendrá 1.Cuando se trata de datos reales, todas las distribuciones son discretas. (El CDF empírico de
runif(100)
onp.random.random(100)
tiene 100 incrementos agrupados alrededor de 0.5.) Pero, en lugar de tratarlos como discretos, laquantile
función de R parece tratarlos como muestras de distribuciones continuas. Por ejemplo, la mediana (el percentil 50 o el cuantil 0.5) de la muestra 3,4, 5, 6, 7, 8 se da como 5.5. Si extrae 2n muestras de una distribución unif (3,8) y toma cualquier número entre la enésima y (n + 1) th muestra, convergerá en 5.5 a medida que n aumente.Es interesante considerar también la distribución uniforme discreta con la misma probabilidad de golpear 3,4,5,6,7,8. (Una tirada de dados más dos). Si toma el enfoque de muestra y clasificación descrito anteriormente para la distribución de Poisson, generalmente obtendrá 5 o 6. A medida que las muestras se hacen más grandes, la distribución del número a la mitad convergerá a la mitad cinco y medio sesenta. 5.5 parece un compromiso razonable aquí también.
fuente
R
, por ejemplo, escribaquantile(0)
.Me enseñaron que una observación en el enésimo percentil era mayor que n% de las observaciones en el conjunto de datos en consideración. Lo que para mí implica que no hay percentil 0 o 100. Ninguna observación puede ser mayor al 100% de las observaciones porque forma parte de ese 100% (y una lógica similar se aplica en el caso de 0).
Editar: Para lo que vale, esto también es consistente con el uso no académico del término que he encontrado: "X está en el enésimo percentil " implica que el percentil es el grupo, no un límite.
Desafortunadamente no tengo una fuente para esto a la que pueda señalarle.
fuente
Hay otras formas de calcular percentiles, lo que sigue, no es el único. Tomado de esta fuente .
Ejemplo de las mismas notas para ilustración:
No.
Resultando en
fuente
Nota: aceptaré la respuesta de otra persona en lugar de la mía. Pero veo algunos comentarios útiles, así que solo estoy escribiendo una respuesta que los menciona.
Basado en la terminología de "-iles" de la respuesta de Nick para el medio por ciento superior
parece que los términos son ambiguos, y supongo (según mi comprensión de esa publicación), una mejor terminología sería X% point y X% -Y% group; punto de cuantil (entonces para puntos de cuartil que pueden ser de 0 a 4); grupo cuantil que va del punto cuantil X al punto cuantil Y.
De cualquier manera, uno obtendría 101 por percentiles, aunque un comentario sugiere que uno podría referirse a 101 puntos (supongo que si contara puntos porcentuales, y solo enteros), pero incluso entonces, si se habla de 1 °, 2 °, 3 °, percentil o cuantil, está contando y uno no puede contar el primero como 0, y no puede tener, por ejemplo, más de 4 cuartiles o más de 100 percentiles. Entonces, si hablamos primero, segundo, tercero, esa terminología no puede referirse realmente al punto 0. Si alguien dijo el punto 0, entonces, aunque está claro que significan el punto 0, creo que realmente deberían decir el punto cuantil 0. O el grupo cuantil en el punto 0. Incluso los informáticos no dirían 0th; incluso cuentan el primer elemento como 1, y si lo llaman elemento 0, eso es una indexación desde 0, no un recuento.
Un comentario menciona "No puede haber 100. 99 o 101, dependiendo de si cuenta máximo y mínimo". Creo que hay un caso para 99 o 101, cuando se habla de puntos cuantiles en lugar de grupos, aunque no diría 0th. Para n ítems, un índice puede ir de 0 ... n-1 y uno no escribiría th / st, por ejemplo, primero, segundo, etc., en un índice (a menos que tal vez el índice indice el primer ítem como 1). Pero un índice que comienza el primer elemento con un índice de 0 no es un primer, segundo, tercer recuento. por ejemplo, el elemento con índice de 0 es el primer elemento, uno no diría 0 y etiquetaría el segundo elemento como primero.
fuente