¿Hay 99 percentiles o 100 percentiles? ¿Y son grupos de números, o divisores o punteros a números individuales?

27

¿Hay 99 percentiles o 100 percentiles? ¿Y son grupos de números, o líneas divisorias, o punteros a números individuales?

Supongo que la misma pregunta se aplicaría para cuartiles o cualquier cuantil.

He leído que el índice de un número en un percentil particular (p), dado n elementos, es i = (p / 100) * n

Eso me sugiere que hay 100 percentiles ... porque suponiendo que tenga 100 números (i = 1 a i = 100), cada uno tendría un índice (1 a 100).

Si tuviera 200 números, habría 100 percentiles, pero cada uno se referiría a un grupo de dos números. O 100 divisores excluyendo el divisor del extremo izquierdo o del extremo derecho porque de lo contrario obtendría 101 divisores. O punteros a números individuales para que el primer percentil se refiera al segundo número, (1/100) * 200 = 2 Y el percentil cien se refiera al número 200 (100/100) * 200 = 200

Sin embargo, a veces he oído que hay 99 percentiles.

Google muestra el diccionario de Oxford que dice del percentil: "cada uno de los 100 grupos iguales en los que se puede dividir una población de acuerdo con la distribución de valores de una variable en particular". y "cada uno de los 99 valores intermedios de una variable aleatoria que divide una distribución de frecuencia en 100 de tales grupos".

Wikipedia dice que "el percentil 20 es el valor por debajo del cual se puede encontrar el 20% de las observaciones" Pero en realidad significa "el valor por debajo o igual al cual, se puede encontrar el 20% de las observaciones", es decir, el valor para % de los valores son <= a él ". Si fuera solo <y no <=, entonces Por ese razonamiento, el percentil 100 sería el valor por debajo del cual se puede encontrar el 100% de los valores. He escuchado eso como un argumento de que no puede haber un percentil 100, porque no puedes tener un número donde haya 100% de los números debajo de él. Pero creo que tal vez el argumento de que no se puede tener un percentil 100 es incorrecto y se basa en un error de que la definición de un percentil implica <= no <. (o> = no>). Entonces el percentil cien sería el número final y sería>

barlop
fuente
44
Creo que es poco probable que 100 sea una respuesta razonable debido a su tratamiento asimétrico de los extremos. Se pueden hacer casos para 99 (como en la definición que cita) o 101.
whuber
44
Históricamente, los cuantiles, como ahora decimos genéricamente, fueron primero puntos de resumen, y luego, por extensión, los contenedores, clases o intervalos que delimitan. Entonces tres cuartiles, incluida la mediana, definen cuatro contenedores, y así sucesivamente.
Nick Cox
1
@whuber Usted escribe "Creo que es poco probable que 100 sea una respuesta razonable debido a su tratamiento asimétrico de los extremos". <- ¿Puedes dar más detalles sobre eso?
barlop
3
Enumero los primeros usos de varios términos cuantiles en stats.stackexchange.com/questions/235330/… . Si mira dentro del OED o jstor obtendrá ejemplos de uso histórico.
Nick Cox
2
@whuber Sí, parece que lo que estoy haciendo referencia se llama correctamente "rango de percentil", utilizado en informes de puntaje de prueba & c .: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / resources / glossary . Disculpas por agregar a la confusión. En mi defensa, la diferencia parece depender del uso de las preposiciones "en" vs. "en" (ver primer enlace).
Jeff Y

Respuestas:

32

Ambos sentidos de percentil , cuartil , etc. se usan ampliamente. Es más fácil ilustrar la diferencia con cuartiles:

  1. el sentido del "divisor": hay 3 cuartiles, que son los valores que dividen la distribución (o muestra) en 4 partes iguales:

       1   2   3
    ---|---|---|---
    

    (A veces, esto se usa con valores máximos y mínimos incluidos, por lo que hay 5 cuartiles numerados del 0 al 4; tenga en cuenta que esto no entra en conflicto con la numeración anterior, solo la extiende).

  2. el sentido "bin": hay 4 cuartiles, los subconjuntos en los que esos 3 valores dividen la distribución (o muestra)

     1   2   3   4
    ---|---|---|---
    

Ninguno de los dos usos puede llamarse razonablemente "incorrecto": ambos son utilizados por muchos profesionales experimentados, y ambos aparecen en muchas fuentes autorizadas (libros de texto, diccionarios técnicos y similares).

Con los cuartiles, el sentido que se usa generalmente es claro por el contexto: hablar de un valor en el tercer cuartil solo puede ser el sentido "bin", mientras que hablar de todos los valores por debajo del tercer cuartil probablemente significa el sentido "divisor". Con los percentiles, la distinción a menudo no está clara, pero tampoco es tan significativa para la mayoría de los propósitos, ya que el 1% de una distribución es muy pequeña: una franja estrecha es aproximadamente una línea. Hablar de todos los que están por encima del percentil 80 podría significar el 20% superior o el 19% superior, pero en un contexto informal que no es una gran diferencia, y en un trabajo riguroso, el significado necesario debería aclararse presumiblemente por el resto del contexto.

(Partes de esta respuesta están adaptadas de /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , que también da citas + referencias).

PLL
fuente
2
(+1) Esta respuesta tardía llega muy bien al meollo del asunto.
Nick Cox
¿Qué pasa con en.wikipedia.org/wiki/Percentile dice que "cada puntaje está en el percentil 100" <- eso suena como un contenedor del tamaño de todo el conjunto de datos, mientras que sus contenedores son todos del mismo tamaño
barlop
1
La entrada de Wikipedia dice eso. No puedo pensar en una defensa para tal redacción. Wikipedia es maravillosa, excepto cuando es engañosa o incorrecta. Eso sonará impertinente, pero todo lo que puedo hacer es alentar a cualquiera que esté viendo que esté activo en Wikipedia a mejorar la entrada. Todos tienen que tener reglas para lo que hacen y no hacen, y estar activo aquí y en algunos otros lugares es mi límite personal.
Nick Cox
5

Tome esta respuesta con un grano de sal: comenzó bastante mal y todavía estoy decidiendo qué hacer con ella.

La pregunta es en parte sobre el lenguaje y el uso, mientras que esta respuesta se centra en las matemáticas. Espero que las matemáticas proporcionen un marco para comprender los diferentes usos.

xfFF1(x)zF1(z/100)F es 1) no invertible, 2) solo invertible en cierto dominio, o 3) invertible pero su inverso nunca alcanza ciertos valores.

Ejemplo de 1): dejaré esto para el final; sigue leyendo.

F1(1)F1(0)F(0.5)

Otro ejemplo de 2): para una distribución uniforme en los dos intervalos disjuntos de 0 a 1 y de 2 a 3, el CDF se ve así.

ingrese la descripción de la imagen aquí

La mayoría de los cuantiles de esta distribución existen y son únicos, pero la mediana (percentil 50) es intrínsecamente ambigua. En R, van a mitad de camino: quantile(c(runif(100), runif(100) + 2), 0.5)devuelve alrededor de 1.5.

±

z/100yF(y)=z/100

ingrese la descripción de la imagen aquí

Para el percentil 60, R devuelve 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Para el percentil 65, R también devuelve 1. Puede pensar en esto como sacar 100 observaciones, clasificarlas de menor a mayor y devolver el elemento 60 o 65. Si hace esto, con mayor frecuencia obtendrá 1.

Cuando se trata de datos reales, todas las distribuciones son discretas. (El CDF empírico de runif(100)o np.random.random(100)tiene 100 incrementos agrupados alrededor de 0.5.) Pero, en lugar de tratarlos como discretos, la quantilefunción de R parece tratarlos como muestras de distribuciones continuas. Por ejemplo, la mediana (el percentil 50 o el cuantil 0.5) de la muestra 3,4, 5, 6, 7, 8 se da como 5.5. Si extrae 2n muestras de una distribución unif (3,8) y toma cualquier número entre la enésima y (n + 1) th muestra, convergerá en 5.5 a medida que n aumente.

Es interesante considerar también la distribución uniforme discreta con la misma probabilidad de golpear 3,4,5,6,7,8. (Una tirada de dados más dos). Si toma el enfoque de muestra y clasificación descrito anteriormente para la distribución de Poisson, generalmente obtendrá 5 o 6. A medida que las muestras se hacen más grandes, la distribución del número a la mitad convergerá a la mitad cinco y medio sesenta. 5.5 parece un compromiso razonable aquí también.

eric_kernfeld
fuente
2
F1[0,1]F[0,1]F
whuber
Buen punto. He tratado de separar algunos casos para aclarar eso. ¿Cómo mejorarías la discusión de la continuidad? La interpretación de los cuantiles como estimadores es el punto central de mi respuesta; realmente no tienen sentido para mí sin eso.
eric_kernfeld
Re el último: los cuantiles no necesitan estimar nada. Son útiles por derecho propio para describir y visualizar datos (y a menudo se usan solo como estadísticas descriptivas). Continuidad: creo que la mayoría de las autoridades dirían que existen todos los percentiles para distribuciones discretas. Insistir de otra manera es una complicación innecesaria. También haría que los resultados de la mayoría de los cálculos de software fueran completamente misteriosos, que felizmente proporcionan todos los cuantiles del 0 al 1 ( inclusive ) para cualquier conjunto de datos. En R, por ejemplo, escriba quantile(0).
Whuber
Esta discusión me ha hecho darme cuenta de que no entiendo los cuantiles de distribuciones discretas. Creo que debería eliminar esta respuesta.
eric_kernfeld
1
La gente varía sobre esto, Eric. Cuando mis respuestas son tan incorrectas que pueden ser engañosas, primero las borro. Si veo algún valor potencial en parte de la respuesta, lo edito para eliminar (o explicar) la parte engañosa y luego recuperarla. Otros simplemente dejan que las cosas se pongan de pie y toman sus bultos en la votación; otros agregan una edición que sugiere que puede ser valioso que los lectores vean dónde podría haber ocurrido algún malentendido; otros solo lo borran. Incluso puede cambiar completamente la respuesta si lo desea, como a veces se hace.
Whuber
2

Me enseñaron que una observación en el enésimo percentil era mayor que n% de las observaciones en el conjunto de datos en consideración. Lo que para mí implica que no hay percentil 0 o 100. Ninguna observación puede ser mayor al 100% de las observaciones porque forma parte de ese 100% (y una lógica similar se aplica en el caso de 0).

Editar: Para lo que vale, esto también es consistente con el uso no académico del término que he encontrado: "X está en el enésimo percentil " implica que el percentil es el grupo, no un límite.

Desafortunadamente no tengo una fuente para esto a la que pueda señalarle.

mkt - Restablecer a Monica
fuente
66
¿Tiene una referencia autorizada para lo que recuerda haber sido enseñado? Tenga en cuenta que está adoptando implícitamente una definición de "percentil" como un grupo de números. La otra definición citada en la pregunta es que el percentil es un límite entre dichos grupos.
whuber
1
Eso no tiene sentido para mí porque supongamos que sus datos son 2,2,2,2,2,2,2,2,2,2,2 por lo que un elemento en un cuantil es igual a un elemento a su izquierda en un Cuantil anterior. Por lo tanto, un elemento en el enésimo cuantil no es mayor que todos los cuantiles restantes. Por lo tanto, un elemento en el enésimo percentil no es mayor que n% de las observaciones en el conjunto de datos. Es> = n% de observaciones en el conjunto de datos, pero no simplemente>. Y por lo tanto, puedes tener un centésimo centésimo ... ¿qué piensas de esa lógica?
barlop
44
¡Muchas definiciones se ven afectadas si todos los valores son idénticos!
Nick Cox
2
Los que tienen una inclinación matemática abstracta e idealizan, mientras que los que escriben software necesitan lidiar con el desorden de los datos. Su ejemplo de 16 valores sería tratado de manera diferente por el software que conozco, que sigue una regla de que los valores idénticos deben agruparse de forma idéntica (y estoy de acuerdo). Me sorprende que no haya agonizado sobre los datos con 15 o 17 valores, donde incluso si todos los valores son distintos, ninguna regla puede dividir los datos en 4 contenedores de igual tamaño.
Nick Cox
3
¿Cuál es la lógica similar para cero? ¿"Mayor que cero por ciento de las observaciones" no significa "igual o menor que todas las observaciones", es decir, el percentil 0 sería el valor más bajo observado?
ilkkachu
2

Hay otras formas de calcular percentiles, lo que sigue, no es el único. Tomado de esta fuente .


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

Ejemplo de las mismas notas para ilustración:

ingrese la descripción de la imagen aquí

7507

Si tuviera 200 números, habría 100 percentiles, pero cada uno se referiría a un grupo de dos números.

No.

x1x200

100(10.5)200100(20.5)200100(30.5)200...

Resultando en

0.25,0.75,1.25...1,2,3,...

ingenuo
fuente
3
La primera oración se ve muy bien, y una de las palabras más importantes es aproximadamente , luego, esta es una explicación cuidadosa de una sola receta. La clave es que hay varias recetas y la mayoría, si no todas, tienen alguna lógica defendible sobre ellas (a veces la lógica es mantener las cosas lo más simples posible). Vea el documento de Hyndman y Fan mencionado en muchos hilos aquí en CV. Dudo que muchas personas tomen su último párrafo como la forma de informar percentiles para su ejemplo.
Nick Cox
@Nick Cox Gracias por el perspicaz comentario. Sobre el último párrafo, creo que el método debería funcionar bien cuando todas las observaciones son diferentes entre sí. En caso de números repetidos, no habrá un percentil único para el mismo número que no suena bien. ¿Podría sugerirnos cómo manejar el caso? ¿Y podría señalar también las posibles dificultades en el último párrafo?
ingenuo
1
No creo que quiera o necesite agregar a lo que ya está bien explicado en la literatura de revistas. Primero, tienes un software favorito para esto. Vea lo que documenta y lo que hace. En segundo lugar, no he calculado percentiles a mano durante algunas décadas, y ninguno de nosotros necesita hacerlo. Tercero, mi punto sobre el último párrafo: supongo que a nadie le gustaría que le digan que los puntos de datos observados son los percentiles 0.25, 0.75, 1.25, ... Lo que la gente quiere varía, pero en mi experiencia es más común querer resúmenes como 1, 5, 10, 25, 50, 75, 90, 95, 99% de puntos, así como los extremos de la muestra.
Nick Cox
1
Acabo de notar que afirmas que 0.5 está en la jerga de EDA, a menudo llamado valor p para la mediana. No en mi lectura, e incluso si puede encontrar ejemplos que son una terminología terrible dado un abrumador sentido mayoritario para el valor p como nivel de significación observado.
Nick Cox
Revisaré el documento que sugirió. Gracias
ingenuo
0

Nota: aceptaré la respuesta de otra persona en lugar de la mía. Pero veo algunos comentarios útiles, así que solo estoy escribiendo una respuesta que los menciona.

Basado en la terminología de "-iles" de la respuesta de Nick para el medio por ciento superior

parece que los términos son ambiguos, y supongo (según mi comprensión de esa publicación), una mejor terminología sería X% point y X% -Y% group; punto de cuantil (entonces para puntos de cuartil que pueden ser de 0 a 4); grupo cuantil que va del punto cuantil X al punto cuantil Y.

De cualquier manera, uno obtendría 101 por percentiles, aunque un comentario sugiere que uno podría referirse a 101 puntos (supongo que si contara puntos porcentuales, y solo enteros), pero incluso entonces, si se habla de 1 °, 2 °, 3 °, percentil o cuantil, está contando y uno no puede contar el primero como 0, y no puede tener, por ejemplo, más de 4 cuartiles o más de 100 percentiles. Entonces, si hablamos primero, segundo, tercero, esa terminología no puede referirse realmente al punto 0. Si alguien dijo el punto 0, entonces, aunque está claro que significan el punto 0, creo que realmente deberían decir el punto cuantil 0. O el grupo cuantil en el punto 0. Incluso los informáticos no dirían 0th; incluso cuentan el primer elemento como 1, y si lo llaman elemento 0, eso es una indexación desde 0, no un recuento.

Un comentario menciona "No puede haber 100. 99 o 101, dependiendo de si cuenta máximo y mínimo". Creo que hay un caso para 99 o 101, cuando se habla de puntos cuantiles en lugar de grupos, aunque no diría 0th. Para n ítems, un índice puede ir de 0 ... n-1 y uno no escribiría th / st, por ejemplo, primero, segundo, etc., en un índice (a menos que tal vez el índice indice el primer ítem como 1). Pero un índice que comienza el primer elemento con un índice de 0 no es un primer, segundo, tercer recuento. por ejemplo, el elemento con índice de 0 es el primer elemento, uno no diría 0 y etiquetaría el segundo elemento como primero.

barlop
fuente
Cualquier ambigüedad fue introducida por aquellos que se apartaron de un claro precedente histórico. No muerde duro en la práctica.
Nick Cox
Todos los matemáticos comienzan a contar en cero. El concepto es simple y natural: decir la palabra "cero" en voz alta anuncia la intención de contar. Luego se hace una asignación individual (quizás arbitraria) de la secuencia de palabras "uno", "dos", "tres", etc. a los objetos que se cuentan. La última de esas palabras (si hay una última) se equipara con la cardinalidad del conjunto. La belleza de esta idea es que cuando no hay elementos en el conjunto, la última palabra que se dijo fue "cero", que es el valor correcto único.
whuber
@whuber escribes "Todos los matemáticos comienzan a contar en cero" <- ¿Dónde crees que dije lo contrario?
barlop
"está contando y uno no puede contar el primero como 0".
whuber
1
@whuber posiblemente muchos podrían, creo que hace muchos años podría haberlo hecho, ya que cuando estudiaba ciencias de la computación, a veces escuché que los informáticos cuentan desde 0, unilke matemáticos (ese no es tu reclamo ni el mío), pero después de pensarlo profundamente, obtuve más claridad y me di cuenta de que los informáticos y los matemáticos cuentan desde 0 .. La diferencia es que los informáticos a menudo usan un índice y el índice indexa el primer elemento como 0. (pero aún así contaría sería 1) ...
barlop