¿Podemos decir que el 50% de los datos estará entre el percentil 25 y 75?

8

Digamos que tenemos el siguiente marco de datos:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

Estoy un poco confundido aquí. Si obtenemos el percentil 75, el 75% de los datos deberían estar por debajo de ese percentil. Y si podemos el percentil 25, el 25% de los datos debería estar por debajo de ese 25. Ahora estoy pensando que el 50% de los datos deberían estar entre el 25 y el 50. Y también el percentil 50 me da un valor diferente. Lo suficientemente justo, lo que significa que el 50% de los datos deben estar por debajo de este valor. Pero mi pregunta es si mi enfoque es correcto?

EDITAR: ¿Y también podemos decir que el 98% de los datos estarán entre el 1 ° y el 99 ° percentil?

Don codificador
fuente
2
Sí, ¡pero también puedes decir que el 50% de los datos no lo serán!
James

Respuestas:

30

Si.

  • El 75% de sus datos están por debajo del percentil 75.
  • El 25% de sus datos están por debajo del percentil 25.
  • Por lo tanto, el 50% (= 75% -25%) de sus datos están entre los dos, es decir, entre el percentil 25 y 75.
  • De manera completamente análoga, el 98% de sus datos se encuentran entre el 1 ° y el 99 ° percentil.
  • Y la mitad inferior de sus datos, nuevamente 50%, está por debajo del percentil 50.

Es posible que estos números no sean completamente correctos, especialmente si tiene un número bajo de datos. Tenga en cuenta también que hay diferentes convenciones sobre cómo se calculan realmente los cuantiles y percentiles .

Stephan Kolassa
fuente
55
Otra razón por la cual sus números pueden estar apagados es cuando tiene muchos vínculos (observaciones con el mismo valor)
Maarten Buis
44
"Percentil usado más común": ¿quiere decir qué tipo según el typeargumento en Rquantile() ? Hyndman & Fan recomiendan el tipo 7, que también es el predeterminado. Para ser honesto, las diferencias son menores. ¿O quieres decir qué porcentaje se usa comúnmente? Eso dependerá de su aplicación, no podemos ayudarlo con eso. Y, por supuesto, cuantos más datos obtenga, más precisa será. El nivel de precisión suficiente dependerá de sus datos y su aplicación.
Stephan Kolassa
2
El nivel que necesita dependerá de para qué utilizará su análisis.
Stephan Kolassa
2
"No es completamente correcto, especialmente si tiene un número bajo de datos". - podría valer la pena aclarar esto ya que hay dos factores que puedo ver en juego: (1) el tamaño de la muestra puede no ser exactamente divisible por 4 o 100 o lo que sea necesario para el cuantil en cuestión; (2) los puntos de datos pueden no ser únicos (por ejemplo, para datos en un número entero, escala 1 a 5, puede esperar muchos valores repetidos; los cuartiles en ese caso pueden comportarse muy mal con respecto a propiedades como "50% de datos se encuentran por encima de la mediana "o" entre Q1 y Q3 "y los percentiles son a menudo una pérdida de tiempo)
Silverfish
1
@StephanKolassa, parece que Hyndman y Fan recomendaron el tipo 8. (que también se menciona en ?quantile).
Axeman
2

Idealmente, si.

Los percentiles generalmente se interpretan en términos de la distribución normal (ya que la normalidad es a menudo una suposición subyacente, a veces no declarada, al calcular cualquier tipo de medidas estadísticas elementales). Sin embargo, la distribución no tiene que ser normal.

Según este sitio web ...

La distribución normal estándar también puede ser útil para calcular percentiles . Por ejemplo, la mediana es el percentil 50, el primer cuartil es el percentil 25 y el tercer cuartil es el percentil 75. En algunos casos, puede ser de interés calcular otros percentiles, por ejemplo, el 5 ° o el 95 °. La siguiente fórmula se usa para calcular los percentiles de una distribución normal:X=μ+Zσ

Entonces, si asumimos la normalidad, podemos calcular fácilmente cualquier percentil que estamos buscando. Sin embargo, los percentiles no requieren supuestos de distribución y están vinculados a los datos a partir de los cuales se calculan. Esto significa que los percentiles pueden proporcionar puntos de referencia significativos para distribuciones normales y no normales. También puede usar percentiles en una interpretación de probabilidad, por supuesto, en base a las mediciones que tiene actualmente, que podrían ser buenos o malos indicadores de la verdadera distribución subyacente.

Según este sitio ...

Interpretación directa: considere el décimo (P10) y 90 (P90) percentiles: "dados los datos disponibles, sabemos que la propiedad del suelo 10% del tiempo y, 90% del tiempo". Esta misma afirmación se puede enmarcar usando probabilidades o proporciones: "dados los datos disponibles, la propiedad del suelo está dentro del rango de { } el 80% del tiempo".p<P10p<P90pP10P90

ERT
fuente
10
Para ser honesto, no creo que su énfasis en la distribución normal sea útil aquí. El OP solo está interesado en los percentiles empíricos.
Stephan Kolassa
De acuerdo con @StephanKolassa, especialmente porque los datos de ejemplo del OP no son normales.
Nuclear Wang