Estoy interesado en la definición de cuartil que generalmente se usa cuando estás en estadísticas básicas. Tengo un libro de tipo Stat 101 y solo da una definición intuitiva. "Aproximadamente una cuarta parte de los datos cae en o debajo del primer cuartil ..." Pero, da un ejemplo donde calcula Q1, Q2 y Q3 para el conjunto de datos
5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37
Como hay 15 piezas de datos, elige 15 como la mediana, Q2. Luego divide los datos restantes en dos mitades, 5 a 14 y 16 a 37. Cada uno contiene 7 datos y encuentran la mediana de cada uno de estos conjuntos, 10 y 18, como Q1 y Q3, respectivamente. Así es como lo calcularía yo mismo.
Miré el artículo de Wikipedia y da 2 métodos. Uno está de acuerdo con lo anterior, y uno dice que también podría incluir la mediana 15 en ambos conjuntos (pero no incluiría la mediana si fuera el promedio de los dos números intermedios en el caso de un número par de puntos de datos). Todo esto tiene sentido para mí.
Pero, luego verifiqué Excel para ver cómo Excel lo calcula. Estoy usando Excel 2010, que tiene 3 funciones diferentes. Cuartil estaba disponible en 2007 y versiones anteriores. Parece que quieren que dejes de usar esto en 2010, pero todavía está disponible. Quartile.Inc es nuevo pero, por lo que puedo decir, coincide exactamente con Quartile. Y también está Quartile.Exc. Los dos últimos son nuevos en 2010, creo. Esta vez, intenté usar los enteros 1, 2, 3, ..., 10. Espero que Excel dé una mediana de 5.5, Q1 de 3 y Q3 de 8. El método del libro de estadísticas también ya que ambos métodos en Wikipedia darían estas respuestas, ya que la mediana es el promedio de los dos números del medio. Excel da
quartile number, Quartile.Inc, Quartile.Exc
1, 3.25, 2.75
2, 5.5, 5.5
3, 7.75, 8.25
Ninguno de estos está de acuerdo con lo que he hablado anteriormente.
Las descripciones en el archivo de ayuda para Excel son:
Quartile.Inc: devuelve el cuartil de un conjunto de datos, basado en valores de percentil de 0..1, inclusive.
Quartile.Exc: devuelve el cuartil del conjunto de datos, basado en valores de percentil de 0..1, exclusivo.
¿Alguien puede ayudarme a entender esta definición que Excel está usando?
Respuestas:
Típicamente, un rango (entre y para datos) se convierte a un porcentaje a través de la fórmular n n p1 norte norte pag
para alguna "posición de trazado" predeterminada entre y , inclusive. Resolver para en términos de da0 1 r pα 0 0 1 r pag
Excel ha utilizado históricamente para sus y funcionesα = 1
PERCENTILE
QUARTILE
. La documentación en línea paraQUARTILE.INC
yQUARTILE.EXC
es inútil, por lo que tenemos que aplicar ingeniería inversa a lo que están haciendo estas funciones.Por ejemplo, con datos , tenemos y para los tres cuartiles. El uso de en la fórmula anterior arroja rangos de , y , reproduciendo los resultados para .n = 10 p ∈ { 25 , 50 , 75 } α = 1 9 ( 0.25( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 ) n = 10 p ∈ { 25 , 50 , 75 } α = 1 9 ( 0.50 ) + 1 = 5.5 9 ( 0.75 ) + 1 =9 ( 0.25 ) + 1 = 3.25 9 ( 0.50 ) + 1 = 5.5 9 ( 0,75 ) + 1 = 7,75
QUARTILE.INC
Si, en cambio, establecemos los rangos correspondientes son , y , reproduciendo los resultados para .11 ( 0.25 ) = 2.75 11 ( 0.50 ) = 5.5 11 ( 0.75 ) = 8.25α = 0 11 ( 0.25 ) = 2.75 11(0.50)=5.5 11(0.75)=8.25
QUARTILE.EXC
Pruebas adicionales de su parte (no tengo una versión reciente de Excel) pueden establecer la validez de mi suposición de que estas dos versiones de la función de cuartil están determinadas por estos dos valores (extremos) deα .
Por cierto, los rangos fraccionarios se convierten en valores de datos mediante interpolación lineal. El proceso se explica e ilustra en las notas de mi curso en Percentiles y EDF Plots: busque cerca de la parte inferior de esa página. También hay un enlace a una hoja de cálculo de Excel que ilustra los cálculos.
Si desea implementar una función de percentil general en Excel , aquí hay una macro VBA para hacerlo:
Convierte un porcentaje nominal (como 25/100) en el porcentaje que haría que la
PERCENTILE
función de Excel devolviera el valor deseado. Está destinado para su uso en fórmulas celulares, como en=PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5))
.fuente
Me parece que Excel está de
quartile.inc
acuerdo con el originalquartile
, que está de acuerdo con el valor predeterminado de R y otras definiciones.Con una sugerencia útil de whuber, descubrí que Excel
quartile.exc
parece estar de acuerdo (en el caso 1..10) con latype=6
definición de cuantilo de R :Lo que aparentemente responde a su pregunta: "Sí, Minitab y SPSS lo hacen".
fuente
Creo que el sabor exc del cuartil es simplemente ignorar el 5 y el 37 (mínimo y máximo en sus datos originales).
En Stata, las versiones predeterminadas y alternativas le dan valores de cuartil.exc con estos datos.
fuente
QUARTILE.EXC
.#NUM!
PERCENTILE
Un montón de cosas detalladas e interesantes, pero para volver a la pregunta original, no veo que realmente importen dos formas ligeramente diferentes que podrían no dar exactamente la misma respuesta. El primer quatil es el punto en el que el 25% de las observaciones caen en o debajo de él. Dependiendo del tamaño de su muestra que puede o no ser un punto exacto en los datos. Entonces, si un punto está debajo y el siguiente está arriba, este primer cuartil no está realmente bien definido y cualquier punto entre estos dos puede servir igualmente bien. Lo mismo es cierto para la mediana cuando el tamaño de la muestra es par. La regla selecciona el punto medio entre los puntos de datos a continuación y arriba. Pero nada realmente dice que la elección dada por la regla es realmente mejor que cualquier otro punto.
fuente
Para aquellos de ustedes que usan Excel, hay un desglose bastante bueno de los diferentes métodos de versión aquí http://peltiertech.com/WordPress/comparison/
fuente
En Excel 2016 noté que se pueden obtener valores correctos de cuartiles si:
fuente