Cuartiles en Excel

10

Estoy interesado en la definición de cuartil que generalmente se usa cuando estás en estadísticas básicas. Tengo un libro de tipo Stat 101 y solo da una definición intuitiva. "Aproximadamente una cuarta parte de los datos cae en o debajo del primer cuartil ..." Pero, da un ejemplo donde calcula Q1, Q2 y Q3 para el conjunto de datos

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

Como hay 15 piezas de datos, elige 15 como la mediana, Q2. Luego divide los datos restantes en dos mitades, 5 a 14 y 16 a 37. Cada uno contiene 7 datos y encuentran la mediana de cada uno de estos conjuntos, 10 y 18, como Q1 y Q3, respectivamente. Así es como lo calcularía yo mismo.

Miré el artículo de Wikipedia y da 2 métodos. Uno está de acuerdo con lo anterior, y uno dice que también podría incluir la mediana 15 en ambos conjuntos (pero no incluiría la mediana si fuera el promedio de los dos números intermedios en el caso de un número par de puntos de datos). Todo esto tiene sentido para mí.

Pero, luego verifiqué Excel para ver cómo Excel lo calcula. Estoy usando Excel 2010, que tiene 3 funciones diferentes. Cuartil estaba disponible en 2007 y versiones anteriores. Parece que quieren que dejes de usar esto en 2010, pero todavía está disponible. Quartile.Inc es nuevo pero, por lo que puedo decir, coincide exactamente con Quartile. Y también está Quartile.Exc. Los dos últimos son nuevos en 2010, creo. Esta vez, intenté usar los enteros 1, 2, 3, ..., 10. Espero que Excel dé una mediana de 5.5, Q1 de 3 y Q3 de 8. El método del libro de estadísticas también ya que ambos métodos en Wikipedia darían estas respuestas, ya que la mediana es el promedio de los dos números del medio. Excel da

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

Ninguno de estos está de acuerdo con lo que he hablado anteriormente.

Las descripciones en el archivo de ayuda para Excel son:

Quartile.Inc: devuelve el cuartil de un conjunto de datos, basado en valores de percentil de 0..1, inclusive.

Quartile.Exc: devuelve el cuartil del conjunto de datos, basado en valores de percentil de 0..1, exclusivo.

¿Alguien puede ayudarme a entender esta definición que Excel está usando?

Graphth
fuente
55
Otra gran ilustración de por qué no usar Excel para nada estadístico. :-)
Wayne
1
Los amigos no dejan que sus amigos usen Excel para las estadísticas. Triste pero cierto
Chris Beeley

Respuestas:

11

Típicamente, un rango (entre y para datos) se convierte a un porcentaje a través de la fórmularn n p1nnp

p=100rαn+12α

para alguna "posición de trazado" predeterminada entre y , inclusive. Resolver para en términos de da0 1 r pα01rp

r=(n+12α)(p/100)+α.

Excel ha utilizado históricamente para sus y funcionesα=1PERCENTILEQUARTILE . La documentación en línea para QUARTILE.INCy QUARTILE.EXCes inútil, por lo que tenemos que aplicar ingeniería inversa a lo que están haciendo estas funciones.

Por ejemplo, con datos , tenemos y para los tres cuartiles. El uso de en la fórmula anterior arroja rangos de , y , reproduciendo los resultados para .n = 10 p { 25 , 50 , 75 } α = 1 9 ( 0.25(1,2,3,4,5,6,7,8,9,10)n=10p{25,50,75}α=19 ( 0.50 ) + 1 = 5.5 9 ( 0.75 ) + 1 =9(0.25)+1=3.259(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

Si, en cambio, establecemos los rangos correspondientes son , y , reproduciendo los resultados para .11 ( 0.25 ) = 2.75 11 ( 0.50 ) = 5.5 11 ( 0.75 ) = 8.25α=011(0.25)=2.7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

Pruebas adicionales de su parte (no tengo una versión reciente de Excel) pueden establecer la validez de mi suposición de que estas dos versiones de la función de cuartil están determinadas por estos dos valores (extremos) deα .

Por cierto, los rangos fraccionarios se convierten en valores de datos mediante interpolación lineal. El proceso se explica e ilustra en las notas de mi curso en Percentiles y EDF Plots: busque cerca de la parte inferior de esa página. También hay un enlace a una hoja de cálculo de Excel que ilustra los cálculos.

Si desea implementar una función de percentil general en Excel , aquí hay una macro VBA para hacerlo:

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

Convierte un porcentaje nominal (como 25/100) en el porcentaje que haría que la PERCENTILEfunción de Excel devolviera el valor deseado. Está destinado para su uso en fórmulas celulares, como en =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5)).

whuber
fuente
Tenga en cuenta que una vez que comprende exactamente lo que está haciendo Excel, puede usarlo de manera efectiva para el trabajo estadístico.
whuber
55
Si puedo estar en desacuerdo humorísticamente con su comentario: Excel se puede usar de manera efectiva para el trabajo estadístico, si usted es un asistente de estadística que puede probar a partir de los principios básicos lo que se debe hacer, luego realice ingeniería inversa de los métodos de Excel para determinar lo que realmente está haciendo. Cuando eres tan bueno, casi cualquier herramienta servirá. Aunque también señalaría que en este hilo, el 100% de los asistentes involucrados en esta discusión hasta el momento no tienen acceso a la última versión de Excel, por lo que es poco probable que lo usen.
Wayne
Touche ', @Wayne. (Pero algunos de nosotros todavía usamos versiones anteriores de Excel :-).)
whuber
1
Whuber, gracias por compartir la solución VBA. Esto será extremadamente útil. Como alguien que necesita hacer estadísticas pero está atascado con Excel como la única herramienta fácilmente disponible (sí, he intentado R, pero no puedo entenderlo), aprecio las herramientas que ayudan a adaptar Excel a mis necesidades.
DAV
4

Me parece que Excel está de quartile.incacuerdo con el original quartile, que está de acuerdo con el valor predeterminado de R y otras definiciones.

Con una sugerencia útil de whuber, descubrí que Excel quartile.excparece estar de acuerdo (en el caso 1..10) con la type=6definición de cuantilo de R :

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

Lo que aparentemente responde a su pregunta: "Sí, Minitab y SPSS lo hacen".

Wayne
fuente
¿R no tiene nueve definiciones de cuantiles? (+1 para la edición, por cierto)
whuber
@whuber: ¡No prestes atención al hombre detrás de la cortina! (Editaré mi respuesta. En un examen más detallado, coincide con una de las otras definiciones de R, que evidentemente es lo que usan Minitab y SPSS. ¡Gracias!)
Wayne
2

Creo que el sabor exc del cuartil es simplemente ignorar el 5 y el 37 (mínimo y máximo en sus datos originales).

En Stata, las versiones predeterminadas y alternativas le dan valores de cuartil.exc con estos datos.

Dimitriy V. Masterov
fuente
Esta suposición parece ser inconsistente con la documentación que afirma que max y min pueden ser devueltos por QUARTILE.EXC.
whuber
En mi versión de Excel 2010, QUARTILE.EXC (rango de celdas, k) devolverá # ¡NUM! a menos que k = {1,2,3}, que corresponden a los percentiles 25, 50 y 75 de acuerdo con el menú emergente que aparece. El QUARTIL original también aceptará 0 y 4 como segundo argumento, que corresponden al mínimo y al máximo.
Dimitriy V. Masterov
1
La documentación indica "Si cuarto ≤ 0 o si cuarto ≥ 4, QUARTILE.EXC devuelve el valor de error # ¡NÚMERO!". Eso parece verdad. La segunda declaración "MIN, MEDIAN y MAX devuelve el mismo valor que QUARTILE.EXC cuando el cuarto es igual a 0 (cero), 2 y 4, respectivamente" parece falso a menos que me falte algo. ¡Que desastre!
Dimitriy V. Masterov
+1 ¡Gracias por comprobar esto, Dimitriy! De hecho, la única diferencia entre mi conjetura y la tuya (que efectivamente convierte en y resta de cada rango) es que mi fórmula realmente debería devolver el mínimo y el máximo para los percentiles 0 y 100, respectivamente, en lugar de , parece que tu caracterización es la mejor (pero mi caracterización proporciona justificación para la tuya). Me pregunto qué hace la función actual de Excel . :-)n - 1 1nn11#NUM!PERCENTILE
whuber
1
Los 3 sabores del percentil se comportan de la misma manera que el cuartil para mí. Para los datos 5-37, PERCENTILE.EXC (rango, k) da # ¡NÚMERO! para k = {0,1}. Para k = 0.25, PERCENTILE.EXC da 10. Si tiro 5 y 37, da 10.5, lo que concuerda con las otras 2 formas.
Dimitriy V. Masterov
2

Un montón de cosas detalladas e interesantes, pero para volver a la pregunta original, no veo que realmente importen dos formas ligeramente diferentes que podrían no dar exactamente la misma respuesta. El primer quatil es el punto en el que el 25% de las observaciones caen en o debajo de él. Dependiendo del tamaño de su muestra que puede o no ser un punto exacto en los datos. Entonces, si un punto está debajo y el siguiente está arriba, este primer cuartil no está realmente bien definido y cualquier punto entre estos dos puede servir igualmente bien. Lo mismo es cierto para la mediana cuando el tamaño de la muestra es par. La regla selecciona el punto medio entre los puntos de datos a continuación y arriba. Pero nada realmente dice que la elección dada por la regla es realmente mejor que cualquier otro punto.

Michael R. Chernick
fuente
+1. Sin embargo, me gustaría sugerir que este razonamiento, aunque es apropiado para algunas aplicaciones, puede ser demasiado limitado para fines generales: algunas opciones de posición de trazado ( entre y , generalmente) proporcionan valores ligeramente mejores para diagrama de probabilidad, por ejemplo. Esto no va a ser relevante para computar cuartiles, como usted nota, pero será relevante para computar los percentiles más extremos. Calcular percentiles está tan estrechamente relacionado con el cálculo del cuartil (estoy seguro de que es el mismo código subyacente) que vale la pena tener en cuenta estas "cosas detalladas", en mi humilde opinión. 1 / 3 1 / 2α1/31/2
whuber
0

Para aquellos de ustedes que usan Excel, hay un desglose bastante bueno de los diferentes métodos de versión aquí http://peltiertech.com/WordPress/comparison/

Peter
fuente
2
Sería mejor si pudieras resumirlos en tu respuesta. Si bien el enlace puede responder la pregunta, a veces se desactualizan, en cuyo caso su respuesta no será útil para futuros lectores.
Andy
0

En Excel 2016 noté que se pueden obtener valores correctos de cuartiles si:

  • el conjunto de datos tiene un número impar de entradas: use QUARTILE.EXC
  • el conjunto de datos tiene un número par de entradas: use el promedio de QUARTILE.EXC y QUARTILE.INC
Max Knyazeff
fuente
1
Dadas cuántas definiciones de cuantiles hay como se evidencia en algunas de las otras respuestas, ¿puede explicar lo que quiere decir con los valores correctos?
mdewey