Estoy trabajando en un libro de texto de estadísticas mientras aprendo R y me he encontrado con un obstáculo en el siguiente ejemplo:
Después de mirar ?quantile
, intenté recrear esto en R con lo siguiente:
> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
0% 25% 50% 75% 100%
6.0 9.5 16.0 28.0 104.0
Dado que el texto y R tienen resultados diferentes, deduzco que R está utilizando la mediana en el cálculo del primer y tercer cuartiles.
Pregunta:
¿Debo incluir la mediana en el cálculo del primer y tercer cuartiles?
Más específicamente, ¿el libro de texto o R tiene esto correcto? Si el libro de texto tiene esta correcta, ¿hay alguna manera de lograr esto correctamente en R?
Gracias por adelantado.
quantile
tipos 1, 2 y 6 los reproducirán para un conjunto de datos de este tamaño particular . Ninguno de losR
métodos corresponde a su libro de texto. (Uno se pregunta sobre la calidad de este texto ...)quantile
están haciendo los diferentes tipos .?quantile
Respuestas:
Tu libro de texto está confundido. Muy pocas personas o software definen cuartiles de esta manera. (Tiende a hacer que el primer cuartil sea demasiado pequeño y el tercer cuartil demasiado grande).
¡La
quantile
funciónR
implementa nueve formas diferentes de calcular cuantiles! Para ver cuál de ellos, si corresponde, corresponde a este método, comencemos por implementarlo. De la descripción podemos escribir un algoritmo, primero matemáticamente y luego enR
:Ordene los datos .x1≤x2≤⋯≤xn
Para cualquier conjunto de datos, la mediana es su valor medio cuando hay un número impar de valores; de lo contrario, es el promedio de los dos valores medios cuando hay un número par de valores.
R
'smedian
función calcula esto.Aquí hay una implementación. Puede ayudarlo a hacer sus ejercicios en este libro de texto.
Por ejemplo, la salida de
quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))
está de acuerdo con el texto:Calculemos cuartiles para algunos conjuntos de datos pequeños utilizando los diez métodos: los nueve en
R
y los libros de texto:Cuando ejecute esto y verifique, encontrará que los valores del libro de texto no concuerdan con ninguno de los
R
resultados para los tres tamaños de muestra. (El patrón de desacuerdos continúa en los ciclos del período tres, lo que demuestra que el problema persiste sin importar qué tan grande sea la muestra).fuente
Dentro del campo de la estadística (que enseño, pero en el que no soy investigador), los cálculos del cuartil son particularmente ambiguos (de una manera que no es necesariamente cierto para los cuantiles, en general). Esto tiene mucha historia detrás, en parte debido al uso (y quizás al abuso) del rango intercuartil (IQR), que es insensible a los valores atípicos, como un control o una alternativa a la desviación estándar. Sigue siendo un concurso abierto, con tres métodos distintivos para calcular Q1 y Q3 que son co-canónicos.
Como suele ser el caso, el artículo de Wikipedia tiene un resumen razonable: https://en.m.wikipedia.org/wiki/Quartile El texto de Larson y Farber, como la mayoría de los textos de estadísticas elementales, utiliza lo que se describe en el artículo de Wikipedia como " Método 1." Si sigo las descripciones anteriores, r usa el "Método 3". Tendrás que decidir por ti mismo cuál es canónicamente apropiado en tu propio campo.
fuente