En mi trabajo, cuando las personas se refieren al valor "medio" de un conjunto de datos, generalmente se refieren a la media aritmética (es decir, "promedio" o "valor esperado"). Si proporcionara la media geométrica , la gente probablemente pensaría que estoy siendo sarcástica o que no soy útil, ya que la definición de "media" se conoce de antemano.
Estoy tratando de determinar si hay múltiples definiciones de la "mediana" de un conjunto de datos. Por ejemplo, una de las definiciones proporcionadas por un colega para encontrar la mediana de un conjunto de datos con un número par de elementos sería:
Algoritmo 'A'
- Divide el número de elementos entre dos, redondea hacia abajo.
- Ese valor es el índice de la mediana.
- es decir, para el siguiente conjunto, la mediana sería
5
. [4, 5, 6, 7]
Esto parece tener sentido, aunque el aspecto de redondeo parece un poco arbitrario.
Algoritmo 'B'
En cualquier caso, otro colega ha propuesto un algoritmo separado, que estaba en un libro de texto de estadísticas suyo (necesita obtener el nombre y el autor):
- Divida el número de elementos entre 2 y guarde una copia de los enteros redondeados hacia arriba y hacia abajo. Nómbralos
n_lo
yn_hi
. - Tome la media aritmética de los elementos en
n_lo
yn_hi
. - es decir, para el siguiente conjunto, la mediana sería
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Sin embargo, esto parece incorrecto, ya que el valor medio, 5.5
en este caso, no está realmente en el conjunto de datos original. Cuando cambiamos el algoritmo 'A' por 'B' en algún código de prueba, se rompió horriblemente (como esperábamos).
Pregunta
¿Existe un "nombre" formal para estos dos enfoques para calcular la mediana de un conjunto de datos? es decir, ¿"mediana menor de dos" versus "mediana de elementos medios y nuevos datos"?
fuente
Respuestas:
TL; DR: no tengo conocimiento de que se den nombres específicos a diferentes estimadores de medianas de muestra. Los métodos para estimar las estadísticas de muestra a partir de algunos datos son bastante exigentes y los diferentes recursos dan diferentes definiciones.
En Hogg, McKean y Craig's Introduction to Mathematical Statistics , los autores proporcionan una definición de medianas de muestras aleatorias , ¡pero solo en el caso de que haya un número impar de muestras! Los autores escriben
El algoritmo B tiene la propiedad de que la mitad de los datos caen por encima del valor y la mitad de los datos caen por debajo del valor. A la luz de la definición de la mediana de una variable aleatoria , esto parece agradable.
Si un estimador particular rompe o no las pruebas unitarias es una propiedad de las pruebas unitarias; las pruebas unitarias escritas contra un estimador específico no necesariamente se cumplirán cuando sustituya a otro estimador. En el caso ideal, las pruebas unitarias se eligieron porque reflejan las necesidades críticas de su organización, no por un argumento doctrinario sobre las definiciones.
fuente
Lo que dice @Sycorax.
De hecho, hay sorprendentemente muchas definiciones de cuantiles generales, en particular también de medianas. Hyndman y Fan (1996, The American Statistician ) ofrecen una visión general que, AFAIK, sigue siendo exhaustiva. Los diferentes tipos no tienen nombres formales. Es posible que simplemente necesite tener claro qué tipo está utilizando. (A menudo no hace una gran diferencia con los conjuntos de datos de tamaños realistas).
Tenga en cuenta que comúnmente se acepta tener un valor que no está presente en el conjunto de datos como la mediana, por ejemplo, 5.5 como mediana para (4, 5, 6, 7). Este es el comportamiento predeterminado para R:
Las R
median()
por defecto usan el tipo 7 de la clasificación de Hyndman & Fan.fuente
En la
mad
función de R , utiliza los términos "lo-mediana" para describir su algoritmo A, "hi-mediana" para describir el redondeo, y simplemente "mediana" para describir su algoritmo B (que, como otros han notado, es de lejos La definición más común).¡Curiosamente, no existe tal opción en la
median()
función de R ! (Pero R'squantile()
tienetype
un buen control).fuente