Recientemente leí el consejo de que, en general, debe usar la mediana, no significa eliminar los valores atípicos. Ejemplo: El siguiente artículo http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
tiene 16 opiniones en este momento:
review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Debido a que usan Mean, el artículo obtiene 4 estrellas, pero si usarían Median obtendrían 5 estrellas.
¿No es la mediana un juez 'más justo'?
Un experimento muestra que el error de la mediana siempre es mayor que la media. ¿La mediana es peor?
library(foreach)
#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)
#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))
#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)
res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)
Respuestas:
El problema es que realmente no has definido lo que significa tener una calificación buena o justa. Sugiere en un comentario sobre la respuesta de @ Kevin que no le gusta si una mala crítica elimina un elemento. Pero al comparar dos elementos donde uno tiene un "registro perfecto" y el otro tiene una mala crítica, tal vez esa diferencia debería reflejarse.
Hay un continuo completo (de alta dimensión) entre la mediana y la media. Puede ordenar los votos por valor, luego tomar un promedio ponderado con los pesos dependiendo de la posición en ese orden. La media corresponde a que todos los pesos son iguales, la mediana corresponde a solo una o dos entradas en el medio que obtienen un peso distinto de cero, un promedio recortado corresponde a dar a todos, excepto al primero y al último par, el mismo peso, pero también puede decidir ponderar th de n muestras con peso 1k n oexp(-(2k-1-n)211+(2k−1−n)2 , para arrojar algo al azar allí. ¿Tal vez un promedio ponderado en el que los valores atípicos obtienen menos peso, pero aún una cantidad distinta de cero, podría combinar buenas propiedades de mediana y media?exp(−(2k−1−n)2n2)
fuente
La respuesta que obtenga depende de la pregunta que haga.
La media y la mediana responden diferentes preguntas. Entonces dan diferentes respuestas. No es que uno sea "más justo" que otro. Las medianas a menudo se usan con datos muy sesgados (como los ingresos). Pero, incluso allí, a veces la media es mejor. Y a veces no quieres NINGUNA medida de tendencia central.
Además, cada vez que proporcione una medida de tendencia central, debe dar alguna medida de propagación. Los emparejamientos más comunes son la desviación estándar media y el rango medio-cuartil. En estos datos, dar solo una mediana de 5 es, creo, engañoso o, al menos, poco informativo. La mediana también sería 5 si cada voto fuera un 5.
fuente
Si las únicas opciones son números enteros en el rango de 1 a 5, ¿se puede considerar realmente un valor atípico?
fuente
Depende de la función de costo que use.
MSE se minimiza por la media. Por lo tanto, si usa MSE, la mediana siempre será peor que la media.
PERO, si usaras un error absoluto, ¡entonces la media sería peor!
Una buena explicación sobre esto se puede encontrar aquí: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/
La elección depende de su problema y preferencias. Si no desea que los valores atípicos tengan un gran impacto en la posición del "punto central", elija la mediana. Si te importan los valores atípicos, eliges la media.
fuente
Solo un pensamiento rápido:
Si supone que cada calificación se obtiene de una variable continua latente, podría definir la mediana de esta variable de interés continua subyacente como su valor de interés, en lugar de la media de esta distribución subyacente. Cuando la distribución es simétrica, la media y la mediana en última instancia estarían estimando las mismas cantidades. Donde la distribución es sesgada, la mediana diferirá de la media. En este caso, en mi opinión, la mediana correspondería más a lo que consideramos el valor típico. Esto sirve para entender por qué los ingresos medios y los precios promedio de las viviendas se informan en lugar de la media.
Sin embargo, cuando tiene una pequeña cantidad de valores discretos, la mediana funciona mal.
Tal vez, podría usar algún procedimiento de estimación de densidad y luego tomar la mediana de eso, o usar alguna mediana interpolada.
fuente
Lo mejor de usar la mediana para las calificaciones de estrellas es que los usuarios inteligentes (conscientes del uso de la mediana) no "jugarán" el sistema:
Si un usuario racional piensa que la calificación adecuada debería ser 4 estrellas, pero actualmente tiene 4.5 estrellas, entonces la mejor manera de llegar a cuatro estrellas (suponiendo que haya habido más de seis votos) es votar 1 estrella en un sistema de calificación basado en la media .
Mientras que en un sistema basado en la mediana, la elección racional del usuario es simplemente votar exactamente el número de estrellas que el usuario cree que debería tener el producto.
Es una especie de subasta de segundo precio equivalente para los sistemas de clasificación por estrellas.
fuente
Varias buenas respuestas aún dejan espacio para más comentarios.
Primero, nadie se ha opuesto a la idea de que la mediana está destinada a eliminar los valores atípicos, pero lo calificaré. El significado deseado es evidente, pero es fácil que los datos reales sean más complicados. A lo sumo, la mediana está destinada a descontar o ignorar los valores atípicos, pero incluso eso no está garantizado. Por ejemplo, con calificaciones de 1 1 1 5 5 5, la mediana y la media coinciden en 3, por lo que todo puede parecer bueno. Pero un 5 extra inclinará la mediana a 5 y un 1 extra inclinará la mediana a 1. La media se movería aproximadamente 0.286 en cada caso. Por lo tanto, la media es aquí más resistente que la mediana. El ejemplo puede descartarse como inusual, pero no es indignante. El punto no es original, naturalmente. Un lugar donde se hace es en Mosteller, F. y Tukey, JW 1977. Análisis y regresión de datos.Reading, MA: Addison-Wesley, págs. 34-35.
En segundo lugar, se han mencionado los medios recortados y la idea merece un mayor impulso. La media y la mediana no necesitan ser alternativas rígidas para que el analista deba elegir (votar) una u otra. Puede considerar todos los medios recortados posibles basados en recortar un cierto número de valores en cada cola . La tabla muestra como # el número de valores incluidos en el cálculo de la media:
La imagen principal aquí es que puede elegir su tasa de descuento (ignore tantos valores en cada cola como sospechoso) como un tipo de seguro contra el riesgo de estar fuera debido a valores extremos. Lo que veo es un gradiente bastante suave entre la media y la mediana, que se espera aquí porque los posibles valores 1, 2, 3, 4, 5 están todos presentes en los datos. Se espera un gran salto en la secuencia con un valor atípico aislado.
No hay obligación con los medios recortados para recortar números iguales en cada cola, pero no voy a ampliar en eso.
Tercero, el ejemplo es de las reseñas de Amazon. El contexto siempre es pertinente para guiar cómo desea resumir los datos . ¡En el caso de las reseñas de Amazon, la mejor respuesta es leer las reseñas! Como las calificaciones altas y bajas pueden ser falsas (implícitamente: el autor de este libro es mi amigo) y / o irrelevante para su decisión (explícitamente: el revendedor me trató mal), no hay un obvio para mí. implicación sobre cómo resumir dichos datos y, de hecho, mostrándole la distribución que Amazon está siendo sumamente informativa.
Cuarto, y el más elemental pero también fundamental de todos, ¿quién te está haciendo elegir? En ocasiones, se deben informar tanto la media como la mediana (y, como se dijo, también un gráfico de distribución).
fuente