¿Pesar un sistema de calificación para favorecer los artículos con una calificación alta por más personas sobre los artículos con una calificación alta por menos personas?

Gracias de antemano por ayudarme, no soy un estadista de ningún tipo y no sé cómo describir lo que estoy imaginando, por lo que Google no me está ayudando aquí ...

Incluyo un sistema de calificación en una aplicación web en la que estoy trabajando. Cada usuario puede calificar cada elemento exactamente una vez.

Estaba imaginando una escala con 4 valores: "fuertemente disgusto", "disgusto", "me gusta" y "fuertemente me gusta", y había planeado asignar estos valores de -5, -2, +2 y +5 respectivamente .

Ahora, si cada ítem tuviera la misma cantidad de calificaciones, entonces me sentiría bastante cómodo con este sistema de puntuación, ya que diferenciaría claramente los ítems que más gustan y los que menos gustan. Sin embargo, los artículos no tendrán el mismo número de calificaciones, y la disparidad entre el número de votos en diferentes fotos puede ser bastante dramática.

En ese caso, comparar los puntajes acumulativos en dos ítems significa que un ítem antiguo con muchas calificaciones mediocres tendrá un puntaje mucho más alto que un ítem nuevo excepcional con muchos menos votos.

Entonces, la primera cosa obvia que pensé de nosotros es que tomamos un promedio ... pero ahora si un artículo tiene solo una calificación de "+5", tiene un promedio mejor que un artículo que tiene una calificación de 99 "+5". y 1 "+2" de calificación. Intuitivamente, esa no es una representación precisa de la popularidad de un artículo.

Me imagino que este problema es común y ustedes no necesitan que lo explique con más ejemplos, así que me detendré en este punto y elaboraré comentarios si es necesario.

Mis preguntas son:

¿Cómo se llama este tipo de problema, y hay un término para las técnicas utilizadas para resolverlo? Me gustaría saber esto para poder leerlo.
Si conoce algún recurso amigable para el tema sobre el tema, le agradecería mucho un enlace.
Finalmente, agradecería cualquier otra sugerencia sobre cómo recolectar y analizar efectivamente este tipo de datos.

scales rating Andrés
fuente

Respuestas:

Una forma de combatir esto es usar proporciones en cada categoría, lo que no requiere que ingrese números para cada categoría (puede dejarlo como 80% calificado como "me gusta"). Sin embargo, las proporciones sufren por el pequeño número de emisiones de calificaciones . Esto se muestra en su ejemplo, la foto con calificación 1 +5 obtendría un puntaje promedio (y proporción) más alto que uno con la calificación 99 +5 y 1 +2. Esto no encaja bien con mi intuición (y sospecho que la mayoría de las personas).

Una forma de solucionar este problema de tamaño de muestra pequeño es utilizar una técnica bayesiana conocida como " la regla de sucesión de Laplace " (buscar este término puede ser útil). Simplemente implica agregar 1 "observación" a cada categoría antes de calcular las probabilidades. Si desea tomar un promedio para un valor numérico, sugeriría un promedio ponderado donde los pesos son las probabilidades calculadas por la regla de sucesión.

$n_{sd},n_{d},n_{l},n_{sl}$ $n_{sl}=1,n_{sd}=n_{d}=n{l}=0$ $n_{sl}=99,n_{l}=1,n_{sd}=n_{d}=0$

PAG r ("Me gusta mucho") = \frac{{norte}_{s l} + 1}{{norte}_{s re} + {norte}_{re} + {norte}_{l} + {norte}_{s l} + 4 4}

$Pr(\text{"Strongly Like"}) = \frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

$\frac{1+1}{1+0+0+0+4}=\frac{2}{5}$ $\frac{99+1}{99+1+0+0+4}=\frac{100}{104}$ $\frac{1}{1}$ $\frac{99}{100}$

Los puntajes respectivos son dados por el promedio ponderado, que he escrito a continuación como:

S C o r mi = \begin{matrix} 5 5 \frac{{norte}_{s l} + 1}{{norte}_{s re} + {norte}_{re} + {norte}_{l} + {norte}_{s l} + 4 4} + 2 \frac{{norte}_{l} + 1}{{norte}_{s re} + {norte}_{re} + {norte}_{l} + {norte}_{s l} + 4 4} \\ - 2 \frac{{norte}_{re} + 1}{{norte}_{s re} + {norte}_{re} + {norte}_{l} + {norte}_{s l} + 4 4} - 5 5 \frac{{norte}_{s re} + 1}{{norte}_{s re} + {norte}_{re} + {norte}_{l} + {norte}_{s l} + 4 4} \end{matrix}

$Score=\begin{array}{1 1} 5\frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}+2\frac{n_{l}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} \\ - 2\frac{n_{d}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} -5\frac{n_{sd}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}\end{array}$

O más sucintamente como

S C o r mi = \frac{5 5 {norte}_{s l} + 2 {norte}_{l} - 2 {norte}_{re} - 5 5 {norte}_{s re}}{{norte}_{s re} + {norte}_{re} + {norte}_{l} + {norte}_{s l} + 4 4}

$Score=\frac{5 n_{sl}+ 2 n_{l} - 2 n_{d} - 5 n_{sd}}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

$\frac{5}{5}=1$ $\frac{497}{104}\sim 4.8$

Esto puede haber sido un poco "matemático", así que avíseme si necesita más explicaciones.

probabilidadislogica
fuente

Eso fue un poco "matemático" para mí, e inicialmente no entendí la fórmula, pero lo leí cuidadosamente unas tres veces y ¡hizo clic! Esto es exactamente lo que estaba buscando, y su explicación fue muy clara, incluso para alguien que no es matemático o estadístico en absoluto. ¡Muchas gracias!

Andrew

Muy buena respuesta no técnica, y un enfoque que no hubiera pensado en mí mismo. Solo agregaría que es posible agregar cualquier número de 'observaciones' falsas a cada categoría en lugar de 1, incluidos los números no enteros. Esto le da flexibilidad para decidir cuánto quiere "reducir" hacia cero las puntuaciones de los artículos con pocos votos. Y si desea una descripción técnica de este método, podría decir que está realizando un análisis bayesiano de datos de una distribución multinomial utilizando un Dirichlet simétrico antes.

parada el

Si bien pueden parecer observaciones "falsas", tienen un significado bien definido cuando es +1 (a diferencia de +2 o superior, que realmente son números "falsos" o números de una recopilación de datos anterior). Básicamente describe un estado de conocimiento de que es posible votar por cada categoría, antes de observar cualquier dato. Esto es precisamente lo que hace el plano anterior en el (N-1) simplex.

chanceislogic

Una observación más, para las futuras personas que encuentren esta publicación: al implementar esto en mi modelo, tomé el puntaje final y lo multipliqué por 20, lo que da un rango de -100 a 100 del peor al mejor puntaje posible (aunque supongo que técnicamente esos son límites que nunca puedes alcanzar, pero entiendes la idea). ¡Esto hace que la salida para los usuarios de mi aplicación sea muy intuitiva!

Andrew

@probabilityislogic: ¿seguramente algún parámetro estrictamente positivo para el Dirichlet describe previamente que todas las probabilidades están estrictamente entre 0 y 1? Y este argumento sugiere establecerlos en 2 / m, donde m es el número de categorías, en lugar de 1: en.wikipedia.org/wiki/…

onestop

Tomaría un enfoque gráfico. El eje x podría ser una calificación promedio y la y podría ser una cantidad de calificaciones. Solía hacer esto con estadísticas deportivas para comparar la contribución de los fenómenos jóvenes con la de las estrellas veteranas. Cuanto más cerca esté un punto de la esquina superior derecha, más cerca del ideal. Por supuesto, decidir sobre el "mejor" ítem aún sería una decisión subjetiva, pero esto proporcionaría cierta estructura.

Si desea graficar la calificación promedio frente a otra variable, puede configurar el número de calificaciones como la tercera variable usando el tamaño de burbuja, en un gráfico de burbujas, por ejemplo, en XL o SAS.

rolando2
fuente