¿Cómo encontrar intervalos de confianza para las calificaciones?

32

" Cómo no ordenar por calificación promedio " de Evan Miller propone utilizar el límite inferior de un intervalo de confianza para obtener un "puntaje" agregado razonable para los elementos calificados. Sin embargo, está funcionando con un modelo de Bernoulli: las calificaciones son pulgares hacia arriba o hacia abajo.

¿Qué es un intervalo de confianza razonable para usar para un modelo de calificación que asigna una puntuación discreta de a estrellas, suponiendo que el número de calificaciones para un artículo puede ser pequeño?k1k

Creo que puedo ver cómo adaptar el centro de los intervalos Wilson y Agresti-Coull como

p~=i=1nxi+zα/22p0n+zα/22

donde o (probablemente mejor) es la calificación promedio de todos los artículos. Sin embargo, no estoy seguro de cómo adaptar el ancho del intervalo. Mi mejor conjetura (revisada) seríap0=k+12

p~±zα/2n~i=1n(xip~)2+zα/2(p0p~)2n~

con , pero no puedo justificarlo con más que agitarlo a mano como una analogía de Agresti-Coull, tomando eso comon~=n+zα/22

Estimate(X¯)±zα/2n~Estimate(Var(X))

¿Existen intervalos de confianza estándar que se aplican? (Tenga en cuenta que no tengo suscripciones a ninguna revista o acceso fácil a la biblioteca de una universidad; de todos modos, brinde las referencias adecuadas, ¡pero complemente con el resultado real!)

Peter Taylor
fuente
44
Debido a que las respuestas actuales (tal vez por cortesía) han eludido este problema, me gustaría señalar que esta aplicación es un terrible abuso de los límites de confianza. No existe una justificación teórica para usar la LCL para clasificar las medias (y hay muchas razones por las cuales la LCL es realmente peor que la media en sí misma para fines de clasificación). Por lo tanto, esta pregunta se basa en un enfoque erróneo, que puede ser la razón por la que ha atraído relativamente poca atención.
whuber
2
Una buena característica de esta pregunta en particular es que contiene suficiente contexto para ignorar la pregunta real y centrarnos en lo que parecía ser la más importante subyacente.
Karl
1
Me alegra que hayas modificado el título cambiado a tu gusto, Peter. Mi edición original fue hecha no para ser egoísta, sino para hacer que el título refleje el texto de la pregunta. Eres el árbitro final de lo que realmente quieres decir.
whuber

Respuestas:

23

Como dijo Karl Broman en su respuesta, un enfoque bayesiano probablemente sería mucho mejor que usar intervalos de confianza.

El problema con los intervalos de confianza

¿Por qué el uso de intervalos de confianza no funciona demasiado bien? Una razón es que si no tiene muchas clasificaciones para un artículo, su intervalo de confianza será muy amplio, por lo que el límite inferior del intervalo de confianza será pequeño. Por lo tanto, los elementos sin muchas calificaciones terminarán al final de su lista.

Intuitivamente, sin embargo, es probable que desee que los artículos sin muchas calificaciones estén cerca del artículo promedio, por lo que desea mover su calificación estimada del artículo hacia la calificación media sobre todos los artículos (es decir, desea empujar su calificación estimada hacia una anterior ) . Esto es exactamente lo que hace un enfoque bayesiano.

Enfoque bayesiano I: distribución normal sobre calificaciones

Una forma de mover la calificación estimada hacia un previo es, como en la respuesta de Karl, usar una estimación de la forma :wR+(1w)C

  • R es la media sobre las calificaciones de los artículos.
  • C es la media sobre todos los elementos (o lo que sea anterior a lo que desea reducir su calificación).
  • Obsérvese que la fórmula es sólo una combinación ponderada de y .CRC
  • Rvmw=vv+m es el peso asignado a , donde es el número de revisiones para la cerveza es algún tipo de parámetro de "umbral" constante.Rvm
  • Tenga en cuenta que cuando es muy grande, es decir, cuando tenemos muchas calificaciones para el elemento actual, entonces está muy cerca de 1, por lo que nuestra calificación estimada está muy cerca de y prestamos poca atención a la anterior . Sin embargo, cuando es pequeño, está muy cerca de 0, por lo que la calificación estimada le da mucho peso a la anterior .w R C v w CvwRCvwC

De hecho, a esta estimación se le puede dar una interpretación bayesiana como la estimación posterior de la calificación media del elemento cuando las calificaciones individuales provienen de una distribución normal centrada alrededor de esa media.

Sin embargo, asumir que las calificaciones provienen de una distribución normal tiene dos problemas:

  • Una distribución normal es continua , pero las calificaciones son discretas .
  • Las clasificaciones de un artículo no necesariamente siguen una forma gaussiana unimodal. Por ejemplo, tal vez su artículo es muy polarizante, por lo que las personas tienden a darle una calificación muy alta o una calificación muy baja.

Enfoque bayesiano II: distribución multinomial sobre calificaciones

Entonces, en lugar de asumir una distribución normal para las calificaciones, supongamos una distribución multinomial . Es decir, dado un elemento específico, hay una probabilidad que un usuario aleatorio le otorgue 1 estrella, una probabilidad que un usuario aleatorio le otorgue 2 estrellas, y así sucesivamente.p 2p1p2

Por supuesto, no tenemos idea de cuáles son estas probabilidades. A medida que obtengamos más y más calificaciones para este artículo, podemos suponer que está cerca de , donde es el número de usuarios que le dieron 1 estrella es el número total de usuarios que calificaron el artículo, pero cuando comenzamos, no tenemos nada. Entonces colocamos un Dirichlet antes de en estas probabilidades.n 1p1 n1nDir(α1,,αk)n1nn1n Dir(α1,,αk)

¿Qué es este Dirichlet anterior? Podemos pensar en cada parámetro como un "recuento virtual" de la cantidad de veces que una persona virtual le dio al elemento estrellas. Por ejemplo, si , , y todos los demás son iguales a 0, entonces podemos pensar que esto significa que dos personas virtuales le dieron el elemento 1 estrella y una persona virtual le dio el elemento 2 estrellas. Entonces, incluso antes de que tengamos usuarios reales, podemos usar esta distribución virtual para proporcionar una estimación de la calificación del artículo. i α 1 = 2 α 2 = 1 α iαiiα1=2α2=1αi

[Una forma de elegir los parámetros sería establecer igual a la proporción general de votos de estrellas. (Tenga en cuenta que los parámetros no son necesariamente enteros).]α i i α iαiαiiαi

Luego, una vez que entran las calificaciones reales, simplemente agregue sus cuentas a las cuentas virtuales de su Dirichlet antes. Siempre que desee estimar la calificación de su artículo, simplemente tome la media sobre todas las calificaciones del artículo (tanto sus calificaciones virtuales como sus calificaciones reales).

raegtin
fuente
1
El enfoque 2 funciona como idéntico al enfoque 1, ¿no es así, pero con una justificación diferente?
Peter Taylor
2
@Peter: ¡oh, cierto! No me di cuenta hasta que lo mencionaste =). (Si todo lo que quiere hacer es tomar la media de la parte posterior, son idénticas. Supongo que tener un Dirichlet posterior puede ser útil si desea calcular un tipo diferente de puntaje, por ejemplo, algún tipo de medida de polaridad, aunque eso podría ser algo raro.)
raegtin
1
En el enfoque 1, ¿cómo suele elegir ? m
Jason C
15

Esta situación exige un enfoque bayesiano. Hay enfoques simples para las clasificaciones bayesianas de calificaciones aquí (preste especial atención a los comentarios, que son interesantes) y aquí , y luego un comentario adicional sobre estos aquí . Como señala uno de los comentarios en el primero de estos enlaces:

The Best of BeerAdvocate (BA) ... utiliza una estimación bayesiana:

rango ponderado (WR) = (v / (v + m)) × R + (m / (v + m)) × C

donde:
R = promedio de revisión para la cerveza
v = número de revisiones para la cerveza
m = revisiones mínimas requeridas para ser incluidas en la lista (actualmente 10)
C = la media en la lista (actualmente 2.5)

Karl
fuente
2
Una desventaja del método Beer Advocate es que no tiene en cuenta la variabilidad. Sin embargo, prefiero esta línea de pensamiento a la idea de límite de condición inferior.
Karl