Estoy tratando de armar un paquete de minería de datos para los sitios de StackExchange y, en particular, estoy estancado en tratar de determinar las preguntas "más interesantes". Me gustaría usar el puntaje de la pregunta, pero elimino el sesgo debido a la cantidad de vistas, pero no sé cómo abordar esto rigurosamente.
En el mundo ideal, podría ordenar las preguntas calculando , dondees el total de votos es el número de visitas. Después de todo, mediría el porcentaje de personas que votaron a favor de la pregunta, menos el porcentaje de personas que votaron a favor de la pregunta.
Lamentablemente, el patrón de votación es mucho más complicado. Los votos tienden a "estabilizarse" hasta cierto nivel y esto tiene el efecto de subestimar drásticamente las preguntas extremadamente populares. En la práctica, una pregunta con 1 punto de vista y 1 voto positivo ciertamente obtendría un puntaje más alto que cualquier otra pregunta con 10,000 puntos de vista, pero menos de 10,000 votos.
Actualmente estoy usando como fórmula empírica, pero me gustaría ser preciso. ¿Cómo puedo abordar este problema con rigor matemático?
Para abordar algunos de los comentarios, intentaré reformular el problema de una mejor manera:
Digamos que tengo una pregunta con votos en total y vistas. Me gustaría poder estimar qué votos totales es más probable cuando las vistas alcanzan .
De esta manera, simplemente podría elegir un valor nominal para y ordenar todas las preguntas de acuerdo con el total esperado .
He creado dos consultas en el datadump SO para mostrar mejor el efecto del que estoy hablando:
Resultado:
Puntuación media por vistas (cubos de 100 vistas)
Resultado:
Resultados, no estoy seguro si más recto es mejor: ( en azul,
fuente
Respuestas:
Se podría definir una pregunta interesante como aquella que ha recibido comparativamente muchos votos dada la cantidad de puntos de vista. Para este fin, puede crear una curva de línea de base que refleje el número esperado de votos dadas las vistas. Las curvas que atrajeron muchos más votos que la línea de base se consideraron particularmente interesantes.
Para construir la línea de base, es posible que desee calcular el número medio de votos por contenedor de 100 vistas. Además, puede calcular la desviación absoluta media (MAD) como una medida robusta para la desviación estándar por bin. Entonces, el "interés" se puede calcular como
fuente
Esta es mi teoría Creo que hay dos tipos de preguntas: las que permanecen principalmente dentro de SE (que generalmente tienen menos vistas), y las que son vistas por personas externas porque estaba vinculada desde otro lugar (generalmente tienen más vistas).
Para las preguntas que permanecen principalmente dentro de SE, los votos son una buena medida de preguntas interesantes. Este es el punto de votos.
Cuando una pregunta está vinculada a fuera del sitio, los votos dejan de tener tanto sentido. Algunos sitios de enlace pueden tener muy pocos miembros de SE, otros pueden tener más. La variación del número de votos para estas preguntas es probablemente alta (como lo demuestra su puntuación frente a la gráfica de vista, donde florece el lado derecho de la curva). Estas preguntas tendrán más puntos de vista, y los puntos de vista PUEDEN ser un mejor indicador de preguntas interesantes. O preguntas que una comunidad más grande resultó encontrar más interesantes. Hay muchas variables en esta situación, y creo que valdría la pena intentar encontrar más información para diferenciar estos casos. ¿SE publicita la información de referencia?
fuente