Función de "interés" para preguntas de StackExchange

Estoy tratando de armar un paquete de minería de datos para los sitios de StackExchange y, en particular, estoy estancado en tratar de determinar las preguntas "más interesantes". Me gustaría usar el puntaje de la pregunta, pero elimino el sesgo debido a la cantidad de vistas, pero no sé cómo abordar esto rigurosamente.

En el mundo ideal, podría ordenar las preguntas calculando $\frac{v}{n}$ , donde $v$ es el total de votos $n$ es el número de visitas. Después de todo, mediría el porcentaje de personas que votaron a favor de la pregunta, menos el porcentaje de personas que votaron a favor de la pregunta.

Lamentablemente, el patrón de votación es mucho más complicado. Los votos tienden a "estabilizarse" hasta cierto nivel y esto tiene el efecto de subestimar drásticamente las preguntas extremadamente populares. En la práctica, una pregunta con 1 punto de vista y 1 voto positivo ciertamente obtendría un puntaje más alto que cualquier otra pregunta con 10,000 puntos de vista, pero menos de 10,000 votos.

Actualmente estoy usando como fórmula empírica, pero me gustaría ser preciso. ¿Cómo puedo abordar este problema con rigor matemático? $\frac{v}{\log{n}+1}$

Para abordar algunos de los comentarios, intentaré reformular el problema de una mejor manera:

Digamos que tengo una pregunta con $v_0$ votos en total y $n_0$ vistas. Me gustaría poder estimar qué votos totales es más probable cuando las vistas alcanzan . $v_1$ $n_1$

De esta manera, simplemente podría elegir un valor nominal para y ordenar todas las preguntas de acuerdo con el total esperado . $n_1$ $v_1$

He creado dos consultas en el datadump SO para mostrar mejor el efecto del que estoy hablando:

Vistas promedio por puntaje

Resultado:

Vistas por puntuación

Puntuación media por vistas (cubos de 100 vistas)

Resultado:

Puntuación por Vistas

Las dos fórmulas comparadas

Resultados, no estoy seguro si más recto es mejor: ( $\frac{v}{n}$ en azul, $\frac{v}{log{n}+1}$

Fórmulas

data-mining predictive-models Sklivvz
fuente

Sin duda, esta es una pregunta interesante, pero creo que sería mejor preguntar esto en las estadísticas.

@Theo Puede que tengas razón, en realidad. Marcaré para que las modificaciones migren si creen que es mejor.

¿Por qué las opiniones no contribuirían al interés? (pero peor, ¿por qué contribuirían negativamente?) Las cosas más interesantes tienden a verse con más frecuencia ... El problema fundamental aquí es ¿qué significa interesante incluso? ¿Significa preguntas de interés general o preguntas que son de interés para un público de nivel superior más específico? Para que alguien responda esta pregunta con "rigurosidad matemática", primero debe plantearse rigurosamente.

Las vistas sesgan las preguntas porque una pregunta podría, por ejemplo, estar vinculada por un buen sitio y recibir toneladas de vistas: si mira las preguntas mejor calificadas , todas son preguntas de alta vista; por interesante me refiero a las preguntas que tienen más valor según lo perciben los usuarios del sitio. En cualquier caso, la pregunta sigue en pie: ¿cuál es la forma correcta de combinar vistas y votos para obtener el mejor predictor de calidad?

La gente de matemáticas hizo buenas preguntas. La lógica de esta pregunta parece circular: parece pedirnos una fórmula para medir la "calidad" de una pregunta SE pero no estipula lo que significa "calidad", excepto para dar sinónimos no operativos como "valor tal como lo perciben los usuarios". del sitio ". ¡No puedes conseguir algo por nada!

Whuber

Respuestas:

Se podría definir una pregunta interesante como aquella que ha recibido comparativamente muchos votos dada la cantidad de puntos de vista. Para este fin, puede crear una curva de línea de base que refleje el número esperado de votos dadas las vistas. Las curvas que atrajeron muchos más votos que la línea de base se consideraron particularmente interesantes.

Para construir la línea de base, es posible que desee calcular el número medio de votos por contenedor de 100 vistas. Además, puede calcular la desviación absoluta media (MAD) como una medida robusta para la desviación estándar por bin. Entonces, el "interés" se puede calcular como

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

Jonas
fuente

Esta es mi teoría Creo que hay dos tipos de preguntas: las que permanecen principalmente dentro de SE (que generalmente tienen menos vistas), y las que son vistas por personas externas porque estaba vinculada desde otro lugar (generalmente tienen más vistas).

Para las preguntas que permanecen principalmente dentro de SE, los votos son una buena medida de preguntas interesantes. Este es el punto de votos.

Cuando una pregunta está vinculada a fuera del sitio, los votos dejan de tener tanto sentido. Algunos sitios de enlace pueden tener muy pocos miembros de SE, otros pueden tener más. La variación del número de votos para estas preguntas es probablemente alta (como lo demuestra su puntuación frente a la gráfica de vista, donde florece el lado derecho de la curva). Estas preguntas tendrán más puntos de vista, y los puntos de vista PUEDEN ser un mejor indicador de preguntas interesantes. O preguntas que una comunidad más grande resultó encontrar más interesantes. Hay muchas variables en esta situación, y creo que valdría la pena intentar encontrar más información para diferenciar estos casos. ¿SE publicita la información de referencia?

rm999
fuente

¿SE publicita la información de referencia? Me interesaría conocer el patrón de visualización de publicaciones en lugar de solo votos a favor, comentarios, etc.

d_a_c321