Stack Exchange, como todos lo sabemos, es una colección de sitios de preguntas y respuestas con temas diversificados. Suponiendo que cada sitio es independiente el uno del otro, dadas las estadísticas que tiene un usuario, ¿cómo calcular su "redondez" en comparación con el siguiente tipo? ¿Cuál es la herramienta estadística que debo emplear?
Para ser honesto, no sé cómo definir matemáticamente la "redondez del pozo", pero debe tener las siguientes características:
- En igualdad de condiciones, cuanto más representante tenga un usuario, más completo será
- En igualdad de condiciones, cuantos más sitios participe un usuario, más completo será.
- Si la respuesta o la pregunta no afecta la redondez del pozo
Respuestas:
También debe tener en cuenta la similitud entre los sitios. Alguien que participa en StackOverflow y Seasoned Advice es más completo que alguien que participa en SO y CrossValidated, que a su vez (yo diría) es más completo que alguien que participa en SO y Programmers . Indudablemente, hay muchas maneras de hacerlo, pero puede verificar el registro superpuesto para tener una idea.
fuente
EJEMPLO: digamos que hay tres sitios, y queremos comparar la redondez de los usuarios A, B, C. Escribimos las reputaciones de los usuarios en los tres sitios en forma vectorial:
Consideraríamos que A es más completo que B (sus reputaciones están distribuidas de manera uniforme en dos sitios, pero A tiene una reputación más total). Además, consideraríamos que C es más completo que B (tienen la misma reputación total, pero C tiene una distribución uniforme en más sitios). No se sabe si A debe considerarse más completo que C, o viceversa. .
Deje que , , sean los vectores de reputación anteriores respectivamente.x B x CxA xB xC
Queremos medir la "redondez" de un usuario en función de su vector de reputación . Por lo anterior, nos gustaría que nuestra función satisfaga , y .f f ( x A ) > f ( x B ) f ( x C ) > f ( x B )f(x) f f(xA)>f(xB) f(xC)>f(xB)
Cualquier que sea cóncava y creciente hará el truco.f(x)
Dos ejemplos comunes de funciones convexas son la 'norma fraccional'
Medido de acuerdo con la entropía de Shannon escalada, entonces, diríamos que C es el más completo de los tres, y A el segundo más completo.
EDIT2: Se agregó un ejemplo a la luz del comentario de whuber.
fuente
Esta es una pregunta muy, muy interesante (de hecho, estoy un poco enamorado de la idea de modelar los sitios de intercambio de pila en general).
Sobre el tema de la redondez, una forma de evaluar esto sería a través de las etiquetas que los usuarios particulares tienden a responder, y su distribución entre sitios. Los ejemplos pueden aclarar esto.
Soy miembro de TeX, StackOverflow, CrossValidated y AskUbuntu. Ahora, realmente solo contribuyo aquí y StackOverflow, y solo sobre R en Stackoverflow. Por lo tanto, para definir una redondez completa, vería a) la cantidad de etiquetas que tienen en común dos sitios (para definir la similitud entre sitios) y la medida en que un usuario responde preguntas en sitios que tienen poca o ninguna etiqueta en común.
Si, por ejemplo, alguien contribuye a las etiquetas de Python en StackOverflow y cocina, esa persona está más completa que alguien que está respondiendo preguntas de software estadístico (por ejemplo) en Overflow y preguntas de estadísticas aquí.
Espero que esto sea de alguna ayuda.
fuente
Si define 'redondez completa' como 'contribución a muchos sitios diferentes de Stack Exchange', calcularía alguna métrica de contribución por sitio. Podrías usar publicaciones totales, o publicaciones promedio por día, o tal vez reputación. Luego, observe la distribución de esta métrica en todos los sitios y calcule su sesgo de alguna manera que tenga sentido.
En otras palabras, una persona 'bien redondeada' sería la que contribuye a muchos sitios diferentes, mientras que una persona 'no bien redondeada' sería la que contribuye principalmente a un sitio. Puede mejorar aún más esto al escalar su métrica con el total de un usuario en todos los sitios. es decir, alguien que ha contribuido mucho a muchos sitios diferentes debe considerarse más completo que alguien que no ha contribuido nada a ninguno de los sitios. ¡Una persona que nunca ha usado SE no está muy completa!
fuente
Ya hay muchas buenas respuestas, ¿por qué una más? Esto es principalmente para llamar la atención sobre las interesantes ideas discutidas aquí en The n-Category Café . Si bien la diversidad en ecología (y en otros lugares) en su mayoría solo considera la abundancia, también se debe observar cuán similares / diferentes son las diferentes especies.
Al representar la especie (o lo que sea, como los sitios SE ...) como puntos en un espacio métrico, esto lleva a generalizar la entropía a espacios métricos, ver por ejemplo La máxima entropía de un espacio métrico por Tom Leinster, Emily Roff . Las mismas ideas podrían usarse dentro de los sitios de SE mirando las etiquetas como puntos en un espacio métrico.
fuente