¿Cómo ordeno o clasifico a un grupo de expertos?

Tengo una base de datos que contiene una gran cantidad de expertos en un campo. Para cada uno de esos expertos, tengo una variedad de atributos / puntos de datos como:

Número de años de experiencia.
licencias
cantidad de comentarios
contenido textual de esas revisiones
La calificación de 5 estrellas en cada una de esas revisiones, para una serie de factores como la velocidad, la calidad, etc.
premios, asociaciones, conferencias, etc.

Quiero proporcionar una calificación a estos expertos, según 10 de acuerdo con su importancia. Algunos de los puntos de datos pueden faltar para algunos de los expertos. Ahora mi pregunta es ¿cómo se me ocurre un algoritmo de este tipo? ¿Alguien puede señalarme alguna literatura relevante?

También me preocupa que, como con todas las calificaciones / revisiones, los números se acumulen cerca de algunos valores. Por ejemplo, la mayoría de ellos podría terminar obteniendo un 8 o un 5. ¿Hay alguna manera de resaltar pequeñas diferencias en una diferencia mayor en la puntuación para solo algunos de los atributos?

Algunas otras discusiones que pensé podrían ser relevantes:

rating valuation Sidmitra
fuente

No se puede hacer a menos que llegue a algún criterio objetivo; probablemente la mayoría de las clasificaciones posibles se pueden construir con alguna combinación de sus parámetros.

Respuestas:

La gente ha inventado numerosos sistemas para calificar cosas (como expertos) en múltiples criterios: visite la página de Wikipedia sobre análisis de decisiones de criterios múltiples para obtener una lista. Sin embargo, no está bien representado allí, es uno de los métodos más defendibles: la teoría de valoración de múltiples atributos. Esto incluye un conjunto de métodos para evaluar las compensaciones entre conjuntos de criterios con el fin de (a) determinar una forma adecuada de reexpresar los valores de las variables individuales y (b) ponderar los valores reexpresados para obtener una puntuación para la clasificación . Los principios son simples y defendibles, las matemáticas son impecables y la teoría no tiene nada de lujos. Más personas deberían conocer y practicar estos métodos en lugar de inventar sistemas de puntuación arbitrarios.

whuber
fuente

¿Conoces el paquete R para hacer esto?

user333

@usuario No, y dudo que haya uno. No hay una bala mágica de software aquí, por cierto: casi todo el trabajo implica pensar en los problemas y explorar compensaciones específicas de manera controlada.

whuber

En última instancia, esto puede no ser únicamente un ejercicio estadístico. PCA es un método cuantitativo muy poderoso que le permitirá generar una puntuación o ponderaciones en sus primeros componentes principales que puede usar para clasificar. Sin embargo, explicar cuáles son los componentes principales es muy difícil. Son construcciones cuantitativas. No son dialécticos. Por lo tanto, explicar lo que realmente significan a veces no es posible. Esto es especialmente cierto si tienes una audiencia que no es cuantitativa. No tendrán idea de lo que estás hablando. Y pensará en su PCA como una caja negra críptica.

En cambio, simplemente alinearía todas las variables relevantes y usaría un sistema de ponderación basado en lo que uno cree que debería ser la ponderación.

Creo que si desarrolla esto para personas externas, clientes y usuarios, sería genial si pudiera incorporar la flexibilidad de decidir sobre la ponderación de los usuarios.
Algunos usuarios pueden valorar años de experiencia mucho más que la certificación y viceversa. Si puedes dejar esa decisión a ellos. De esta manera, su algoritmo no es un cuadro negro que no entienden y con el que no se sienten cómodos. Lo mantiene totalmente transparente y depende de ellos en función de su propia valoración relativa de lo que importa.

Sympa
fuente

@Gaetan Bueno, para PCA debe encontrar una codificación numérica adecuada para variables como "contenido textual" ...

chl

Ese no es el problema que estoy planteando. PCA puede manejar variables ficticias como usted sugiere. PCA es increíblemente poderoso y flexible de esa manera. Pero, es la interpretación de los componentes principales lo que se vuelve realmente desafiante. Digamos que el primer componente principal comienza así: 0.02 años de experiencia - 0.4 contenido textual de las revisiones + 0.01 asociaciones ... Quizás pueda explicarlo. ¿El desempeño de un experto es proporcional a años de experiencia, pero inversamente proporcional al contenido textual de las revisiones? Parece absurdo Pero, PCA a menudo genera resultados contra-intuitivos.

Sympa

@Gaetan Aún así, reitero mi opinión de que el problema radica en cómo elige representar sus variables (o cómo encuentra una métrica útil). Estoy de acuerdo con usted acerca de la dificultad de interpretar una combinación lineal de variables cuando se trata de mediciones no continuas o una combinación de tipos de datos. Es por eso que sugerí en otro comentario buscar métodos factoriales alternativos. De todos modos, el desarrollo de reglas de puntuación basadas en las preferencias del usuario o la revisión experta (como se hace en la evaluación clínica) también requiere algún tipo de validación estadística (al menos para garantizar la fiabilidad de las puntuaciones).

chl

@Gaetan, sí, algunos de sus comentarios tienen mucho sentido, y tiene razón al decir que no es simplemente un ejercicio estadístico, sino que implica elementos que son más subjetivos. La razón es que la intención desde el punto de vista del usuario / cliente puede diferir. Suponiendo que está buscando un experto, simplemente agrego filtros para permitirle seleccionar expertos> X número de años de experiencia, etc. Pero digamos que se ha reducido a 2 expertos y quiere una comparación independiente. Así que solo estoy buscando un método genérico para comparar dos expertos.

Sidmitra

+1 por señalar que este no es un ejercicio estadístico. En el mejor de los casos, PCA puede describir relaciones dentro de un conjunto de datos en particular y, posiblemente, simplificar los datos mediante la identificación de casi colinealidades. No está claro cómo puede informarnos sobre cómo clasificar a los expertos.

whuber

¿Crees que podrías cuantificar todos esos atributos?

En caso afirmativo, sugeriría realizar un análisis de componentes principales. En el caso general de que todas las correlaciones sean positivas (y si no lo son, puede llegar fácilmente usando alguna transformación), el primer componente principal puede considerarse como una medida de la importancia total del experto, ya que es una ponderación promedio de todos los atributos (y los pesos serían las contribuciones correspondientes de las variables: bajo esta perspectiva, el método en sí revelará la importancia de cada atributo). El puntaje que cada experto logra en el primer componente principal es lo que necesita para clasificarlos.

George Dontas
fuente

Esto se ve bien, pero ¿no solo seleccionará los atributos de mayor varianza y los grupos más grandes de correlación cruzada?

Alternativamente, uno puede realizar análisis de correspondencia múltiple o análisis de factores múltiples para datos mixtos (si la codificación numérica no es realista para algunas variables), y se aplica el resto de su idea (calcular puntajes de factores y observar cargas variables en la primera dimensión) también.

chl

Me parece que el primer componente simplemente señalará una fuerte dirección de comunidad entre los expertos. Sin embargo, ¿cómo podría decirnos quién es mejor y quién es peor? Eso requiere información adicional sobre las relaciones entre estas variables y la calidad de ser un experto "bueno" o "malo". Si creemos que todas las variables están asociadas monotónicamente con la bondad o la maldad, entonces quizás la PCA puede ayudarnos a explorar la frontera de los expertos extremos (¡o tal vez simplemente periféricos!). Pero cuidado, incluso la suposición de monotonicidad es sospechosa.

whuber

@whuber veo el punto, gracias. ¿Quizás podría agregar esto en su propia respuesta (que es muy bienvenida)?

chl