Necesito ayuda para encontrar la forma correcta de calcular los ganadores en nuestra feria de ciencias. No quiero que mi ignorancia de las estadísticas y las matemáticas se interponga en el camino de las posibilidades de ganar de un niño. (muchos beneficios de becas y adelantos en juego). Gracias de antemano por tu ayuda.
Primero un pequeño trasfondo de cómo tenemos las cosas configuradas:
Nuestra feria generalmente tiene alrededor de 600 proyectos estudiantiles. Estos proyectos son completados y presentados por estudiantes individuales o un equipo de estudiantes. Un equipo puede constar de 2 o 3 niños.
Los estudiantes se dividen en dos divisiones: primaria (grados 6-8) y secundaria (grados 9-12). Cada división tiene diferentes categorías: 9 categorías para proyectos elementales y 17 categorías para los proyectos de división secundaria.
Se otorgan premios por el primer, segundo y tercer lugar para cada categoría en cada división. También se otorgan premios de mención honorífica por ubicaciones más allá del tercer lugar.
Para cada proyecto, asignamos entre 4 y 6 jueces. Hacemos nuestras asignaciones en función de las calificaciones de los jueces, su preferencia de categoría y su experiencia previa en la evaluación. (Se asignan más experiencia a los proyectos de la división sénior).
Cómo califican los jueces un proyecto:
Para cada proyecto hay 5 criterios que son puntos asignados. Cada criterio puede otorgarse entre 1 y 20 puntos. Los criterios generales son:
- Objetivo general + hipótesis + uso de recursos ( 1..20 )
- Diseño + procedimientos ( 1..20 )
- Recopilación de datos + resultados ( 1..20 )
- Discusión + conclusión ( 1..20 )
- Entrevista ( 1..20 )
Para los proyectos de equipo, se evalúa un sexto criterio llamado "deducción de equipo", donde un juez puede deducir puntos ( hasta 15 ) para los compañeros de equipo que no participaron o no se presentaron.
- Deducción del equipo ( 0 ..- 15 )
Por lo tanto, un juez puede calificar cada proyecto entre 5 y 100 puntos. Si el proyecto es un proyecto de equipo, la puntuación se puede reducir en 15 puntos.
Datos sin procesar:
En el transcurso de unas pocas horas recolectamos hasta 3,600 puntajes de los jueces. Estos puntajes se ingresan en una base de datos donde puedo hacer todo tipo de clasificación, promedios, cálculos de desviación estándar, etc. Simplemente no sé exactamente qué debo hacer con estos puntajes brutos. En este momento, estoy haciendo un promedio simple para cada proyecto, pero me preocupa no ajustarme a los prejuicios de los jueces, las deducciones del equipo o cualquier otra cantidad de cosas que no estoy considerando.
Resultado deseado:
Al final, me gustaría procesar los puntajes para poder otorgar proyectos de primer, segundo y tercer lugar para cada categoría, y luego premios de mención honorífica para los lugares posteriores. Me gustaría estar seguro de que las posiciones se calcularon correctamente y que los niños que ganan merecen el reconocimiento (y los premios).
Muchas gracias por leer mi larga pregunta y por su ayuda para resolver esto. Estaré encantado de responder cualquier pregunta de seguimiento que pueda tener.
fuente
Respuestas:
Creo que "respuesta" es posiblemente una etiqueta demasiado generosa para mis pensamientos aquí. Me encanta el análisis de datos exploratorios, y soy un gran fanático de la trama, así que eso se verá reflejado en mis comentarios
Hola, son muchos puntajes. :) Parece que tiene al menos 78 proyectos de los 600 entre los primeros 3 (
[9+17]x3
) más las menciones honoríficas. Normalmente, diría que debe tomar una muestra de la parte superior y media de cada categoría para realizar una auditoría de puntuación, pero eso sería muy oneroso en su caso debido a los números que tiene, y es solo usted quien finaliza la puntuación. :)Espero que tengas un paquete de estadísticas disponible, ya que tengo algunas sugerencias que puedes usar a continuación.
¿Has mirado la distribución de puntajes dentro de cada categoría? ¿Están muy cerca los 3, 5 u 8 proyectos más importantes en cuanto a puntajes? Eso sugeriría que la calidad de los proyectos es muy similar y que no importa lo que haga, probablemente habrá al menos una percepción de arbitrariedad en torno a los puntajes finales.
No estoy seguro de cuántos proyectos califica cada juez. Suponiendo que obtienen un número razonable (digamos> 10, aunque cuanto más alto mejor), para cada juez puede calcular la mediana y el rango intercuartil para el puntaje total otorgado a cada proyecto que evalúan (tiene tantos atributos, probablemente no vale la pena mirar a cada uno de ellos individualmente). ¿Algún juez parece estar dando puntajes particularmente altos o puntajes particularmente bajos? ¿Los jueces parecen estar puntuando consistentemente en el medio, por lo que posiblemente estén dando 10, esto se puede demostrar mediante un rango intercuartil comparativamente pequeño y una mediana de puntaje total alrededor del medio del rango de valores posibles.
Para los proyectos de equipo, puede comparar su ubicación sobre la base de los puntajes totales, con su ubicación una vez que se haya aplicado la deducción del equipo. ¿Las deducciones de los equipos afectan a los equipos que de otro modo estarían entre los 3 primeros?
Estas son solo sugerencias para comenzar. Creo que visualizar los datos a lo largo de estas líneas le daría algunos buenos indicadores sobre si las ubicaciones parecen justas.
Actualización: este es un problema interesantemente difícil que tienes. Parece que cada juez individual no evalúa suficientes proyectos para que podamos llegar a un factor de ponderación para cada juez (para tener en cuenta el sesgo del juez), porque no tenemos suficientes datos para poder medir -fiabilidad de los jueces, simplemente no hay superposición suficiente para que los jueces califiquen en los mismos proyectos para hacer eso. ¿Viste el rango de puntaje para los pocos proyectos principales? ¿Hubo diferencias claras entre ellos y los proyectos de puntaje más bajo (límites naturales?), ¿Qué tan cerca en puntaje estaban los proyectos principales?
Por curiosidad, a los jueces se les dieron criterios de puntuación, por lo que tenían poca flexibilidad en cómo dar puntajes en cada criterio (por ejemplo, dar 1 punto por proporcionar una hipótesis nula, dar 1 punto por proporcionar una o más hipótesis alternativas ...) o ¿sabían simplemente la cantidad total de puntos que podían otorgar y el resto les quedaba a ellos? Si tuvieran una guía de puntaje, estaría más seguro de que los puntajes fueron razonablemente precisos.
fuente