¿Cómo determinar de manera justa a los ganadores de una feria de ciencias regional?

Necesito ayuda para encontrar la forma correcta de calcular los ganadores en nuestra feria de ciencias. No quiero que mi ignorancia de las estadísticas y las matemáticas se interponga en el camino de las posibilidades de ganar de un niño. (muchos beneficios de becas y adelantos en juego). Gracias de antemano por tu ayuda.

Primero un pequeño trasfondo de cómo tenemos las cosas configuradas:

Nuestra feria generalmente tiene alrededor de 600 proyectos estudiantiles. Estos proyectos son completados y presentados por estudiantes individuales o un equipo de estudiantes. Un equipo puede constar de 2 o 3 niños.

Los estudiantes se dividen en dos divisiones: primaria (grados 6-8) y secundaria (grados 9-12). Cada división tiene diferentes categorías: 9 categorías para proyectos elementales y 17 categorías para los proyectos de división secundaria.

Se otorgan premios por el primer, segundo y tercer lugar para cada categoría en cada división. También se otorgan premios de mención honorífica por ubicaciones más allá del tercer lugar.

Para cada proyecto, asignamos entre 4 y 6 jueces. Hacemos nuestras asignaciones en función de las calificaciones de los jueces, su preferencia de categoría y su experiencia previa en la evaluación. (Se asignan más experiencia a los proyectos de la división sénior).

Cómo califican los jueces un proyecto:

Para cada proyecto hay 5 criterios que son puntos asignados. Cada criterio puede otorgarse entre 1 y 20 puntos. Los criterios generales son:

Objetivo general + hipótesis + uso de recursos ( 1..20 )
Diseño + procedimientos ( 1..20 )
Recopilación de datos + resultados ( 1..20 )
Discusión + conclusión ( 1..20 )
Entrevista ( 1..20 )

Para los proyectos de equipo, se evalúa un sexto criterio llamado "deducción de equipo", donde un juez puede deducir puntos ( hasta 15 ) para los compañeros de equipo que no participaron o no se presentaron.

Deducción del equipo ( 0 ..- 15 )

Por lo tanto, un juez puede calificar cada proyecto entre 5 y 100 puntos. Si el proyecto es un proyecto de equipo, la puntuación se puede reducir en 15 puntos.

Datos sin procesar:

En el transcurso de unas pocas horas recolectamos hasta 3,600 puntajes de los jueces. Estos puntajes se ingresan en una base de datos donde puedo hacer todo tipo de clasificación, promedios, cálculos de desviación estándar, etc. Simplemente no sé exactamente qué debo hacer con estos puntajes brutos. En este momento, estoy haciendo un promedio simple para cada proyecto, pero me preocupa no ajustarme a los prejuicios de los jueces, las deducciones del equipo o cualquier otra cantidad de cosas que no estoy considerando.

Resultado deseado:

Al final, me gustaría procesar los puntajes para poder otorgar proyectos de primer, segundo y tercer lugar para cada categoría, y luego premios de mención honorífica para los lugares posteriores. Me gustaría estar seguro de que las posiciones se calcularon correctamente y que los niños que ganan merecen el reconocimiento (y los premios).

Muchas gracias por leer mi larga pregunta y por su ayuda para resolver esto. Estaré encantado de responder cualquier pregunta de seguimiento que pueda tener.

data-transformation standard-deviation rating Mike Davie
fuente

Pregunta interesante y difícil, y has señalado algunos de los temas clave. ¿Cuántos jueces en total, entonces cuántos proyectos juzgaría cada juez? (alguna idea del rango y del promedio sería buena). Además, ¿son las 26 categorías mutuamente excluyentes? Tengo el presentimiento de que la mejor respuesta puede ser solo hacer el promedio de cada proyecto, pero podría ser posible ajustar para los jueces. ¡Leeré las respuestas con interés!

Peter Ellis

Gracias por tu interés inicial. He agregado más información a la respuesta a continuación. Si tienes alguna idea, agradecería tu ayuda.

Mike Davie

Creo que "respuesta" es posiblemente una etiqueta demasiado generosa para mis pensamientos aquí. Me encanta el análisis de datos exploratorios, y soy un gran fanático de la trama, así que eso se verá reflejado en mis comentarios

Hola, son muchos puntajes. :) Parece que tiene al menos 78 proyectos de los 600 entre los primeros 3 ( [9+17]x3) más las menciones honoríficas. Normalmente, diría que debe tomar una muestra de la parte superior y media de cada categoría para realizar una auditoría de puntuación, pero eso sería muy oneroso en su caso debido a los números que tiene, y es solo usted quien finaliza la puntuación. :)

Espero que tengas un paquete de estadísticas disponible, ya que tengo algunas sugerencias que puedes usar a continuación.

¿Has mirado la distribución de puntajes dentro de cada categoría? ¿Están muy cerca los 3, 5 u 8 proyectos más importantes en cuanto a puntajes? Eso sugeriría que la calidad de los proyectos es muy similar y que no importa lo que haga, probablemente habrá al menos una percepción de arbitrariedad en torno a los puntajes finales.

No estoy seguro de cuántos proyectos califica cada juez. Suponiendo que obtienen un número razonable (digamos> 10, aunque cuanto más alto mejor), para cada juez puede calcular la mediana y el rango intercuartil para el puntaje total otorgado a cada proyecto que evalúan (tiene tantos atributos, probablemente no vale la pena mirar a cada uno de ellos individualmente). ¿Algún juez parece estar dando puntajes particularmente altos o puntajes particularmente bajos? ¿Los jueces parecen estar puntuando consistentemente en el medio, por lo que posiblemente estén dando 10, esto se puede demostrar mediante un rango intercuartil comparativamente pequeño y una mediana de puntaje total alrededor del medio del rango de valores posibles.

Para los proyectos de equipo, puede comparar su ubicación sobre la base de los puntajes totales, con su ubicación una vez que se haya aplicado la deducción del equipo. ¿Las deducciones de los equipos afectan a los equipos que de otro modo estarían entre los 3 primeros?

Estas son solo sugerencias para comenzar. Creo que visualizar los datos a lo largo de estas líneas le daría algunos buenos indicadores sobre si las ubicaciones parecen justas.

Actualización: este es un problema interesantemente difícil que tienes. Parece que cada juez individual no evalúa suficientes proyectos para que podamos llegar a un factor de ponderación para cada juez (para tener en cuenta el sesgo del juez), porque no tenemos suficientes datos para poder medir -fiabilidad de los jueces, simplemente no hay superposición suficiente para que los jueces califiquen en los mismos proyectos para hacer eso. ¿Viste el rango de puntaje para los pocos proyectos principales? ¿Hubo diferencias claras entre ellos y los proyectos de puntaje más bajo (límites naturales?), ¿Qué tan cerca en puntaje estaban los proyectos principales?

Por curiosidad, a los jueces se les dieron criterios de puntuación, por lo que tenían poca flexibilidad en cómo dar puntajes en cada criterio (por ejemplo, dar 1 punto por proporcionar una hipótesis nula, dar 1 punto por proporcionar una o más hipótesis alternativas ...) o ¿sabían simplemente la cantidad total de puntos que podían otorgar y el resto les quedaba a ellos? Si tuvieran una guía de puntaje, estaría más seguro de que los puntajes fueron razonablemente precisos.

Michelle
fuente

Yo también sería curioso en cuanto a la difusión de los puntajes: ¿hay claramente algunos "puntajes más altos", o hay un grupo y quién sale en la parte superior es un poco ... opaco en términos de proceso. Al igual que el proceso de admisión a la universidad, estos niños experimentarán más tarde :)

Fomite

Gracias Michelle por tus pensamientos. Realmente aprecio que te hayas tomado el tiempo. Para responder a sus preguntas, los jueces solo juzgan un pequeño número de proyectos. Tenemos mínimos para cada división: 4 veces para Primaria y 5 o 6 veces para Secundaria (5 veces para Juniors de secundaria y 6 veces para Seniors).

Mike Davie

Necesito aclarar lo anterior. Los puntajes mínimos son por proyecto, no cuántas veces los jueces calificarán los proyectos durante la feria. Un juez típico juzgará entre 8 y 15 proyectos durante la feria. Ese número depende de la disponibilidad de los jueces, sus calificaciones, disposición para ayudar, etc.

Mike Davie

Buena respuesta Michelle. Algunas ideas mías: 1) Definitivamente dar a los jueces algún tipo de rúbrica para tratar de alentar estándares comunes; 2) trate de tener el mismo número de jueces por proyecto si es posible (de lo contrario, los proyectos con menos jueces tendrán una mayor variación y, por lo tanto, más posibilidades de llegar a la parte superior o inferior) y 3) Creo que tendrá que solo use un promedio, pero si tuviera la experiencia y el software, podría ajustar un modelo de efectos mixtos con el juez como un efecto aleatorio y ver si esto cambia el resultado. ¿Qué pasa si lo hace? Probablemente todavía use el promedio ...

Peter Ellis

Gracias de nuevo por el aporte de todos. Después de dejar que esto golpeara en mi cabeza por un tiempo, decidí mirar para ver cómo se puntúan los proyectos a nivel internacional (un paso de competencia por encima de nuestra feria). La feria internacional se llama ISEF. Enviamos a nuestros 5 mejores estudiantes a ISEF cada año.

Mike Davie el

¿Cómo determinar de manera justa a los ganadores de una feria de ciencias regional?

Respuestas: