Ecuaciones en las noticias: traducir un modelo multinivel a una audiencia general

24

El New York Times tiene un largo comentario sobre el sistema de evaluación docente de "valor agregado" que se utiliza para dar retroalimentación a los educadores de la ciudad de Nueva York. El lede es la ecuación utilizada para calcular los puntajes, presentada sin contexto. La estrategia retórica parece ser la intimidación a través de las matemáticas:

texto alternativo

El texto completo del artículo está disponible en: http://www.nytimes.com/2011/03/07/education/07winerip.html

El autor, Michael Winerip, argumenta que el significado de la ecuación está más allá de la capacidad de cualquier otra persona que no sea Matt Damon para comprender, mucho menos un maestro promedio:

"El cálculo del puntaje predicho de la Sra. Isaacson 3.69 es aún más desalentador. Se basa en 32 variables, que incluyen si un estudiante fue" retenido en el grado antes del año previo a la prueba "y si un estudiante es" nuevo en la ciudad en la prueba previa o posterior a la prueba ". año."

Esas 32 variables están conectadas a un modelo estadístico que se parece a una de esas ecuaciones que en "Good Will Hunting" solo Matt Damon fue capaz de resolver.

El proceso parece transparente, pero es claro como el barro, incluso para los laicos inteligentes como los maestros, los directores y, dudo decirlo, los periodistas.

La Sra. Isaacson puede tener dos títulos de Ivy League, pero está perdida. "Me parece imposible de entender", dijo.

En inglés simple, la mejor suposición de la Sra. Isaacson sobre lo que el departamento está tratando de decirle es: a pesar de que 65 de sus 66 estudiantes obtuvieron un puntaje competente en la prueba estatal, más de sus 3 deberían haber sido 4.

Pero eso es solo una suposición ".

¿Cómo le explicaría el modelo a un laico? Para su información, el informe técnico completo está en:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Actualización: Andrew Gelman ofrece sus pensamientos aquí: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

Andrés
fuente
1
[0 0%, 52%]

Respuestas:

12

Aquí hay una posibilidad.

La evaluación del desempeño docente ha sido tradicionalmente difícil. Una parte de esta dificultad es que diferentes estudiantes tienen diferentes niveles de interés en un tema determinado. Si un estudiante determinado obtiene una A, esto no necesariamente significa que la enseñanza fue excelente, sino que puede significar que un estudiante muy talentoso e interesado hizo todo lo posible para tener éxito incluso a pesar de la baja calidad de la enseñanza. Por el contrario, un estudiante que obtiene una D no necesariamente significa que la enseñanza fue deficiente, sino que puede significar que un estudiante desinteresado se detuvo a pesar de los mejores esfuerzos del maestro para educar e inspirar.

La dificultad se ve agravada por el hecho de que la selección de estudiantes (y, por lo tanto, el nivel de interés de los estudiantes) está lejos de ser aleatoria. Es común que las escuelas enfaticen una materia (o un grupo de materias) sobre otras. Por ejemplo, una escuela puede enfatizar materias técnicas sobre humanidades. Los estudiantes en tales escuelas probablemente estén tan interesados ​​en las áreas técnicas que recibirán una calificación aprobatoria incluso con el peor maestro posible. Por lo tanto, la fracción de estudiantes que aprueban las matemáticas no es una buena medida de enseñanza: esperamos que los buenos maestros obtengan mejores resultados que los que están ansiosos por aprender. En contraste, esos mismos estudiantes pueden no estar interesados ​​en absoluto en las artes. Sería difícil esperar, incluso del mejor maestro, asegurar que todos los estudiantes obtengan una A.

Otra dificultad es que no todo el éxito en una clase dada es atribuible directamente al maestro de esa clase. Más bien, el éxito puede deberse a que la escuela (o todo el distrito) crea motivación y marco para el logro.

Para tener en cuenta todas estas dificultades, los investigadores han creado un modelo que evalúa el "valor agregado" del profesor. En esencia, el modelo tiene en cuenta las características intrínsecas de cada estudiante (nivel general de interés y éxito en el aprendizaje), así como las contribuciones de la escuela y el distrito al éxito de los estudiantes, y predice las calificaciones de los estudiantes que se esperarían con un "promedio" enseñando en ese ambiente. Luego, el modelo compara las calificaciones reales con las predichas y, en función de ello, decide si la enseñanza fue adecuada dadas todas las demás consideraciones, mejor que adecuada o peor. Aunque el modelo puede parecer complejo para un no matemático, en realidad es bastante simple y estándar. Los matemáticos han estado utilizando modelos similares (e incluso más complejos) durante décadas.

Para resumir, la suposición de la Sra. Isaacson es correcta. A pesar de que 65 de sus 66 estudiantes obtuvieron un puntaje competente en el examen estatal, habrían obtenido el mismo puntaje incluso si un perro fuera su maestro. Un buen maestro real permitiría a estos estudiantes lograr no solo puntajes "competentes", sino realmente "buenos" en la misma prueba.


En este punto, podría mencionar algunas de mis preocupaciones con el modelo. Por ejemplo, los desarrolladores del modelo afirman que aborda algunas de las dificultades con la evaluación de la calidad de la enseñanza. ¿Tengo suficientes razones para creerles? Los vecindarios con población de bajos ingresos tendrán puntuaciones más bajas esperadas de 'distrito' y 'escuela'. Digamos que un vecindario tendrá un puntaje esperado de 2.5. Un maestro que logrará un promedio de 3 obtendrá una buena evaluación. Esto puede hacer que los maestros apunten a un puntaje de 3, en lugar de un puntaje de, digamos, 4 o 5. En otras palabras, los maestros buscarán la mediocridad en lugar de la perfección. ¿Queremos que esto suceda? Finalmente, aunque el modelo es matemáticamente simple, funciona de una manera muy diferente de cómo funciona la intuición humana. Como resultado, no tenemos una forma obvia de validar o disputar el modelo " s decisión. El desafortunado ejemplo de la Sra. Isaacson ilustra a qué puede conducir esto. ¿Queremos depender ciegamente de la computadora en algo tan importante?


Tenga en cuenta que esta es una explicación para un laico. Eludí varios problemas potencialmente controvertidos aquí. Por ejemplo, no quería decir que se espera que los distritos escolares con datos demográficos de bajos ingresos se desempeñen peor, porque esto no le parecería bueno a un laico.

Además, he asumido que el objetivo es en realidad dar una descripción razonablemente justa del modelo. Pero estoy bastante seguro de que este no era el objetivo de NYT aquí. Entonces, al menos parte de la razón por la cual su explicación es pobre es FUD intencional, en mi opinión.

Sheldon Cooper
fuente
Quizás cambiaría la segunda oración del último párrafo para decir: "A pesar de que 65 de sus 66 estudiantes obtuvieron una calificación" competente "en el examen estatal, lo más probable es que hubieran obtenido la misma calificación incluso si tuvieran un maestro inepto".
Wayne
11

"Su puntaje de enseñanza depende de qué tan bien lo hicieron sus estudiantes en comparación con una predicción basada en

  • Lo que sabían de antemano, medido por una prueba preliminar,

  • Qué tan bien creemos que los estudiantes pueden aprender en función de lo que sabemos sobre ellos individualmente (sus "características"),

  • Y qué tan bien los estudiantes en promedio en su distrito, escuela y aula (si hay otros maestros en su aula).

"En otras palabras, lo estamos evaluando en función de la cantidad de aprendizaje que se midió, después de tener en cuenta la preparación y las características de sus alumnos y el rendimiento típico de todos los alumnos en entornos como el suyo con los recursos que estaban disponibles para usted.

"De esta manera, su puntaje refleja lo que contribuyó a las actuaciones de los estudiantes, en la medida en que podamos determinar eso. Por supuesto, no podemos saberlo todo: sabemos que tenía estudiantes únicos y especiales y que la situación que enfrentó nunca podría duplicarse. Por lo tanto, sé que este puntaje es solo una estimación que refleja imperfectamente qué tan bien enseñaste, pero es una estimación más justa y más precisa que una basada únicamente en las pruebas posteriores o en las ganancias obtenidas en tu clase ".

whuber
fuente
2
Nota : ¡no me atribuyas estos pensamientos! Solo estoy haciendo todo lo posible para articular y defender el modelo indicado, según lo solicitado. Si este modelo es apropiado, aplicable, adecuado, etc., es un tema completamente diferente.
whuber
(+1) El último párrafo está muy bien escrito.
chl
2

Simplemente no hay nada que entender aquí.

Bueno, está bien, es solo un modelo de regresión lineal estándar. Se supone que la puntuación de un estudiante puede describirse como una función lineal de varios factores, incluidos los coeficientes de eficiencia de la escuela y el maestro, por lo que comparte todos los problemas estándar de los modelos lineales, principalmente el hecho de que es una gran aproximación de un método no lineal. mundo y podría funcionar perfectamente o vergonzosamente mal dependiendo de una situación y hasta qué punto uno trataría de extrapolar con ella. (Sin embargo, uno debería esperar que los autores del representante técnico lo verificaran y descubrieran que está bien ;-)).

Pero el verdadero problema es que esta es una herramienta analítica y no debe usarse para evaluar los logros de las personas; de esta manera (independientemente de si las marcas son justas o no) cada evaluado intenta comprender su marca (probablemente con la esperanza de optimizarlo) solo se encontrará con una confusión irremediable, como en este caso.


fuente
3
"No hay nada que entender aquí, es solo un modelo de regresión lineal estándar" - teehee ... como si eso fuera un consuelo para los matemáticos. Supongo que nunca has tenido el placer de impartir cursos de pregrado en estadísticas para, digamos, sociología o, dios me ayude, especializaciones en comunicaciones.
Fabians
@fabians Esto solo prueba mi punto: confrontar a las personas con matemáticas más complejas que contar es el mayor defecto de este enfoque =] Pero intentaré reformularlo.
Esta es una crítica válida, especialmente la parte de asumir la linealidad, pero en realidad no responde a la pregunta original (a menos que su intención sea ofender al hipotético "laico").
whuber