Frecuentemente surge en las ciencias sociales que las variables que deberían distribuirse de alguna manera, digamos normalmente, terminan teniendo una discontinuidad en su distribución alrededor de ciertos puntos.
Por ejemplo, si hay puntos de corte específicos como "pasar / fallar" y si estas medidas están sujetas a distorsión, puede haber una discontinuidad en ese punto.
Un ejemplo destacado (citado a continuación) es que los puntajes de los exámenes estandarizados de los estudiantes se distribuyen normalmente en todas partes, excepto al 60%, donde hay muy poca masa del 50-60% y un exceso de masa alrededor del 60-65%. Esto ocurre en los casos en que los maestros califican los exámenes de sus propios alumnos. Los autores investigan si los maestros realmente están ayudando a los estudiantes a aprobar los exámenes.
La evidencia más convincente sin duda proviene de mostrar los gráficos de una curva de campana con una gran discontinuidad en torno a diferentes puntos de corte para diferentes pruebas. Sin embargo, ¿cómo haría para desarrollar una prueba estadística? Intentaron la interpolación y luego compararon la fracción arriba o abajo y también una prueba t en la fracción 5 puntos arriba y abajo del límite. Si bien es razonable, estos son ad-hoc. ¿Alguien puede pensar en algo mejor?
Enlace: Reglas y discreción en la evaluación de estudiantes y escuelas: el caso de los exámenes de los regentes de Nueva York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf
fuente
Respuestas:
Es importante enmarcar la pregunta correctamente y adoptar un modelo conceptual útil de los puntajes.
La pregunta
Los umbrales de trampa potenciales, como 55, 65 y 85, se conocen a priori independientemente de los datos: no tienen que determinarse a partir de los datos. (Por lo tanto, este no es un problema de detección atípico ni un problema de ajuste de distribución). La prueba debe evaluar la evidencia de que algunos (no todos) puntajes apenas inferiores a estos umbrales se movieron a esos umbrales (o, tal vez, simplemente por encima de esos umbrales).
Modelo conceptual
Para el modelo conceptual, es crucial comprender que es poco probable que los puntajes tengan una distribución normal (ni ninguna otra distribución fácilmente parametrizable). Eso está muy claro en el ejemplo publicado y en todos los demás ejemplos del informe original. Estos puntajes representan una mezcla de escuelas; incluso si las distribuciones dentro de cualquier escuela fueran normales (no lo son), es probable que la mezcla no sea normal.
Un enfoque simple acepta que hay una distribución de puntaje verdadera: la que se informaría, excepto por esta forma particular de trampa. Por lo tanto, es una configuración no paramétrica. Eso parece demasiado amplio, pero hay algunas características de la distribución de puntajes que pueden anticiparse u observarse en los datos reales:
Habrá variaciones en estos recuentos en torno a una versión suave idealizada de la distribución de puntajes. Estas variaciones serán típicamente de un tamaño igual a la raíz cuadrada de la cuenta.
Construyendo una prueba
porque en esto combinará una disminución negativa grande con el negativo de un gran aumento positivo , lo que aumenta el efecto de trampa .i=t−1 c(t+1)−c(t) c(t)−c(t−1)
Voy a hipotetizar, y esto se puede verificar, que la correlación en serie de los recuentos cerca del umbral es bastante pequeña. (La correlación serial en otros lugares es irrelevante). Esto implica que la varianza de es aproximadamentec′′(t−1)=c(t+1)−2c(t)+c(t−1)
Anteriormente sugerí que para todo (algo que también se puede verificar). De dóndevar(c(i))≈c(i) i
debería tener aproximadamente la varianza de la unidad. Para poblaciones con puntajes grandes (el publicado parece ser de alrededor de 20,000) también podemos esperar una distribución aproximadamente Normal de . Como esperamos que un valor altamente negativo indique un patrón de trampa, obtenemos fácilmente una prueba de tamaño : escribiendo para el cdf de la distribución Normal estándar, rechace la hipótesis de no hacer trampa en el umbral cuando .c′′(t−1) α Φ t Φ(z)<α
Ejemplo
Por ejemplo, considere este conjunto de puntajes de prueba verdaderos , extraídos de una mezcla de tres distribuciones normales:
A esto apliqué un horario de trampa en el umbral definido por . Esto enfoca casi todas las trampas en uno o dos puntajes inmediatamente por debajo de 65:t=65 δ(i)=exp(−2i)
Para tener una idea de lo que hace la prueba, calculé para cada puntaje, no solo , y lo tracé contra el puntaje:z t
(En realidad, para evitar problemas con recuentos pequeños, primero agregué 1 a cada recuento de 0 a 100 para calcular el denominador de ).z
La fluctuación cerca de 65 es evidente, como lo es la tendencia de todas las demás fluctuaciones a ser aproximadamente 1 en tamaño, de acuerdo con los supuestos de esta prueba. El estadístico de prueba es con un valor p correspondiente de , un resultado extremadamente significativo. La comparación visual con la figura en la pregunta en sí sugiere que esta prueba devolvería un valor p al menos tan pequeño.z=−4.19 Φ(z)=0.0000136
(Tenga en cuenta, sin embargo, que la prueba en sí misma no utiliza esta gráfica, que se muestra para ilustrar las ideas. La prueba solo analiza el valor trazado en el umbral, en ningún otro lugar. Sin embargo, sería una buena práctica hacer tal gráfica para confirmar que el estadístico de prueba realmente destaca los umbrales esperados como lugares de trampa y que todos los demás puntajes no están sujetos a tales cambios. Aquí, vemos que en todos los demás puntajes hay fluctuación entre aproximadamente -2 y 2, pero rara vez Tenga en cuenta también que no es necesario calcular la desviación estándar de los valores en este gráfico para calcular , evitando así los problemas asociados con los efectos de trampa que inflan las fluctuaciones en múltiples ubicaciones.z
Al aplicar esta prueba a múltiples umbrales, sería aconsejable un ajuste de Bonferroni del tamaño de la prueba. Un ajuste adicional cuando se aplica a múltiples pruebas al mismo tiempo también sería una buena idea.
Evaluación
Este procedimiento no se puede proponer seriamente para su uso hasta que se pruebe con datos reales. Una buena manera sería tomar puntajes para un examen y usar un puntaje no crítico para el examen como umbral. Presumiblemente, dicho umbral no ha sido sujeto a esta forma de trampa. Simule trampas según este modelo conceptual y estudie la distribución simulada de . Esto indicará (a) si los valores p son precisos y (b) el poder de la prueba para indicar la forma simulada de trampa. De hecho, uno podría emplear dicho estudio de simulación en los mismos datos que está evaluando, proporcionando una forma extremadamente efectiva de probar si la prueba es apropiada y cuál es su poder real. Porque la estadística de pruebaz z es tan simple que las simulaciones serán practicables y rápidas de ejecutar.
fuente
Sugiero ajustar un modelo que prediga explícitamente las caídas y luego mostrar que se ajusta significativamente mejor a los datos que uno ingenuo.
Necesitas dos componentes:
Un modelo posible para un umbral único (de valor ) es el siguiente: dondet
Por lo general, no puede aumentar mucho los puntajes. Sospecharía una disminución exponencial , donde es la proporción de puntajes revisados (manipulados).m(s′→t)≈aqt−s′ a
Como distribución inicial, puede intentar utilizar la distribución de Poisson o Gauss. Por supuesto, lo ideal sería tener la misma prueba, pero para un grupo de maestros proporcionar umbrales y para el otro, sin umbrales.
Si hay más umbrales, entonces se puede aplicar la misma fórmula pero con correcciones para cada . Quizás sería diferente (p. Ej., Ya que la diferencia entre reprobar puede ser más importante que entre dos calificaciones aprobatorias).ti ai
Notas:
fuente
Dividiría este problema en dos subproblemas:
Hay varias formas de abordar cualquiera de los subproblemas.
Me parece que una distribución de Poisson se ajustaría a los datos, si se distribuyera de forma independiente e idéntica (iid) , lo que, por supuesto, creemos que no es así. Si tratamos ingenuamente de estimar los parámetros de la distribución, los valores atípicos nos sesgarán. Dos formas posibles de superar esto son utilizar técnicas de regresión robusta o un método heurístico como la validación cruzada.
Para la detección de valores atípicos, nuevamente hay numerosos enfoques. Lo más simple es usar los intervalos de confianza de la distribución que ajustamos en la etapa 1. Otros métodos incluyen métodos de arranque y enfoques de Monte-Carlo.
Aunque esto no le dirá que hay un "salto" en la distribución, le dirá si hay más valores atípicos de lo esperado para el tamaño de la muestra.
Un enfoque más complejo sería construir varios modelos para los datos, como las distribuciones compuestas, y utilizar algún tipo de método de comparación de modelos (AIC / BIC) para determinar cuál de los modelos es el más adecuado para los datos. Sin embargo, si simplemente está buscando "desviación de una distribución esperada", entonces esto parece excesivo.
fuente