Cómo probar formalmente para un "descanso" en una distribución normal (u otra)

10

Frecuentemente surge en las ciencias sociales que las variables que deberían distribuirse de alguna manera, digamos normalmente, terminan teniendo una discontinuidad en su distribución alrededor de ciertos puntos.

Por ejemplo, si hay puntos de corte específicos como "pasar / fallar" y si estas medidas están sujetas a distorsión, puede haber una discontinuidad en ese punto.

Un ejemplo destacado (citado a continuación) es que los puntajes de los exámenes estandarizados de los estudiantes se distribuyen normalmente en todas partes, excepto al 60%, donde hay muy poca masa del 50-60% y un exceso de masa alrededor del 60-65%. Esto ocurre en los casos en que los maestros califican los exámenes de sus propios alumnos. Los autores investigan si los maestros realmente están ayudando a los estudiantes a aprobar los exámenes.

La evidencia más convincente sin duda proviene de mostrar los gráficos de una curva de campana con una gran discontinuidad en torno a diferentes puntos de corte para diferentes pruebas. Sin embargo, ¿cómo haría para desarrollar una prueba estadística? Intentaron la interpolación y luego compararon la fracción arriba o abajo y también una prueba t en la fracción 5 puntos arriba y abajo del límite. Si bien es razonable, estos son ad-hoc. ¿Alguien puede pensar en algo mejor?

Enlace: Reglas y discreción en la evaluación de estudiantes y escuelas: el caso de los exámenes de los regentes de Nueva York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Distribución de los puntajes de los exámenes, los manipulables en negro, observe la fuerte caída de la densidad por debajo del límite y el aumento correspondiente por encima

d_a_c321
fuente
Solo para aclarar: ¿está probando una falta genérica de, por ejemplo, Normalidad, o la presencia de una discontinuidad en un punto predeterminado? Su ejemplo es el último, pero, por supuesto, cualquier prueba de bondad de ajuste, por ejemplo, Anderson-Darling o Shapiro-Wilk para la Normalidad, servirá, aunque con una alternativa altamente específica podría construir pruebas más potentes. Además, en su gráfico anterior evidentemente tiene una muestra de miles; ¿esto también sería típico?
jbowman

Respuestas:

6

Es importante enmarcar la pregunta correctamente y adoptar un modelo conceptual útil de los puntajes.

La pregunta

Los umbrales de trampa potenciales, como 55, 65 y 85, se conocen a priori independientemente de los datos: no tienen que determinarse a partir de los datos. (Por lo tanto, este no es un problema de detección atípico ni un problema de ajuste de distribución). La prueba debe evaluar la evidencia de que algunos (no todos) puntajes apenas inferiores a estos umbrales se movieron a esos umbrales (o, tal vez, simplemente por encima de esos umbrales).

Modelo conceptual

Para el modelo conceptual, es crucial comprender que es poco probable que los puntajes tengan una distribución normal (ni ninguna otra distribución fácilmente parametrizable). Eso está muy claro en el ejemplo publicado y en todos los demás ejemplos del informe original. Estos puntajes representan una mezcla de escuelas; incluso si las distribuciones dentro de cualquier escuela fueran normales (no lo son), es probable que la mezcla no sea normal.

Un enfoque simple acepta que hay una distribución de puntaje verdadera: la que se informaría, excepto por esta forma particular de trampa. Por lo tanto, es una configuración no paramétrica. Eso parece demasiado amplio, pero hay algunas características de la distribución de puntajes que pueden anticiparse u observarse en los datos reales:

  1. i1ii+11i99

  2. Habrá variaciones en estos recuentos en torno a una versión suave idealizada de la distribución de puntajes. Estas variaciones serán típicamente de un tamaño igual a la raíz cuadrada de la cuenta.

  3. titic(i)δ(ti)c(i)t(i)

  4. δ(i)i=1,2,

tδ(1)=0δ0δ(1)>0

Construyendo una prueba

c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

porque en esto combinará una disminución negativa grande con el negativo de un gran aumento positivo , lo que aumenta el efecto de trampa .i=t1c(t+1)c(t)c(t)c(t1)

Voy a hipotetizar, y esto se puede verificar, que la correlación en serie de los recuentos cerca del umbral es bastante pequeña. (La correlación serial en otros lugares es irrelevante). Esto implica que la varianza de es aproximadamentec(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

Anteriormente sugerí que para todo (algo que también se puede verificar). De dóndevar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

debería tener aproximadamente la varianza de la unidad. Para poblaciones con puntajes grandes (el publicado parece ser de alrededor de 20,000) también podemos esperar una distribución aproximadamente Normal de . Como esperamos que un valor altamente negativo indique un patrón de trampa, obtenemos fácilmente una prueba de tamaño : escribiendo para el cdf de la distribución Normal estándar, rechace la hipótesis de no hacer trampa en el umbral cuando .c(t1)αΦtΦ(z)<α

Ejemplo

Por ejemplo, considere este conjunto de puntajes de prueba verdaderos , extraídos de una mezcla de tres distribuciones normales:

Histograma de puntajes verdaderos

A esto apliqué un horario de trampa en el umbral definido por . Esto enfoca casi todas las trampas en uno o dos puntajes inmediatamente por debajo de 65:t=65δ(i)=exp(2i)

Histograma de puntajes después de hacer trampa

Para tener una idea de lo que hace la prueba, calculé para cada puntaje, no solo , y lo tracé contra el puntaje:zt

Parcela de Z

(En realidad, para evitar problemas con recuentos pequeños, primero agregué 1 a cada recuento de 0 a 100 para calcular el denominador de ).z

La fluctuación cerca de 65 es evidente, como lo es la tendencia de todas las demás fluctuaciones a ser aproximadamente 1 en tamaño, de acuerdo con los supuestos de esta prueba. El estadístico de prueba es con un valor p correspondiente de , un resultado extremadamente significativo. La comparación visual con la figura en la pregunta en sí sugiere que esta prueba devolvería un valor p al menos tan pequeño.z=4.19Φ(z)=0.0000136

(Tenga en cuenta, sin embargo, que la prueba en sí misma no utiliza esta gráfica, que se muestra para ilustrar las ideas. La prueba solo analiza el valor trazado en el umbral, en ningún otro lugar. Sin embargo, sería una buena práctica hacer tal gráfica para confirmar que el estadístico de prueba realmente destaca los umbrales esperados como lugares de trampa y que todos los demás puntajes no están sujetos a tales cambios. Aquí, vemos que en todos los demás puntajes hay fluctuación entre aproximadamente -2 y 2, pero rara vez Tenga en cuenta también que no es necesario calcular la desviación estándar de los valores en este gráfico para calcular , evitando así los problemas asociados con los efectos de trampa que inflan las fluctuaciones en múltiples ubicaciones.z

Al aplicar esta prueba a múltiples umbrales, sería aconsejable un ajuste de Bonferroni del tamaño de la prueba. Un ajuste adicional cuando se aplica a múltiples pruebas al mismo tiempo también sería una buena idea.

Evaluación

Este procedimiento no se puede proponer seriamente para su uso hasta que se pruebe con datos reales. Una buena manera sería tomar puntajes para un examen y usar un puntaje no crítico para el examen como umbral. Presumiblemente, dicho umbral no ha sido sujeto a esta forma de trampa. Simule trampas según este modelo conceptual y estudie la distribución simulada de . Esto indicará (a) si los valores p son precisos y (b) el poder de la prueba para indicar la forma simulada de trampa. De hecho, uno podría emplear dicho estudio de simulación en los mismos datos que está evaluando, proporcionando una forma extremadamente efectiva de probar si la prueba es apropiada y cuál es su poder real. Porque la estadística de pruebazz es tan simple que las simulaciones serán practicables y rápidas de ejecutar.

whuber
fuente
Esta prueba debe ajustarse ligeramente porque la expectativa de es (aproximadamente) proporcional a la segunda derivada de la distribución. En el ejemplo, donde el umbral está cerca de un modo, esa segunda derivada está cerca de cero, por lo que no hay problema, pero para un umbral en un área de alta curvatura (alrededor de 70 o 90 en los datos simulados) el ajuste podría ser material. Si tengo la oportunidad, editaré esta respuesta en consecuencia. z
whuber
1

Sugiero ajustar un modelo que prediga explícitamente las caídas y luego mostrar que se ajusta significativamente mejor a los datos que uno ingenuo.

Necesitas dos componentes:

  • distribución inicial de puntajes,
  • procedimiento de verificación (honesta o no) de los puntajes cuando uno se ajusta por debajo de un umbral.

Un modelo posible para un umbral único (de valor ) es el siguiente: dondet

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) : la distribución de probabilidad de la puntuación final,
  • pinitial(s) : la distribución de probabilidad si no hubiera umbrales,
  • m(st) - la probabilidad de manipulación puntaje en puntaje de aprobación ,st
  • δ(s=t) es el delta de Kronecker, es decir, 1 si 0 de lo contrario.s=t

Por lo general, no puede aumentar mucho los puntajes. Sospecharía una disminución exponencial , donde es la proporción de puntajes revisados ​​(manipulados).m(st)aqtsa

Como distribución inicial, puede intentar utilizar la distribución de Poisson o Gauss. Por supuesto, lo ideal sería tener la misma prueba, pero para un grupo de maestros proporcionar umbrales y para el otro, sin umbrales.

Si hay más umbrales, entonces se puede aplicar la misma fórmula pero con correcciones para cada . Quizás sería diferente (p. Ej., Ya que la diferencia entre reprobar puede ser más importante que entre dos calificaciones aprobatorias).tiai

Notas:

  • A veces hay procedimientos para volver a verificar las pruebas si hay una calificación de aprobación inferior. Entonces es más difícil decir qué instancias fueron honestas y cuáles no.
  • m(st) seguramente dependerá del tipo de prueba. Por ejemplo, si hay preguntas abiertas, entonces algunas respuestas pueden ser ambiguas y el número de ellas depende de (por lo que para una puntuación baja puede ser más fácil aumentar la puntuación). Mientras que para la prueba de elección cerrada, debe haber poca o ninguna diferencia en el número de respuestas correctas e incorrectas.s
  • A veces, los puntajes 'corregidos' pueden estar por encima de ; en lugar de idealizado uno puede tapar algo diferente.tδ(s=t)
Piotr Migdal
fuente
No estoy seguro de que responda mi pregunta exacta. En este caso, no tenemos la capacidad de volver a verificar ningún examen. Todo lo que se observa es una distribución de puntajes finales. La distribución es mayormente normal. Excepto, alrededor de cierto punto de corte donde sospechamos manipulación, hay una ruptura en la curva normal. Si lo nulo es que la curva sería "suave" en ese punto, ¿cómo podemos probarla contra una hipótesis alternativa en la que está "irregular"
D_a_c321
Creo que no entiendo la pregunta. Mi punto era: ajustar Gaussian (2 parámetros) y calcular , luego ajustar (2 parámetros para Gaussian + (t + 1) parámetros para los umbrales) y calcular su . Calcular la suavidad (por ejemplo, en forma de ) puede ser interesante, pero es importante verificar los supuestos subyacentes, etc. por ejemplo, para pruebas con muchas preguntas de 2 puntos, puede haber una irregularidad "inicial" bastante alta). Si uno tiene acceso a datos sin procesar (es decir, todas las respuestas, no solo los puntajes totales), entonces hay aún más espacio para las pruebas ...X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal
1

Dividiría este problema en dos subproblemas:

  • Estime los parámetros de una distribución para ajustar los datos.
  • Realice la detección de valores atípicos utilizando la distribución ajustada

Hay varias formas de abordar cualquiera de los subproblemas.

Me parece que una distribución de Poisson se ajustaría a los datos, si se distribuyera de forma independiente e idéntica (iid) , lo que, por supuesto, creemos que no es así. Si tratamos ingenuamente de estimar los parámetros de la distribución, los valores atípicos nos sesgarán. Dos formas posibles de superar esto son utilizar técnicas de regresión robusta o un método heurístico como la validación cruzada.

Para la detección de valores atípicos, nuevamente hay numerosos enfoques. Lo más simple es usar los intervalos de confianza de la distribución que ajustamos en la etapa 1. Otros métodos incluyen métodos de arranque y enfoques de Monte-Carlo.

Aunque esto no le dirá que hay un "salto" en la distribución, le dirá si hay más valores atípicos de lo esperado para el tamaño de la muestra.

Un enfoque más complejo sería construir varios modelos para los datos, como las distribuciones compuestas, y utilizar algún tipo de método de comparación de modelos (AIC / BIC) para determinar cuál de los modelos es el más adecuado para los datos. Sin embargo, si simplemente está buscando "desviación de una distribución esperada", entonces esto parece excesivo.

tdc
fuente