Tengo los porcentajes de rango de los estudiantes en 38 exámenes como la variable dependiente en mi estudio. Un porcentaje de rango se calcula por (rango / número de estudiantes en un examen). Esta variable dependiente tiene una distribución casi uniforme y quiero estimar los efectos de algunas variables en la variable dependiente.
¿Qué enfoque de regresión uso?
regression
distributions
siren99
fuente
fuente
Respuestas:
Si está trabajando con Stata, eche un vistazo al siguiente ejemplo: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm
Aquí hay una cita de esta página web:
fuente
Sinopsis
Los resultados de la regresión pueden tener un valor limitado cuando se interpretan cuidadosamente. Las formas inevitables de variación harán que las estimaciones de los coeficientes se reduzcan sustancialmente hacia cero. Se necesita un mejor modelo que maneje la variación de una manera más apropiada.
(Se puede construir un modelo de máxima verosimilitud, pero puede ser impracticable debido al cálculo necesario, que implica la evaluación numérica de integrales multidimensionales. El número de dimensiones es igual al número de estudiantes matriculados en las clases).
Introducción
Como narración para informar nuestra intuición, imagine que estos 38 exámenes se dieron en 38 cursos separados durante un semestre en una escuela pequeña con una matrícula de 200 estudiantes universitarios. En una situación realista, esos estudiantes tendrán diferentes habilidades y experiencias. Como medidas sustitutivas de estas habilidades y experiencias que podríamos tomar, digamos, puntajes en las pruebas de matemáticas y verbales del SAT y el año en la universidad (1 a 4).
Por lo general, los estudiantes se inscribirán en cursos de acuerdo con sus habilidades e intereses. Los estudiantes de primer año toman cursos de introducción y los cursos de introducción están poblados principalmente por estudiantes de primer año. Los estudiantes de segundo año y los estudiantes de primer año y estudiantes de segundo año con talento toman los cursos avanzados y de posgrado. Esta selección estratifica parcialmente a los estudiantes. para que las habilidades innatas de los estudiantes dentro de cualquier clase sean típicamente más homogéneas que la difusión de habilidades en toda la escuela.
Por lo tanto, los estudiantes más capaces pueden obtener una calificación cercana al final de las clases difíciles y avanzadas en las que se inscriben, mientras que los estudiantes menos capaces pueden obtener una calificación cercana a la parte superior de las clases introductorias fáciles que toman. Esto puede confundir un intento directo de relacionar los rangos del examen directamente con los atributos de los estudiantes y las clases.
Análisis
Indice a los estudiantes con y deje que los atributos del estudiante i sean dados por el vector x i . Indice las clases con j y deje que los atributos de la clase j sean dados por el vector z j . El conjunto de estudiantes matriculados en la clase j es A ji i xi j j zj j Aj .
Asumir la "fuerza" de cada estudiante es una función de sus atributos más algo de valor aleatorio, que puede así tener media cero:si
Modelamos el examen en la clase agregando valores aleatorios independientes a la fortaleza de cada estudiante inscrito en la clase y convirtiéndolos en rangos. Por lo tanto, si el estudiante i está inscrito en la clase j , su rango relativo r i , j está determinado por su posición en la matriz ordenada de valoresj i j ri,j
Esta posición se divide por uno más que la inscripción total de la clase para dar la variable dependiente, el rango de porcentaje:ri,j
Afirmo que los resultados de la regresión dependen (bastante) de los tamaños y la estructura de los valores aleatorios (no observados) y δ i , j .εi δi,j Los resultados también dependen precisamente de cómo se matriculan los estudiantes en las clases. Esto debería ser intuitivamente obvio, pero lo que no es tan obvio, y parece difícil de analizar teóricamente, es cómo y cuánto afectan los valores no observados y las estructuras de clase a la regresión.
Simulación
Sin demasiado esfuerzo podemos simular esta situación para crear y analizar algunos datos de muestra. Una ventaja de la simulación es que puede incorporar verdadero fortalezas de los estudiantes, que en realidad no son observables. Otra es que podemos variar los tamaños típicos de los valores no observados, así como las asignaciones de clase. Esto proporciona una "caja de arena" para evaluar los métodos analíticos propuestos, como la regresión.
Para comenzar, configuremos el generador de números aleatorios para obtener resultados reproducibles y especifiquemos el tamaño del problema. Lo uso
R
porque está disponible para cualquiera.Para proporcionar realismo, creeδi,j j
n.classes
clases de dificultades variables en dos escalas (matemática y verbal, con una correlación negativa), realizadas en diferentes niveles académicos (que van desde 1 = introductorio a 7 = investigación), y con facilidad variable. (En una clase "fácil", las diferencias entre las cantidades de aprendizaje de los estudiantes pueden ser grandes y / o el examen puede proporcionar poca discriminación entre los estudiantes. Esto se modela mediante términos aleatorios que, para la clase j, tienden a ser grandes Los resultados del examen serán casi impredecibles a partir de los datos de fortaleza del alumno. Cuando la clase no es "fácil", estos términos aleatorios son insignificantemente pequeños y las fortalezas del alumno pueden determinar perfectamente la clasificación del examen).Los estudiantes se reparten entre los cuatro años y están dotados de valores aleatorios de sus atributos. No hay correlaciones entre ninguno de estos atributos:
El modelo es que cada estudiante tiene una "fuerza" inherente determinada en parte por sus atributos y en parte por su "habilidad", que es el valor . Los coeficientes de fuerza , que determinan la fuerza en términos de otros atributos, son lo que el análisis de datos posterior buscará estimar. Si quieres jugar con esta simulación, hazlo cambiando . El siguiente es un conjunto interesante y realista de coeficientes que reflejan el aprendizaje continuo de los estudiantes durante la universidad (con una gran cantidad entre los años 2 y 3); donde 100 puntos en cada parte del SAT valen aproximadamente un año de escuela; y donde aproximadamente la mitad de la variación se debe a los valores de "capacidad" no capturados por los puntajes del SAT o el año en la escuela.εi
beta
beta
(Tenga en cuenta queδi,j .01 .2
students$ability
no es observable: es una desviación aparentemente aleatoria entre la fuerza predicha de los otros atributos observables y la fuerza real en los exámenes. Para eliminar este efecto aleatorio, establecerbeta$ability
en cero.beta$sigma
Multiplicará losease
valores: es básicamente la desviación estándar de relación con el rango de fortalezas de los estudiantes en un curso dado. Valores alrededor de .01 a .2 más o menos me parecen razonables).Deje que los estudiantes elijan cursos que coincidan con sus habilidades Una vez que lo hacen, podemos calcular los tamaños de clase y0
classes
guardarlos con el marco de datos para su uso posterior. El valor despread
en laassignments <-...
línea determina qué tan cerca los estudiantes están divididos en clases por habilidad. Un valor cercano a esencialmente combina a los estudiantes más débiles con los cursos más fáciles. Un valor cercano al número de clases distribuye a los estudiantes un poco más. Valores mucho más grandes que eso comienzan a volverse poco realistas, porque tienden a colocar a los estudiantes más débiles en los cursos más difíciles.(Como ejemplo de lo que ha logrado este paso, vea la figura más abajo).
Ahora aplique el modelo: las habilidades de los estudiantes en cada clase varían de forma independiente, más para exámenes fáciles, menos para exámenes difíciles (discriminatorios), para determinar sus puntajes de examen. Estos se resumen como rangos y "travesuras", que son porcentajes de rango. Las bromas para una clase de estudiantes varían de 1 / ( n + 1 ) a n / ( n + 1 ) en incrementos de 1 / ( n + 1 ) . Más adelante, esto permitirá aplicar transformaciones, como la función logística (que no está definida cuando se aplica a valores den 1/(n+1) n/(n+1) 1/(n+1) o 1 ).0 1
A estos datos en bruto adjuntamos los atributos del alumno y la clase para crear un conjunto de datos adecuado para el análisis:
Orientémonos inspeccionando una muestra aleatoria de los datos:
El registro 118, por ejemplo, dice que el estudiante # 28 se matriculó en la clase # 1 y obtuvo el puesto 22 (desde abajo) en el examen para un rango de porcentaje de 0.957. El nivel general de dificultad de esta clase fue 0.0523 (muy fácil). Se inscribieron un total de 22 estudiantes. Este estudiante es un estudiante de segundo año (año 2) con 590 matemáticas, 380 puntajes verbales del SAT. Su fuerza académica general inherente es de 16.9. Estaban inscritos en cuatro clases en el momento.
Este conjunto de datos se corresponde con la descripción en la pregunta. Por ejemplo, los rangos de porcentaje son casi uniformes (como deben ser para cualquier conjunto de datos completo, porque los rangos de porcentaje para una sola clase tienen una distribución uniforme discreta).
Recuerde, en virtud de los coeficientes en
beta
, este modelo ha asumido una fuerte conexión entre los puntajes de los exámenes y las variables que se muestran en este conjunto de datos. Pero, ¿qué muestra la regresión? Regresemos la logística de la clasificación porcentual contra todas las características observables de los estudiantes que podrían estar relacionadas con sus habilidades, así como los indicadores de dificultad de clase:Las gráficas de diagnóstico (
plot(fit)
) parecen fastásticas: los residuos son homoscedasticos y bellamente normales (aunque de cola ligeramente corta, lo cual no es problema); sin valores atípicos; y ninguna influencia desfavorable en ninguna observación.level
level
(Por cierto, el uso de los rangos de porcentaje no transformados en la regresión no cambia cualitativamente los resultados informados a continuación).
spread
spread
spread
1
Esta vez, el R cuadrado se ha mejorado mucho (aunque todavía no es genial). Sin embargo, todos los coeficientes han aumentado en un 20 - 100%. Esta tabla los compara junto con algunas simulaciones adicionales:
spread
ability
deability
ysigma
allevel
entonces disminuye en un orden de magnitud).Este análisis rápido muestra que la regresión, al menos como se realiza aquí, va a confundir formas inevitables de variación con los coeficientes. Además, los coeficientes también dependen (en cierta medida) de cómo se distribuyen los estudiantes entre las clases. Esto puede acomodarse parcialmente al incluir atributos de clase entre las variables independientes en la regresión, como se hace aquí, pero aun así el efecto de la distribución del estudiante no desaparece.
Cualquier falta de previsibilidad del rendimiento real de los estudiantes, y cualquier variación en el aprendizaje de los estudiantes y el rendimiento real en los exámenes, aparentemente hacen que las estimaciones de los coeficientes se reduzcan a cero. Parecen hacerlo de manera uniforme, lo que sugiere que los coeficientes relativos aún pueden ser significativos.
fuente
The measure @user13203 proposes may be considered as a continous bounded underperformance score, the lower the better the performance:yij i-th student underperformance at j-th exam.
Using a logit linearizing transformation whereμij may depend on observable student or exams characteristics :
student's unobserved skills are modeled through the random componentvi while eij models other non systematic unobservables. Correlation between responses (examinations) may be addresed by assming a general covariance structure for eij . Why not a White (or sandwich/robust) variance structure ? Moreover, some of the responses correlation can be accounted within the μij (conditional dependence).
(This is just an idea from my biased experience, comments and critics are more than welcome.)
Unobservable abilities are likely to be correlated with students or exams observables attributes withinμij . This assumptions makes this model a RE with correlated error components, that can be estimated by ML or a two stage estimator: first stage: a within (or analog) transformation that eliminates vi . Second stage: OLS on the transformed model.
fuente
You might want to try logistic regression. The logit transformln(p1−p) will spread your response variable out over the real line so you won't get absurd predicted rank percentages like -3% or +110%.
fuente
A perfect model in this case will map the inputs (whatever covariates you have) to the outputs (the rank of the student in the class). Another way to think of this is by mapping first to the scores, and then mapping those scores to the rank. I'm going to ignore error for now.
test score:y=∑βx
rank:r=R(y)
In whichR is the ranking function. The problem is that R is a non-linear function that depends entirely on the data itself. If we assume that we have an infinite amount of data, then we know the complete distribution of y , and R(y) is essentially the cumulative density function. It tells you what percent of people scored worse than you on the test, the area to the left of your score.
This appears to be quite similar to the functional form of the generalized linear model. I think this is why the logistic regression approach was proposed by @Mike Anderson. If your exam scores were logistically distributed, then the link function to use would be the logit (its inverse is the cumulative density function we care about). Similarly, if the scores were normally distributed, the probit function would be the link function.
For your regression, the only way to estimate ranks is to say "given that my data are distributed as X, this point is in the 34th percentile". Otherwise, how do you know what a two point increase in your test score translates to in terms of rank? The caveat is that you have to estimate that distribution in order to choose your link function (certain functional forms will make your life a lot easier). Furthermore, this model isn't going to say "you were the 6th best out of a class of 38", rather "if the test scores were distributed how we think they are, your score would put you in the 15th percentile."
fuente