¿Qué criterios deben cumplirse para concluir que se está produciendo un 'efecto techo'?

13

De acuerdo con The SAGE Encyclopedia of Social Science Research Methods ...

[a] el efecto techo ocurre cuando una medida posee un límite superior distinto para posibles respuestas y una gran concentración de participantes puntúa en o cerca de este límite. La atenuación de escala es un problema metodológico que ocurre cuando la varianza está restringida de esta manera. … Por ejemplo, puede producirse un efecto de techo con una medida de actitudes en la que una puntuación alta indica una actitud favorable y la respuesta más alta no logra capturar la evaluación más positiva posible. ... La mejor solución al problema de los efectos de techo es la prueba piloto, que permite identificar el problema temprano . Si un efecto de techo [énfasis agregado] se encuentra , [y] la medida de resultado es la ejecución de tareas, la tarea puede hacerse más difícil aumentar el rango de respuestas posibles. 1

Parece que hay una gran cantidad de consejos y preguntas ( y aquí ) que se ocupan de analizar los datos que muestran los efectos techo similar a la descrita en la cita anterior.

Mi pregunta puede ser simple o ingenua, pero ¿cómo se detecta realmente que hay un efecto de techo en los datos? Más específicamente, digamos que se crea una prueba psicométrica y se sospecha que conduce a un efecto de techo (solo examen visual) y luego la prueba se revisa para producir un mayor rango de valores. ¿Cómo se puede demostrar que la prueba revisada ha eliminado el efecto techo de los datos que genera? ¿Hay alguna prueba que muestre que hay un efecto techo en el conjunto de datos a pero no hay efecto de techo en el conjunto de datos b ?

Mi enfoque ingenuo sería simplemente examinar el sesgo de distribución y, si no está sesgado, concluir que no hay efecto de techo. ¿Es eso demasiado simplista?

Editar

Para agregar un ejemplo más concreto, digamos que desarrollo un instrumento que mide algún rasgo latente x que aumenta con la edad, pero finalmente se nivela y comienza a disminuir en la vejez. Hago la primera versión, que tiene un rango de 1 a 14, realizo algunas pruebas piloto y descubro que parece que puede haber un efecto de techo (una gran cantidad de respuestas en o cerca de 14, el máximo ... Concluyo esto simplemente por mirando los datos, pero ¿por qué? ¿Existe algún método riguroso para respaldar esa afirmación?

Luego reviso la medida para tener un rango de 1 a 20 y recopilo más datos. Veo que la tendencia coincide más con mis expectativas, pero ¿cómo sé que el rango de medición es lo suficientemente grande? ¿Necesito revisarlo nuevamente? Visualmente, parece estar bien, pero ¿hay alguna forma de probarlo para confirmar mis sospechas?

ingrese la descripción de la imagen aquí

Quiero saber cómo puedo detectar este efecto de techo en los datos en lugar de solo mirarlo. Los gráficos representan datos reales, no teóricos. Ampliar el alcance del instrumento creó una mejor difusión de datos, pero ¿es suficiente? ¿Cómo puedo probar eso?


1 Hessling, R., Traxel, N. y Schmidt, T. (2004). Efecto techo. En Michael S. Lewis-Beck, A. Bryman y Tim Futing Liao (Eds.), The SAGE Encyclopedia of Social Science Research Methods . (pág. 107). Thousand Oaks, CA: Sage Publications, Inc. doi: 10.4135 / 9781412950589.n102

techo
fuente
44
Para avanzar, uno tendría que llegar a una definición operativa de "efecto techo". Hacer eso en general podría ser problemático: después de todo, casi cualquier cantidad medida no puede exceder de manera realista algún valor, como el 100% en un puntaje de prueba o concentración química, el límite superior de lo que un instrumento puede leer, y así sucesivamente, por lo que podría decirse que casi Todos los datos están sujetos a algún límite superior inherente. Entonces, aunque el significado deseado de "efecto techo" es intuitivamente claro a partir de sus buenos ejemplos, puede ayudarnos aclarando exactamente qué necesita ser "eliminado" de sus datos y por qué.
whuber
1
@whuber tienes razón en que el término se usa de varias maneras diferentes, pero en este caso, estoy hablando de hacer una regla el tiempo suficiente para superar todas las cosas que quiero medir. Al crear pruebas, seguramente querrá incluir suficientes elementos de un rango de dificultades para que nadie obtenga el 100%, de lo contrario no sabrá si la capacidad de esa persona es realmente el límite de la prueba o superior. No es necesario eliminar nada de los datos, pero el instrumento debe revisarse hasta que no arroje puntos de datos censurados.
techo
Gracias. Sin embargo, todavía no estoy seguro de lo que quiere decir con "efecto techo", porque ninguna de sus ilustraciones muestra evidencia abierta de ningún tipo de censura, al menos no con límites de censura fijos del tipo logrado con una prueba. De hecho, el cambio del panel izquierdo al derecho se parece más a una reexpresión no lineal uno a uno del eje vertical, que no tendría ningún efecto en ningún techo en los datos. Esto me hace preguntarme si realmente le preocupa algo completamente diferente, como la asimetría de los residuos de regresión.
whuber
1
Se ha añadido @whuber jitter ya que la mayoría de los puntos se superponen. Si las gráficas no parecen estar relacionadas con mi pregunta, entonces obviamente no tengo idea de lo que estoy hablando. Para mí, parece que hay un efecto de techo según lo descrito por Hessling, Traxel y Schmidt, pero según sus comentarios y la total falta de interés en esta pregunta, tal vez estoy viendo un problema donde no hay ninguno. Sin embargo, gracias por sus sugerencias y puntos de vista. Lo aprecio.
techo
1
@Johan ya veo. En el espíritu de su pregunta, se me ocurre que una ligera modificación de su idea podría ser buena. A menos que tengamos razones para suponer que los residuos deben estar distribuidos normalmente, podríamos buscar una transformación monótona de la respuesta en la que las distribuciones residuales sean homoscedásticas donde la respuesta es baja y posiblemente se trunquen donde la respuesta es alta. En otras palabras, quizás la prueba no debería ser la normalidad, sino que debería buscar una forma y escala consistentes para la respuesta.
whuber

Respuestas:

3

En primer lugar, me gustaría decir que ambos gráficos me proporcionan evidencia clara de que hay un efecto de techo presente. Cómo trataría de medir ese efecto en lugar de solo visualmente sería observar que mientras una parte no trivial de las observaciones se encuentre cerca del límite superior del rango del instrumento. Por lo general, un efecto de techo siempre existirá siempre que haya una parte no trivial de los examinados que alcancen la puntuación máxima en la prueba.

Sin embargo, dicho esto, la tecnología de análisis de pruebas ha progresado mucho ya que necesitábamos interpretar directamente los puntajes en un instrumento basado en el puntaje correcto. Ahora podemos usar la teoría de respuesta a ítems para estimar los parámetros de ítems de ítems individuales y usar esos ítems para identificar la habilidad del sujeto. Por supuesto, puede haber efectos de techo en una prueba si hacemos la prueba demasiado fácil. Sin embargo, debido a los poderes de la teoría de respuesta a ítems, deberíamos poder colocar al menos algunos ítems de dificultad suficientemente alta en el instrumento para evitar que solo una porción trivial de la población llegue al techo.

Gracias por la pregunta ¡Es muy interesante!

Francis Smart
fuente
2

Supongo que una forma aproximada y sencilla sería medir la varianza a medida que aumenta la escala. Si esto muestra una reducción, esto es evidencia de un efecto de techo y si no, no hay efecto de techo. Podría hacer una gráfica de homogeneidad de varianza. La prueba de Levene podría ser útil para determinar si la varianza es diferente en diferentes puntos de la escala.

usuario45114
fuente
2
Gracias por la idea. Lo intentaré, pero espero que la varianza disminuya naturalmente con la edad en este caso.
techo
Techo, tanto esta respuesta como su comentario parecen confundir dos conceptos distintos. La variación de escala reflejaría la dispersión de mediciones independientes repetidas de un sujeto; se supone que no depende del sujeto, sino que posiblemente varía con la respuesta media del sujeto. La varianza a la que se refieren usted y esta respuesta es la varianza de los residuos de regresión. Aunque están relacionados, no son lo mismo.
whuber
@whuber gracias por señalar eso. por cierto, ¿todavía no ves evidencia de un efecto de techo con el gráfico de actualización y la información? Estoy bastante sorprendido de que esta pregunta no haya atraído casi ningún interés debido a las múltiples preguntas y respuestas sobre el análisis de datos con efectos de techo presentes.
techo
Hola. Mientras esté trazando la varianza entre sujetos a medida que aumenta la escala, en lugar de dentro de los sujetos, ¿esto no le dirá algo sobre los efectos de techo? - ¿Todavía puede usar la prueba de Levene para probar un cambio significativo en la varianza a medida que aumenta la escala? ¿O solo está diseñado para probar los cambios de variación dentro del sujeto? ¿Deberíamos usar un término diferente para describir la variación de los puntajes de diferentes personas a medida que la escala aumenta además de "variación de escala", como "Variación de residuos"? Se puede usar la prueba de levene para mostrar que la "varianza de los residuos" es uniforme en toda la escala
user45114
0

El problema crítico al decidir si una agrupación alrededor del punto más alto o más bajo se debe a un efecto techo / piso es si los valores de los casos realmente "representan" el valor. Cuando ocurren efectos de techo / piso, algunos de los casos, a pesar de asumir el valor máximo o mínimo, en realidad son más altos / más bajos que el valor máximo o mínimo (imagine que un adulto y un niño terminan una prueba de matemáticas extremadamente simple que pretendía medir la capacidad matemática de uno, y ambos obtuvieron el 100%). Aquí, los datos están censurados.

Otro escenario también es posible cuando usamos escalas acotadas como una escala tipo Likert que tiene límites superiores e inferiores inherentes. Es completamente posible que aquellos que obtuvieron el puntaje más alto realmente valen ese puntaje y no existan diferencias (como el ejemplo matemático anterior) entre todos los que obtuvieron el puntaje más alto. En tal caso, los datos se truncan en los límites, no se censuran.

Basado en el razonamiento anterior, creo que uno debería idear un procedimiento para ajustar cualquier conjunto de datos dado con truncamiento y censura de datos. Si el modelo de censura se ajusta mejor a los datos, creo que uno puede concluir que existe un efecto techo / piso.

wuy3814
fuente