Estoy intentando modelar una variable de respuesta que está teóricamente limitada entre -225 y +225. La variable es la puntuación total que obtuvieron los sujetos al jugar un juego. Aunque en teoría es posible que los sujetos obtengan un puntaje de +225. A pesar de esto porque el puntaje no solo dependía de las acciones de los sujetos, sino también de las acciones de otras acciones, el puntaje máximo de cualquiera fue 125 (este es el máximo de 2 jugadores que juegan entre sí), esto sucedió con una frecuencia muy alta. La puntuación más baja fue de +35.
Este límite de 125 está causando dificultad con una regresión lineal. Lo único que se me ocurre hacer es volver a escalar la respuesta para que esté entre 0 y 1 y usar una regresión beta. Si hago esto, aunque no estoy seguro, realmente puedo justificar decir que 125 es el límite superior (o 1 después de la transformación) ya que es posible obtener un puntaje de +225. Además, si hiciera esto, ¿cuál sería mi límite inferior, 35?
Gracias,
Jonathan
fuente
Respuestas:
Aunque no estoy completamente seguro de cuál es su problema con la regresión lineal, en este momento estoy terminando un artículo sobre cómo analizar los resultados limitados. Como no estoy familiarizado con la regresión Beta, tal vez alguien más responda esa opción.
Por su pregunta, entiendo que obtiene predicciones fuera de los límites. En este caso, optaría por la regresión logística de cuantiles . La regresión cuantil es una alternativa muy clara a la regresión lineal regular. Puede mirar diferentes cuantiles y obtener una imagen mucho mejor de sus datos que lo que es posible con una regresión lineal regular. Tampoco tiene suposiciones con respecto a la distribución 1 .
La transformación de una variable a menudo puede causar efectos divertidos en la regresión lineal, por ejemplo, usted tiene un significado en la transformación logística pero eso no se traduce en el valor regular. Este no es el caso con los cuantiles, la mediana siempre es la mediana, independientemente de la función de transformación. Esto le permite transformarse de un lado a otro sin distorsionar nada. El profesor Bottai sugirió este enfoque para los resultados limitados 2 , es un método excelente si desea hacer predicciones individuales, pero tiene algunos problemas cuando no quiere ver las versiones beta e interpretarlas de una manera no logística. La fórmula es simple:
Donde es su puntaje y es un número pequeño arbitrario .ϵy ϵ
Aquí hay un ejemplo que hice hace un tiempo cuando quería experimentar con él en R:
Esto proporciona la siguiente dispersión de datos, ya que puede ver que está claramente limitada e inconveniente :
Esto da como resultado la siguiente imagen donde las hembras están claramente por encima del límite superior:
Esto da la siguiente trama con problemas similares:
La regresión logística del cuantil que tiene una predicción acotada muy buena:
Aquí puede ver el problema con las Beta que, en la forma retransformada, difieren en diferentes regiones (como se esperaba):
Referencias
Para los curiosos, las parcelas se crearon con este código:
fuente
Smithson, M. and Verkuilen, J. (2006). A better lemon squeezer? maximum-likelihood regression with beta-distributed dependent variables. Psychological Methods, 11(1):54-71.
, DOI , PDF en línea . Tiene una motivación similar para modelar distribuciones con efectos de piso / techo.