Intento predecir un puntaje de equilibrio y probé varios métodos de regresión diferentes. Una cosa que noté es que los valores predichos parecen tener algún tipo de límite superior. Es decir, el saldo real está en , pero mis predicciones alcanzan alrededor de 0.8 . La siguiente gráfica muestra el saldo real versus el saldo predicho (predicho con regresión lineal):
Y aquí hay dos diagramas de distribución de los mismos datos:
Como mis predictores están muy sesgados (datos de usuario con distribución de la ley de potencia), apliqué una transformación de Box-Cox, que cambia los resultados a lo siguiente:
Aunque cambia la distribución de las predicciones, todavía existe ese límite superior. Entonces mis preguntas son:
- ¿Cuáles son las posibles razones de tales límites superiores en los resultados de predicción?
- ¿Cómo puedo arreglar las predicciones para que se correspondan con la distribución de los valores reales?
Bonificación: Dado que la distribución después de la transformación de Box-Cox parece seguir las distribuciones de los predictores transformados, ¿es posible que esto esté directamente relacionado? Si es así, ¿hay alguna transformación que pueda aplicar para ajustar la distribución a los valores reales?
Editar: utilicé una regresión lineal simple con 5 predictores.
Respuestas:
Su dep var está limitada entre 0 y 1 y, por lo tanto, OLS no es completamente apropiado, sugiero la regresión beta, por ejemplo, y puede haber otros métodos. Pero en segundo lugar, después de su transformación box-cox, usted dice que sus predicciones son limitadas, pero su gráfico no muestra eso.
fuente
Si bien hay mucho enfoque en el uso de regresiones que obedecen los límites de 0/1, y esto es razonable (¡e importante!), La pregunta específica de por qué su LPM no predice resultados superiores a 0.8 me parece una pregunta ligeramente diferente .
En cualquier caso, hay un patrón notable en sus residuos, es decir, su modelo lineal se ajusta mal a la cola superior de su distribución. Esto significa que hay algo no lineal sobre el modelo correcto.
Soluciones que también consideran el límite 0/1 de sus datos: probit, logit y regresión beta. Este límite es crítico y debe abordarse para que su trabajo sea riguroso, dada su distribución relativamente cercana a 1 y, por lo tanto, la gran cantidad de respuestas sobre ese tema.
Por lo general, sin embargo, el problema es que un LPM excede el límite de 0/1. ¡Este no es el caso aquí! Si no le preocupa el límite 0/1 y desea activamente una solución que pueda ajustarse con (x'x) ^ - 1 (x'y), considere que tal vez el modelo no sea estrictamente lineal. Ajustar el modelo como una función de x ^ 2, productos cruzados de variables independientes o registros de variables independientes puede ayudar a mejorar su ajuste y posiblemente mejorar el poder explicativo de su modelo para que pueda estimar valores superiores a 0.8.
fuente