Los resultados de la regresión tienen un límite superior inesperado

9

Intento predecir un puntaje de equilibrio y probé varios métodos de regresión diferentes. Una cosa que noté es que los valores predichos parecen tener algún tipo de límite superior. Es decir, el saldo real está en , pero mis predicciones alcanzan alrededor de 0.8 . La siguiente gráfica muestra el saldo real versus el saldo predicho (predicho con regresión lineal):[0.0,1.0)0.8

real vs predicho

Y aquí hay dos diagramas de distribución de los mismos datos:

distribución inicial

Como mis predictores están muy sesgados (datos de usuario con distribución de la ley de potencia), apliqué una transformación de Box-Cox, que cambia los resultados a lo siguiente:

real vs predicho después de la transformación de Box-Cox

distribución después de la transformación de Box-Cox

Aunque cambia la distribución de las predicciones, todavía existe ese límite superior. Entonces mis preguntas son:

  • ¿Cuáles son las posibles razones de tales límites superiores en los resultados de predicción?
  • ¿Cómo puedo arreglar las predicciones para que se correspondan con la distribución de los valores reales?

Bonificación: Dado que la distribución después de la transformación de Box-Cox parece seguir las distribuciones de los predictores transformados, ¿es posible que esto esté directamente relacionado? Si es así, ¿hay alguna transformación que pueda aplicar para ajustar la distribución a los valores reales?

Editar: utilicé una regresión lineal simple con 5 predictores.

Mennny
fuente
1
Estoy realmente interesado en ver a dónde va esto. ¿Esto es solo un modelo de regresión lineal? ¿Cuántos predictores?
shadowtalker
1
Como nota al margen: como su variable de resultado está limitada por 0 y 1, un modelo de regresión lineal simple probablemente predecirá valores fuera de esos límites, lo que por supuesto no es válido. Hay otras opciones a considerar en este caso.
COOLSerdash
1
La entrada limitada implica una salida limitada para un modelo lineal. ¿Cuáles son los límites en los predictores (transformados)? ¿Puede mostrarnos una tabla resumen del ajuste del modelo?
cardenal
2
Mennny: Todo lo que realmente necesita (para empezar) son los valores de los coeficientes y los límites en los predictores. Al hacer coincidir los signos uno por uno, puede determinar rápidamente la predicción mínima y máxima (suponiendo que los predictores siempre satisfagan los límites, ya sea implícita o explícitamente).
cardenal
1
@cardinal: Verifiqué los límites de los predictores y pude confirmar su suposición. Con los predictores dados (no transformados) la predicción máxima es ~ 0.79. ¿Puede "copiar / pegar" su comentario como respuesta para que pueda aceptarlo? Como puedo proceder? Supongo que esto muestra que no hay una relación lineal entre mis predictores y el resultado.
Mennny

Respuestas:

1

Su dep var está limitada entre 0 y 1 y, por lo tanto, OLS no es completamente apropiado, sugiero la regresión beta, por ejemplo, y puede haber otros métodos. Pero en segundo lugar, después de su transformación box-cox, usted dice que sus predicciones son limitadas, pero su gráfico no muestra eso.

Leonardo Auslender
fuente
0

Si bien hay mucho enfoque en el uso de regresiones que obedecen los límites de 0/1, y esto es razonable (¡e importante!), La pregunta específica de por qué su LPM no predice resultados superiores a 0.8 me parece una pregunta ligeramente diferente .

En cualquier caso, hay un patrón notable en sus residuos, es decir, su modelo lineal se ajusta mal a la cola superior de su distribución. Esto significa que hay algo no lineal sobre el modelo correcto.

Soluciones que también consideran el límite 0/1 de sus datos: probit, logit y regresión beta. Este límite es crítico y debe abordarse para que su trabajo sea riguroso, dada su distribución relativamente cercana a 1 y, por lo tanto, la gran cantidad de respuestas sobre ese tema.

Por lo general, sin embargo, el problema es que un LPM excede el límite de 0/1. ¡Este no es el caso aquí! Si no le preocupa el límite 0/1 y desea activamente una solución que pueda ajustarse con (x'x) ^ - 1 (x'y), considere que tal vez el modelo no sea estrictamente lineal. Ajustar el modelo como una función de x ^ 2, productos cruzados de variables independientes o registros de variables independientes puede ayudar a mejorar su ajuste y posiblemente mejorar el poder explicativo de su modelo para que pueda estimar valores superiores a 0.8.

Regresar adelante
fuente