Tengo un problema de regresión múltiple, que intenté resolver usando una regresión múltiple simple:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Esto parece estar explicando el 85% de la varianza (según R cuadrado) que parece bastante bueno.
Sin embargo, lo que me preocupa es la trama Residuals vs Fitted de aspecto extraño, vea a continuación:
Sospecho que la razón por la que tenemos tales líneas paralelas es porque el valor Y tiene solo 10 valores únicos correspondientes a aproximadamente 160 de los valores X.
¿Quizás debería usar un tipo diferente de regresión en este caso?
Editar : He visto en el siguiente artículo un comportamiento similar. Tenga en cuenta que es un documento de una sola página, por lo que cuando lo ve, puede leerlo todo. Creo que explica bastante bien por qué observo este comportamiento, pero todavía no estoy seguro de si alguna otra regresión funcionaría mejor aquí.
Edit2: El ejemplo más cercano a nuestro caso que se me ocurre es el cambio en las tasas de interés. FED anuncia nuevas tasas de interés cada pocos meses (no sabemos cuándo y con qué frecuencia). Mientras tanto, reunimos nuestras variables independientes a diario (como la tasa de inflación diaria, los datos del mercado de valores, etc.). Como resultado, tendremos una situación en la que podremos tener muchas mediciones para una tasa de interés.
fuente
R
paquete que hace esto esordinal
, pero también hay otrosRespuestas:
Un posible modelo es uno de una variable "redondeada" o "censurada": dejary1, ...y10 siendo sus 10 valores observados. Se podría suponer que hay una variable latenteZ representando el precio "real", que no conoce completamente. Sin embargo, puedes escribirYi=yj⇒yj−1≤Zi≤yj+1 (con y0=−∞,y11=+∞ , si perdonas este abuso de notación). Si está dispuesto a arriesgar una declaración sobre la distribución de Z en cada uno de estos intervalos, una regresión bayesiana se vuelve trivial; una estimación de máxima verosimilitud necesita un poco más de trabajo (pero no mucho, por lo que puedo decir). Los análogos de este problema son tratados por Gelman y Hill (2007).
fuente