Líneas rectas paralelas en parcela residual vs parcela ajustada

8

Tengo un problema de regresión múltiple, que intenté resolver usando una regresión múltiple simple:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Esto parece estar explicando el 85% de la varianza (según R cuadrado) que parece bastante bueno.

Sin embargo, lo que me preocupa es la trama Residuals vs Fitted de aspecto extraño, vea a continuación:

ingrese la descripción de la imagen aquí

Sospecho que la razón por la que tenemos tales líneas paralelas es porque el valor Y tiene solo 10 valores únicos correspondientes a aproximadamente 160 de los valores X.

¿Quizás debería usar un tipo diferente de regresión en este caso?

Editar : He visto en el siguiente artículo un comportamiento similar. Tenga en cuenta que es un documento de una sola página, por lo que cuando lo ve, puede leerlo todo. Creo que explica bastante bien por qué observo este comportamiento, pero todavía no estoy seguro de si alguna otra regresión funcionaría mejor aquí.

Edit2: El ejemplo más cercano a nuestro caso que se me ocurre es el cambio en las tasas de interés. FED anuncia nuevas tasas de interés cada pocos meses (no sabemos cuándo y con qué frecuencia). Mientras tanto, reunimos nuestras variables independientes a diario (como la tasa de inflación diaria, los datos del mercado de valores, etc.). Como resultado, tendremos una situación en la que podremos tener muchas mediciones para una tasa de interés.

Datageek
fuente
1
Es casi seguro que necesita alguna otra forma de regresión. Si los datos Y son ordinales (lo cual sospecho), entonces probablemente desee una regresión logística ordinal. Un Rpaquete que hace esto es ordinal, pero también hay otros
Peter Flom
En realidad, el Y es el precio que intentamos predecir, que cambia cada pocos meses. Tenemos variables de registro semanal (X) para el precio correspondiente (Y) que cambia cada pocos meses. ¿Funcionaría la regresión logística en este caso cuando no sabemos el precio futuro?
Datageek
2
Tienes razón sobre la explicación; su referencia lo clavó. Pero su situación parece inusual: parece que tiene solo diez respuestas independientes (que se encuentran en una escala continua, no discreta) pero está utilizando múltiples variables explicativas que varían con el tiempo. Esta no es una situación contemplada por la mayoría de las técnicas de regresión. Más información sobre lo que significan estas variables y cómo se miden podría ayudarnos a identificar un buen enfoque analítico.
whuber

Respuestas:

4

Un posible modelo es uno de una variable "redondeada" o "censurada": dejar y1,y10siendo sus 10 valores observados. Se podría suponer que hay una variable latenteZrepresentando el precio "real", que no conoce completamente. Sin embargo, puedes escribirYi=yjyj1Ziyj+1 (con y0=,y11=+, si perdonas este abuso de notación). Si está dispuesto a arriesgar una declaración sobre la distribución de Z en cada uno de estos intervalos, una regresión bayesiana se vuelve trivial; una estimación de máxima verosimilitud necesita un poco más de trabajo (pero no mucho, por lo que puedo decir). Los análogos de este problema son tratados por Gelman y Hill (2007).

Emmanuel Charpentier
fuente
1
Esta es una buena idea. Se ocupa del fenómeno, pero me pregunto si podría pasar por alto un problema mayor: incluso si los precios pueden considerarse censurados, lo más probable es que estén altamente correlacionados en serie.
whuber
Probé el paquete censReg R pero no pude hacerlo funcionar. Sin embargo, es posible que no haya entendido tu idea. El hecho es que conocemos todas las variables dependientes, por lo que no tenemos una situación en la que Y = 0 (censurado), es solo que la Y se mantiene estable durante unos meses. Acabo de hacer otra edición, así que espero que esto explique mejor nuestro caso de uso.
Datageek
1
Radek, creo que la idea es esta: supongamos que el precio Y(t) depende del tiempo pero solo cambia en momentos discretos t1,t2,. Concebimos esto como la manifestación de alguna variable subyacente no observada (el "precio real")Z(t)y esperamos que entre tiemposti y ti+1 Z(t) siempre estará entre Y(ti) y Y(ti+1). En efecto, entonces, vemos el precio observado en cualquier momentot en este intervalo como siendo Z(t)como censurado tanto a la izquierda como a la derecha porY(ti) y Y(ti+1). (Debo enfatizar "esperanza": esta es la "declaración de riesgo" mencionada).
whuber
1
whuber: tienes razón. La publicación original no aludía a una serie de tiempo, así que pasé por alto eso. Creo que para responder a la pregunta, tenemos que arriesgarnos a dos afirmaciones: una sobre la distribución deZ en los intervalos (yj1,yj+1, y uno sobre la forma del modelo temporal, es decir, la función f vinculante Z(t) a f(Z(1),Z(2,,Z(t1)). En un modelo de ERRORES, ambos aspectos se expresarían en declaraciones sobreZ. Ya no es tan simple ...
Emmanuel Charpentier