Incorporar variables explicativas más detalladas a lo largo del tiempo.

9

Estoy tratando de entender cómo podría modelar mejor una variable donde con el tiempo obtuve predictores cada vez más detallados. Por ejemplo, considere modelar las tasas de recuperación de los préstamos en mora. Supongamos que tenemos un conjunto de datos con 20 años de datos, y en los primeros 15 de esos años solo sabemos si el préstamo estaba garantizado o no, pero nada sobre las características de esa garantía. Sin embargo, durante los últimos cinco años, podemos dividir la garantía en un rango de categorías que se espera que sean un buen predictor de la tasa de recuperación.

Dada esta configuración, quiero ajustar un modelo a los datos, determinar medidas como la significación estadística de los predictores y luego pronosticar con el modelo.

¿En qué marco de datos faltantes encaja esto? ¿Hay alguna consideración especial relacionada con el hecho de que las variables explicativas más detalladas solo están disponibles después de un momento dado, en lugar de estar dispersas en la muestra histórica?

regression missing-data Abiel
fuente

1

Bien, según la experiencia en el uso de datos históricos, más historia puede hacer que el ajuste de regresión parezca mejor, pero si la predicción es el punto de ejercicio, se advierte la respuesta general. En el caso de que los datos reflejen períodos en los que el "mundo" era muy diferente, la estabilidad de las correlaciones es cuestionable. Esto ocurre especialmente en economía donde los mercados y las regulaciones están en constante evolución.

Esto es válido también para el mercado inmobiliario que, además, puede tener un ciclo largo. La invención de valores respaldados por hipotecas, por ejemplo, transformó el mercado hipotecario y abrió las puertas de la inundación para la originación de hipotecas, y también, desafortunadamente, la especulación (en realidad había toda una clase de préstamos sin documentos / de bajo documento llamados préstamos lier).

Los métodos que prueban los cambios de régimen pueden ser especialmente valiosos para decidir de manera no subjetiva cuándo excluir la historia.

AJKOER
fuente

1

Normalmente, esto puede verse como un problema de valor de parámetro acotado. Según entiendo su pregunta, tiene un parámetro menos informativo (colateral de calidad desconocida [Cu]) temprano en sus datos y más informativo (colateral con alta [Ch], media [Cm] o baja [Cl]) en su Datos posteriores.

Si cree que los parámetros no observados para el modelo no cambian con el tiempo, entonces el método puede ser simple en el que asume que las estimaciones puntuales de cada uno son Cl <Cm <Ch y Cl <= Cu <= Ch. La lógica es que Cl es lo peor y Ch es lo mejor, por lo tanto, cuando los datos son desconocidos, deben ser iguales o iguales a esos. Si está dispuesto a ser un poco restrictivo y supone que no todas las garantías fueron de alta o baja calidad durante los primeros 15 años, puede suponer que Cl <Cu <Ch, lo que hace que sea mucho más simple de estimar.

\begin{array}{lcl} C_{l} & = & \exp (β_{1}) \\ C_{m} & = & \exp (β_{1}) + \exp (β_{2}) \\ C_{u} & = & \exp (β_{1}) + \frac{\exp (β_{3})}{1 + \exp (- β_{4})} \\ C_{h} & = & \exp (β_{1}) + \exp (β_{2}) + \exp (β_{3}) \end{array}

$\begin{array}{lcl} C_l &=& \exp(\beta_1) \\ C_m &=& \exp(\beta_1) + \exp(\beta_2) \\ C_u &=& \exp(\beta_1) + \frac{\exp(\beta_3)}{1+\exp(-\beta_4)} \\ C_h &=& \exp(\beta_1) + \exp(\beta_2) + \exp(\beta_3) \end{array}$

Donde la función logit en Cu restringe el valor para estar entre Cl y Ch sin restringirlo en relación con Cm. (También se pueden usar otras funciones que limitan entre 0 y 1).

Otra diferencia en el modelo debería ser que la varianza debería estructurarse de modo que la varianza residual dependa del período de tiempo porque la información dentro de cada período es diferente.

Bill Denney
fuente

Incorporar variables explicativas más detalladas a lo largo del tiempo.

Respuestas: