Estoy trabajando en una tarea donde mi profesor quisiera que creáramos un verdadero modelo de regresión, simulemos una muestra de datos e intentará encontrar nuestro verdadero modelo de regresión utilizando algunas de las técnicas que hemos aprendido en clase. También tendremos que hacer lo mismo con un conjunto de datos que nos ha proporcionado.
Él dice que ha sido capaz de producir un modelo bastante preciso para todos los intentos pasados de tratar de engañarlo. Ha habido algunos estudiantes que crearon algún modelo de locura, pero posiblemente pudo producir un modelo más simple que era suficiente.
¿Cómo puedo desarrollar un modelo difícil de encontrar? ¿No quiero ser súper barato haciendo 4 términos cuadráticos, 3 observaciones y una varianza masiva? ¿Cómo puedo producir un conjunto de datos aparentemente inocuo que tenga un pequeño modelo resistente debajo?
Simplemente tiene 3 reglas a seguir:
Su conjunto de datos debe tener una variable "Y" y 20 variables "X" etiquetadas como "Y", "X1", ..., "X20".
Su variable de respuesta debe provenir de un modelo de regresión lineal que satisfaga: donde y .Y ′ i = β 0 + β 1 X ′ i 1 + … + β p - 1 X ′ i , p - 1 + ϵ i ϵ i ∼ N ( 0 , σ 2 ) p ≤ 21
Todas las variables que se usaron para crear están contenidas en su conjunto de datos.Y
Cabe señalar que no todas las 20 variables X deben estar en su modelo real
Estaba pensando en usar algo como el Modelo Fama-French de 3 factores y que comenzara con los datos de stock (SPX y AAPL) y tuviera que transformar esas variables a los rendimientos continuamente compuestos para obscurecerlo un poco más. Pero eso me deja con valores perdidos en la primera observación y son series de tiempo (que aún no hemos discutido en clase).
No estoy seguro de si este es el lugar adecuado para publicar algo como esto. Sentí que podría generar una buena discusión.
Editar: Tampoco estoy pidiendo modelos "preconstruidos" en particular. Tengo más curiosidad sobre los temas / herramientas en Estadísticas que permitirían a alguien abordar esto.
Respuestas:
Simplemente haga que el término de error sea mucho mayor que la parte explicada. Por ejemplo: , donde , y . Por supuesto, debes recordar cuál fue tu semilla, para poder demostrarle a tu profesor que tenías razón y que él estaba equivocado.X i j = sin ( i + j ) i = 1..1000 σ = 1000000yi=Xi1+ϵi Xij=sin(i+j) i=1..1000 σ=1000000
Buena suerte identificando la fase con esta relación ruido / señal.
fuente
Y podría generar una buena discusión en clase sobre la causalidad, lo que significa DGP verdadero y la identificabilidad en general.
fuente
Use variables con multicolinealidad y heterocedasticidad como ingreso versus edad: realice una ingeniería de características dolorosas que proporcione problemas de escala: proporcione NA para algunos dispersos en escasez. La pieza de linealidad realmente lo hace más desafiante, pero podría ser doloroso. Además, los valores atípicos aumentarían el problema por adelantado.
fuente
fuente
Elige cualquier modelo lineal. Dele un conjunto de datos donde la mayoría de las muestras estén alrededor de x = 0. Dale algunas muestras alrededor de x = 1,000,000.
Lo bueno aquí es que las muestras alrededor de x = 1,000,000 no son valores atípicos. Se generan a partir de la misma fuente. Sin embargo, dado que las escalas son tan diferentes, los errores alrededor de 1M no encajarán con los errores alrededor de 0.
Tenemos un conjunto de datos de n muestras, cerca de x = 0. Elegiremos 2 puntos más en valores "suficientemente lejanos". Suponemos que estos dos puntos tienen algún error.
Un valor "lo suficientemente" es un valor tal que el error para una estimación que no pasa directamente en estos dos puntos es mucho mayor que el error del resto del conjunto de datos.
Por lo tanto, la regresión lineal elegirá coeficientes que pasarán en estos dos puntos y perderán el resto del conjunto de datos y serán diferentes del modelo de subrayado.
Ver el siguiente ejemplo. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}
Esto está en formato de serie WolfarmAlpha. En cada par, el primer elemento es xy el segundo se generó en Excel usando la fórmula = A2 + NORMINV (RAND (), 0,2000).
fuente