Ocultar un modelo de regresión del profesor (acorazado de regresión) [cerrado]

11

Estoy trabajando en una tarea donde mi profesor quisiera que creáramos un verdadero modelo de regresión, simulemos una muestra de datos e intentará encontrar nuestro verdadero modelo de regresión utilizando algunas de las técnicas que hemos aprendido en clase. También tendremos que hacer lo mismo con un conjunto de datos que nos ha proporcionado.

Él dice que ha sido capaz de producir un modelo bastante preciso para todos los intentos pasados ​​de tratar de engañarlo. Ha habido algunos estudiantes que crearon algún modelo de locura, pero posiblemente pudo producir un modelo más simple que era suficiente.

¿Cómo puedo desarrollar un modelo difícil de encontrar? ¿No quiero ser súper barato haciendo 4 términos cuadráticos, 3 observaciones y una varianza masiva? ¿Cómo puedo producir un conjunto de datos aparentemente inocuo que tenga un pequeño modelo resistente debajo?

Simplemente tiene 3 reglas a seguir:

  1. Su conjunto de datos debe tener una variable "Y" y 20 variables "X" etiquetadas como "Y", "X1", ..., "X20".

  2. Su variable de respuesta debe provenir de un modelo de regresión lineal que satisfaga: donde y .Y i = β 0 + β 1 X i 1 + + β p - 1 X i , p - 1 + ϵ i ϵ iN ( 0 , σ 2 ) p 21Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Todas las variables que se usaron para crear están contenidas en su conjunto de datos.YXY

Cabe señalar que no todas las 20 variables X deben estar en su modelo real

Estaba pensando en usar algo como el Modelo Fama-French de 3 factores y que comenzara con los datos de stock (SPX y AAPL) y tuviera que transformar esas variables a los rendimientos continuamente compuestos para obscurecerlo un poco más. Pero eso me deja con valores perdidos en la primera observación y son series de tiempo (que aún no hemos discutido en clase).

No estoy seguro de si este es el lugar adecuado para publicar algo como esto. Sentí que podría generar una buena discusión.

Editar: Tampoco estoy pidiendo modelos "preconstruidos" en particular. Tengo más curiosidad sobre los temas / herramientas en Estadísticas que permitirían a alguien abordar esto.

dylanjm
fuente
44
Va a ser difícil si te está limitando a un modelo lineal ...
Frank H.
44
Si su profesor gana si sus coeficientes verdaderos están dentro de los intervalos de confianza del 95%, entonces la multicolinealidad no ayudará, porque la multicolinealidad infla enormemente los IC. Si, por otro lado, se realiza una evaluación de la diferencia entre los datos pronosticados y los reales en los nuevos predictores (los datos "reales" se han generado utilizando su verdadero DGP), entonces la multicolinealidad será un enfoque mucho mejor. En pocas palabras: descubra cuál es la función objetivo y adapte su enfoque. (Esto se aplica más generalmente en la vida ...)
Stephan Kolassa
44
@dylanjm ¿Podría definir con precisión sus condiciones de victoria?
Matthew Gunn
11
El objetivo de este ejercicio es que aprendas tratando de pensar en algo tú mismo . Si enfrenta a expertos aquí contra él, su oportunidad de realmente estirar su cerebro al consolidar diferentes piezas de información que le han dado en relación con la regresión se reduce drásticamente (además de ser injusto para el profesor). Además, en cualquier institución acreditada que le presente el trabajo como suyo cuando fue realizado en parte por otra persona, puede estar en algún lugar entre mala conducta académica y fraude (especialmente si vale la pena alguna parte de su marca). Tenga mucho cuidado con exactamente cómo se pregunta esto.
Glen_b -Reinstalar Monica
44
A pesar de la popularidad de esta pregunta, me siento obligado a cerrarla en este punto porque incluso después de repetidas solicitudes de aclaraciones sobre las reglas del juego (qué criterios se utilizarán para evaluar el éxito, cuántas muestras debe suministrar, etc.) es importante La información aún no ha aparecido en la pregunta. Nuestros objetivos son más específicos y más específicos que "generar discusión": consulte nuestro centro de ayuda para conocer los tipos de preguntas que podemos abordar en este sitio.
whuber

Respuestas:

6

Simplemente haga que el término de error sea mucho mayor que la parte explicada. Por ejemplo: , donde , y . Por supuesto, debes recordar cuál fue tu semilla, para poder demostrarle a tu profesor que tenías razón y que él estaba equivocado.X i j = sin ( i + j ) i = 1..1000 σ = 1000000yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Buena suerte identificando la fase con esta relación ruido / señal.

Aksakal
fuente
Esto no parece funcionar para el criterio de victoria de CI, ¿verdad? Simplemente obtendremos enormes CI que ciertamente cubrirán 1. Y cierta inestabilidad numérica, por supuesto.
Stephan Kolassa
La inestabilidad no será un problema, todo lo que estoy haciendo es enterrar la señal en ruido. Esto saldrá como puro ruido blanco.
Aksakal
44
esto fue considerado un modelo barato indeseable por el OP
Sextus Empiricus
5

YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

YX1X1YX1X2

X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY etc. Puede argumentar que no fue lo que dijo, ya que afirma:

la variable Y debe provenir de un modelo de regresión lineal que satisfaga (...) las variables que se usaron para crear Y (...) su modelo real (...)

Y podría generar una buena discusión en clase sobre la causalidad, lo que significa DGP verdadero y la identificabilidad en general.

Carlos Cinelli
fuente
propones un modelo que cumple con el n. ° 2 en la publicación
Aksakal
3

Use variables con multicolinealidad y heterocedasticidad como ingreso versus edad: realice una ingeniería de características dolorosas que proporcione problemas de escala: proporcione NA para algunos dispersos en escasez. La pieza de linealidad realmente lo hace más desafiante, pero podría ser doloroso. Además, los valores atípicos aumentarían el problema por adelantado.

David
fuente
Creo que la heterocedasticidad está fuera del alcance del problema, pero definitivamente estoy de acuerdo en que la multicolinealidad es una de las mejores formas de hacer que la verdadera especificación sea difícil de encontrar.
JDL
2

X5X8X12X13

Ruben van Bergen
fuente
0

Elige cualquier modelo lineal. Dele un conjunto de datos donde la mayoría de las muestras estén alrededor de x = 0. Dale algunas muestras alrededor de x = 1,000,000.

Lo bueno aquí es que las muestras alrededor de x = 1,000,000 no son valores atípicos. Se generan a partir de la misma fuente. Sin embargo, dado que las escalas son tan diferentes, los errores alrededor de 1M no encajarán con los errores alrededor de 0.

Yi=β0+β1Xi1+ϵi

Tenemos un conjunto de datos de n muestras, cerca de x = 0. Elegiremos 2 puntos más en valores "suficientemente lejanos". Suponemos que estos dos puntos tienen algún error.

Un valor "lo suficientemente" es un valor tal que el error para una estimación que no pasa directamente en estos dos puntos es mucho mayor que el error del resto del conjunto de datos.

Por lo tanto, la regresión lineal elegirá coeficientes que pasarán en estos dos puntos y perderán el resto del conjunto de datos y serán diferentes del modelo de subrayado.

Ver el siguiente ejemplo. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Esto está en formato de serie WolfarmAlpha. En cada par, el primer elemento es xy el segundo se generó en Excel usando la fórmula = A2 + NORMINV (RAND (), 0,2000).

β0=1,β1=1

y=178433.x426805y=x

DaL
fuente
¿Cómo debería funcionar esto exactamente y qué efecto se supone que creará?
Richard Hardy
Funciona ya que el ruido y la precisión funcionarán de manera diferente en las diferentes escalas. En los números altos, llevando al extremo y considerando un solo punto, la línea debe pasar directamente por él o sufrir un alto costo. Un poco de ruido es suficiente para perder los valores correctos. Alrededor de cero, nuevamente en extremo, sin interacciones, te quedas con el ruido.
DaL
Use un valor pequeño para la variable con el coeficiente incorrecto y está pagando el costo.
DaL
Sí, pero ¿por qué sería difícil para el profesor descubrir el modelo que generó esto? Parece una tarea particularmente fácil cuando hay tanta variación en el regresor dado.
Richard Hardy
Porque ningún modelo encajará bien en ambos grupos.
DaL