En el análisis de regresión, ¿cuál es la diferencia entre el proceso de generación de datos y el modelo?

19

En el análisis de regresión, ¿cuál es la diferencia entre 'proceso de generación de datos' y 'modelo'?

Cerdo volador
fuente
1
El proceso de generación de datos nunca se conoce, elegimos el modelo con la esperanza de aproximarnos lo suficiente al proceso de generación de datos. Esa es una de las posibles respuestas, ayudaría si proporcionara más contexto, por lo que es más claro qué tipo de respuesta está buscando. Echa un vistazo al chat, el club de revistas actualmente en curso discute el artículo donde se plantea este problema.
mpiktas
3
Las respuestas a esta pregunta variarán, como deberían, porque varios autores utilizan tanto el "proceso de generación de datos" como el "modelo" de diversas maneras. @Weijie, ¿tienes una referencia particular en mente?
whuber

Respuestas:

15

Todos tenemos un buen sentido de lo que podría significar "modelo", aunque su definición técnica variará según las disciplinas. Para comparar esto con DGP, comencé mirando los cinco primeros éxitos (contando dos éxitos con el mismo autor como uno) en Google "proceso de generación de datos".

  1. Un documento sobre cómo la Fuerza Aérea de los Estados Unidos realmente crea datos en apoyo logístico.

  2. Resumen de un artículo publicado en Environment and Planning A sobre cómo se crean las "micropoblaciones sintéticas" a través de "modelos de simulación" informáticos.

  3. Una página web sobre "generación de datos sintéticos"; es decir, simulación "para explorar los efectos de ciertas características de datos en ... modelos".

  4. Resumen de un documento de conferencia sobre minería de datos, afirmando que "los datos en bases de datos son el resultado de un proceso subyacente de generación de datos (dgp)".

  5. Un capítulo del libro que caracteriza los datos de interés como "derivados de alguna transformación de un proceso [estocástico] subyacente V t ... algunos o todos [de los cuales] pueden no ser observados ..."WtVt

Estos enlaces exhiben tres usos ligeramente diferentes pero estrechamente relacionados del término "proceso de generación de datos". Lo más común es en un contexto de simulación estadística. Los otros se refieren a los medios reales por los cuales los datos se crean en una situación en curso (logística) y a un modelo de probabilidad para un procedimiento de creación de datos en curso, destinado a no ser analizado directamente. En el último caso, el texto está diferenciando un proceso estocástico no observable, que sin embargo está modelado matemáticamente, de los números reales que se analizarán.

Estos sugieren que dos respuestas ligeramente diferentes son sostenibles:

  1. En el contexto de la simulación o la creación de datos "sintéticos" para el análisis, el "proceso de generación de datos" es una forma de generar datos para su posterior estudio, generalmente mediante el generador de números pseudoaleatorios de una computadora. El análisis adoptará implícitamente algún modelo que describa las propiedades matemáticas de este DGP.

  2. En el contexto del análisis estadístico, es posible que queramos distinguir un fenómeno del mundo real (DGP) de las observaciones que se analizarán. Tenemos modelos para el fenómeno y las observaciones, así como un modelo de cómo están conectados los dos.

(X,Y)yo(X1yo,X2yo,...,Xpagyo,Yyo)yo=1,2,...,norteXjyoestar relacionado con los valores de . El modelo describiría las posibles formas en que estos datos podrían estar matemáticamente relacionados; por ejemplo , podríamos decir que cada es una variable aleatoria con expectativa y varianza para parámetros desconocidos y .YyoYyoXβσ2βσ

whuber
fuente
Escribe las palabras "causa" o "relacionado". Tengo una pregunta sobre esto. De su respuesta parece que el concepto DGP no implica causalidad. Sin embargo, ¿esta "relación" es algo más que correlación (o cualquier tipo de asociación) o no? Vea también esta mi pregunta relacionada: stats.stackexchange.com/questions/399671/…
markowitz
@markowitz "Correlación", estrictamente hablando, se refiere a un segundo momento de la variable aleatoria bivariada. Uso "relacionado" en el sentido más amplio de "no [estadísticamente] independiente".
whuber
Lo sé, y exactamente por esta razón dije "o cualquier tipo de asociación [sólo estadística]". ¿Puedo repetir mi pregunta como: Sin embargo, esta "relación" es algo más que la asociación o no? Partiendo del concepto de "modelo verdadero", a veces utilizado como sinónimo de DGP, parece algo más. Si es así, no entiendo exactamente qué es. Mi enlace anterior da un ejemplo.
Markowitz
@markowitz Me temo que no entiendo lo que estás tratando de preguntar. Esto puede deberse a que no estoy seguro de lo que quiere decir precisamente por "relación" o "asociación". Miré tu enlace, pero el uso inusual del inglés no me transmite nada significativo.
whuber
Lo siento por mi Inglés. Traté de modificar la pregunta vinculada en un sentido más claro. Espero que sea comprensible.
Markowitz
4

El DGP es el verdadero modelo. El modelo es lo que hemos intentado, utilizando nuestras mejores habilidades, para representar el verdadero estado de la naturaleza. El DGP está influenciado por el "ruido". El ruido puede ser de muchos tipos:

  1. Intervenciones únicas
  2. Cambios de nivel
  3. Tendencias
  4. Cambios en la estacionalidad
  5. Cambios en los parámetros del modelo
  6. Cambios en la varianza

Si no controla estos 6 elementos, se reduce su capacidad para identificar el verdadero DGP.

Tom Reilly
fuente
4

La respuesta de Whuber es excelente, pero vale la pena agregar énfasis al hecho de que un modelo estadístico no necesita parecerse al modelo generador de datos en todos los aspectos para ser un modelo apropiado para la exploración inferencial de datos. Liu y Meng explican ese punto con gran claridad en su reciente artículo presentado ( http://arxiv.org/abs/1510.08539 ):

Concepto erróneo 1. Un modelo de probabilidad debe describir la generación de los datos.

θ) En ninguna parte es este punto más claro que en aplicaciones que involucran experimentos informáticos en los que se usa un patrón probabilístico para describir datos siguiendo un patrón determinista conocido (pero muy complicado) (Kennedy y O'Hagan, 2001; Conti et al., 2009). Necesitamos un modelo descriptivo, no necesariamente un modelo generativo. Ver Lehmann (1990), Breiman (2001) y Hansen y Yu (2001) para más información sobre este punto.

Michael Lew
fuente
+1. Me gusta especialmente la distinción entre modelos descriptivos y generativos de datos.
Whuber