Como contexto: cuando trabajo con un conjunto de datos muy grande, a veces me preguntan si podemos crear un conjunto de datos sintéticos donde "conozcamos" la relación entre los predictores y la variable de respuesta, o las relaciones entre los predictores.
A lo largo de los años, parece que encuentro conjuntos de datos sintéticos únicos, que parecen estar preparados de manera ad hoc, o conjuntos de datos más estructurados que parecen especialmente favorables para el método de modelado propuesto por el investigador.
Creo que estoy buscando métodos estándar para crear conjuntos de datos sintéticos. Aunque el remuestreo bootstrap es un método común para crear un conjunto de datos sintéticos, no satisface la condición de que conozcamos la estructura a priori . Además, el intercambio de muestras de bootstrap con otros requiere esencialmente el intercambio de datos, en lugar de un método de generación de datos.
Si podemos ajustar una distribución paramétrica a los datos, o encontrar un modelo parametrizado suficientemente cercano, entonces este es un ejemplo en el que podemos generar conjuntos de datos sintéticos.
¿Qué otros métodos existen? Estoy especialmente interesado en datos de alta dimensión, datos dispersos y datos de series de tiempo. Para datos de alta dimensión, buscaría métodos que puedan generar estructuras (por ejemplo, estructura de covarianza, modelos lineales, árboles, etc.) de interés. Para los datos de series temporales, las distribuciones a través de FFT, modelos AR u otros modelos de filtrado o pronóstico parecen ser un comienzo. Para datos escasos, la reproducción de un patrón de dispersión parece útil.
Creo que estos solo rascan la superficie: son prácticas heurísticas, no formales. ¿Existen referencias o recursos para generar datos sintéticos que los profesionales deberían conocer?
Nota 1: Me doy cuenta de que esta pregunta aborda la literatura sobre cómo uno puede generar datos como un modelo de serie temporal particular. La distinción aquí está en las prácticas, especialmente para indicar una estructura conocida (mi pregunta), en comparación con la similitud / fidelidad a un conjunto de datos existente. No es necesario en mi caso tener similitud, tanto como la estructura conocida, aunque la similitud es muy preferible a la disimilitud. Un conjunto de datos sintéticos exóticos para el que un modelo promete es menos preferido que una simulación realista.
Nota 2: La entrada de Wikipedia para datos sintéticos señala que luminarias como Rubin y Fienberg han abordado este problema, aunque no he encontrado referencias sobre las mejores prácticas. Sería interesante saber qué pasaría con, por ejemplo, los Anales de Estadísticas Aplicadas (o AOS), o en trabajos de revisión en estas u otras revistas. En términos simples y caprichosos, uno puede preguntarse dónde existe el umbral entre "(aceptablemente) cocinado" y "demasiado cocinado".
Nota 3: aunque no afecta a la pregunta, el escenario de uso es el modelado de conjuntos de datos variables grandes y de alta dimensión, donde la agenda de investigación es aprender (tanto por humanos como por máquina ;-)) la estructura de los datos. A diferencia de los escenarios univariados, bivariados y otros de baja dimensión, la estructura no se deduce fácilmente. A medida que avanzamos hacia una mejor comprensión de la estructura, poder generar conjuntos de datos con propiedades similares es de interés para ver cómo un método de modelado interactúa con los datos (por ejemplo, para examinar la estabilidad de los parámetros). No obstante, las guías más antiguas sobre datos sintéticos de baja dimensión pueden ser un punto de partida que se puede ampliar o adaptar para conjuntos de datos de dimensiones superiores.
El paquete estadístico R tiene una función de simulación que simulará datos basados en un modelo ajustado a los datos existentes. Esto utiliza el modelo ajustado como la relación de población "conocida", luego simula nuevos datos basados en ese modelo. Hay un método para esta función en el paquete lme4. Estos objetos ajustados pueden tener en cuenta la correlación y los efectos aleatorios y fijos (incluida la autocorrelación para series temporales).
Esto puede funcionar, haz lo que quieras.
fuente