Estoy escribiendo un ejemplo y he inventado algunos datos. Quiero que quede claro para el lector que no se trata de datos reales, pero tampoco quiero dar la impresión de malicia, ya que solo sirve como ejemplo.
No hay un componente (pseudo) aleatorio para estos datos en particular, por lo que me parece que 'simulado' no es apropiado. Si lo llamo ficticio o fabricado, ¿eso da la impresión de datos fraudulentos ? ¿Es 'inventado' una palabra que encajaría en un contexto científico?
¿Cuál es la terminología en la literatura estadística para datos inventados no simulados?
terminology
synthetic-data
Frans Rodenburg
fuente
fuente
Respuestas:
Probablemente llamaría a esto datos "sintéticos" o "artificiales", aunque también podría llamarlo "simulado" (la simulación es muy simple).
fuente
Si desea referirse a sus datos como ficticios , estaría en buena compañía, ya que ese es el término que Francis Anscombe usó para describir su ahora famoso cuarteto .
De Anscombe, FJ (1973). " Gráficos en el análisis estadístico ", enm. Stat. 27 (1):
Pero creo que su precaución está bien puesta, ya que mi OED (v4) parece indicar que este uso de ficticio es obsoleto
fuente
En TI a menudo lo llamamos datos de maqueta , que pueden presentarse a través de una maqueta (aplicación).
Los datos de la maqueta también se pueden presentar a través de una aplicación totalmente funcional, por ejemplo, para probar la funcionalidad de la aplicación de manera controlada.
fuente
He visto sugerencias repetidas para el término "datos sintéticos". Sin embargo, ese término tiene un significado ampliamente utilizado y muy diferente del que desea expresar: https://en.wikipedia.org/wiki/Synthetic_data
No estoy seguro de que haya un término científico generalmente aceptado, pero el término "datos de ejemplo" parece difícil de entender.
fuente
He encontrado el término 'datos falsos' una cantidad justa. Supongo que podría tener algunas connotaciones negativas, pero lo he escuchado con suficiente frecuencia que no se registra negativamente para mí.
FWIW, Andrew Gelman también lo usa:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/
https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false
Una búsqueda rápida en Google de 'datos falsos' arroja muchos resultados que parecen estar usando el término de manera similar:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
Incluso hay un
fakeR
paquete que sugiere que esto es relativamente común: https://cran.r-project.org/web/packages/fakeR/fakeR.pdffuente
Uso una palabra diferente dependiendo de la manera en que uso los datos. Si he encontrado el conjunto de datos inventado y he apuntado mi algoritmo de manera confirmatoria, entonces la palabra "sintético" está bien.
Sin embargo, a menudo cada vez que uso este tipo de datos, he inventado los datos con la intención específica de mostrar las capacidades de mi algoritmo. En otras palabras, inventé datos con el propósito específico de obtener "buenos resultados". En tales circunstancias, me gusta el término "inventado" junto con una explicación de mis expectativas para los datos. Esto se debe a que no quiero que nadie cometa el error de pensar que apunté mi algoritmo a un conjunto de datos sintéticos arbitrarios que encontré por ahí y realmente funcionó bien. Si tengo datos seleccionados (hasta el punto de inventarlos) específicamente para hacer que mi algoritmo funcione bien, lo digo. Esto se debe a que dichos resultados proporcionan evidencia de que mi algoritmo puedefunciona bien, pero proporciona evidencia muy débil de que uno podría esperar que el algoritmo funcione bien en general . La palabra "artificial" realmente resume muy bien el hecho de que he elegido los datos con "buenos resultados" en mente, a priori.
No, pero es importante tener claro el origen de cualquier conjunto de datos y sus expectativas a priori como experimentador al informar sus resultados en cualquier conjunto de datos. El término "fraude" incluye explícitamente un aspecto de haber ocultado algo o haber mentido abiertamente. La forma # 1 de evitar la comisión de fraude en la ciencia es simplemente ser honesto y directo sobre la naturaleza de sus datos y sus expectativas. En otras palabras, si sus datos son fabricados y usted no puede decir tanto de ninguna manera , y existe algún tipo de expectativa de que los datos no son fabricados o, lo que es peor, usted afirma que los datos se recopilan de algún modo no fabricado de manera, entonces eso es"fraude". No hagas eso. Si desea utilizar algún sinónimo del término "fabricado" que "suena mejor", como "sintético", nadie lo criticará, pero al mismo tiempo no creo que nadie note la diferencia, excepto usted.
Una nota al margen:
Menos obvias son las circunstancias en las que uno afirma haber tenido expectativas a priori que en realidad son explicaciones post hoc . Este también es un análisis fraudulento de datos.
Existe el peligro de que esto ocurra cuando se eligen datos específicamente con la intención de "mostrar" las capacidades de un algoritmo, que suele ser el caso de los datos sintéticos.
No hay ningún problema al hacer esto, siempre y cuando sea honesto y directo sobre lo que ha hecho. Si ha pasado por dificultades para crear un conjunto de datos que ofrezca "buenos resultados", dígalo. Siempre que le haga saber al lector los pasos que ha tomado en su análisis de datos, tendrá la información necesaria para evaluar de manera efectiva la evidencia a favor o en contra de sus hipótesis. Cuando no eres honesto o no eres franco , esto puede dar la impresión de que tu evidencia es más fuerte de lo que realmente es. Cuando usted SABE MUCHO menos que honesto y directo para hacer que su evidencia parezca más fuerte de lo que realmente es, entonces eso es, de hecho, fraudulento.
En cualquier caso, esta es la razón por la que prefiero el término "inventado" para tales conjuntos de datos, junto con una breve explicación de que, de hecho, se eligen con una hipótesis en mente. "Contribuido" transmite la sensación de que no solo creé un conjunto de datos sintético, sino que lo hice con intenciones particulares que reflejan el hecho de que mi hipótesis ya estaba en su lugar antes de la creación de mi conjunto de datos.
tl; dr
Use el término que desee, "sintético", "artificial", "fabricado", "ficticio". Sin embargo, el término que utiliza es insuficiente para garantizar que sus resultados no sean engañosos . Asegúrese de tener claro en su informe cómo surgieron los datos, incluidas sus expectativas sobre los datos y las razones por las que eligió los datos que eligió.
fuente
Primero, no hay razón para no llamarlo "conjunto de datos". No hay términos universalmente acordados para "falso" vs "simulado" vs ... datos. Si el objetivo es ser completamente claro, es mejor dedicar una oración, en lugar de una palabra, para calificar cuál es este conjunto de datos. Después de eso, puede relajar la designación y simplemente referirse a sus datos como datos.
"Sintético", "artificial" no distingue en mi mente de otros conjuntos de datos "simulados" muestreados por MCMC. El uso de un generador de números cuasialeatorio con una semilla fija (como lo dictaría el entrenamiento adecuado) también crea un conjunto de datos sintético o artificial.
Si el punto de curar un conjunto de datos para una ilustración específica, en lugar de generar una instancia o realización de un modelo de probabilidad, creo que es mejor llamar a ese conjunto de datos un " conjunto de datos de ejemplo ". Datos como estos son similares al cuarteto de Anscombe: totalmente abstracto y no plausible, pero destinado a ilustrar un punto.
fuente
En biología, los análisis a veces se demuestran utilizando un conjunto de datos de animales míticos. La decisión de establecer o no explícitamente que los datos se simulan depende del autor / revisor.
Una guía ecologista para el modelo animal, 2009
Variación del efecto fijo y la estimación de repetibilidad y heredabilidad: problemas y soluciones, 2017
fuente
Intuitivamente, me referiría al término 'Datos ficticios', en el mismo sentido que "Lorem ipsum ..." se llama "Texto ficticio". La palabra 'Dummy' es bastante general y fácil de entender para personas de diversos orígenes y, por lo tanto, es menos probable que los lectores de un fondo menos estadístico la malinterpreten.
fuente
Los datos son en latín dado , que se usa en los tiempos modernos como una abreviatura de un conjunto dado de hechos registrados . Entonces, de alguna manera, referirse a grabaciones fabricadas como algún tipo de hechos dados sería una contradicción abierta.
Sin embargo, debido al uso cada vez mayor de datos para referirse simplemente a las grabaciones , independientemente de la presunción original de que los registros sean hechos, nos comprendemos felizmente cuando hablamos de grabaciones que pueden o no ser verdaderas , por lo tanto, datos reales / falsos.
A continuación resumiré mi experiencia sobre las formas de abordar las grabaciones fabricadas. La etiqueta utilizada depende de si se supone que estamos hablando de datos como grabaciones fabricadas que pretenden parecer razonablemente realistas para permitir un análisis posterior, o datos como una carga computacional.
fuente