¿El mejor término para los datos inventados?

23

Estoy escribiendo un ejemplo y he inventado algunos datos. Quiero que quede claro para el lector que no se trata de datos reales, pero tampoco quiero dar la impresión de malicia, ya que solo sirve como ejemplo.

No hay un componente (pseudo) aleatorio para estos datos en particular, por lo que me parece que 'simulado' no es apropiado. Si lo llamo ficticio o fabricado, ¿eso da la impresión de datos fraudulentos ? ¿Es 'inventado' una palabra que encajaría en un contexto científico?

¿Cuál es la terminología en la literatura estadística para datos inventados no simulados?

Frans Rodenburg
fuente
99
Solo para agregar un comentario que se extiende a través de varias respuestas: "sintético" es una buena palabra para los datos inventados que intenta parecer lo más realista posible, mientras que "simulacro" sugiere datos que han sido diseñados para demostrar algo en particular. Por ejemplo, los datos "simulados" pueden contener valores atípicos absurdos, solo para demostrar lo importante que es tratar los valores atípicos adecuadamente.
Cort Ammon - Restablece a Mónica el
Personalmente prefiero el término "simulado" y lo he encontrado más en la literatura estadística (es decir, "realizamos simulaciones para comparar nuestro modelo con X, Y, Z ..."
Samir Rachid Zaim

Respuestas:

45

Probablemente llamaría a esto datos "sintéticos" o "artificiales", aunque también podría llamarlo "simulado" (la simulación es muy simple).

Louis Cialdella
fuente
30
Uno escucha "datos de juguete", "ejemplo de juguete" y "datos ficticios". También estoy de acuerdo en que "simulado" podría encajar incluso en ausencia de números aleatorios.
rolando2
77
"Datos ilustrativos" o "datos de ejemplo" también podrían funcionar
Henry
8
+1 ' datos sintéticos ' y ' ejemplo de juguete ' son términos que podría usar, si surgiera la ocasión, como 'ejemplo construido'. A veces digo "ejemplo ilustrativo" o algo similar, particularmente cuando el ejemplo se construyó explícitamente para tener características particulares (por ejemplo, cuando se diseñó como un contraejemplo de alguna noción errónea).
Glen_b -Reinstala a Monica el
1
Tiendo a usar datos de juguetes (sin artificial o simulados ) para conjuntos de datos reales (medidos) que "abuso" para demostrar algo.
Cbeleites apoya a Mónica el
1
Depende un poco de su aplicación lo que funcionará mejor. Por ejemplo, también estoy haciendo un proyecto con datos "falsos", pero otra parte del proyecto implica el uso de una simulación de modelo de computadora. Entonces podría confundir al lector para mí referirme a los datos falsos como "simulados", lo que implica falsamente que los datos provienen de la simulación. Así que he estado confiando en "artificial", y en ocasiones describo los datos como "fabricados". Yo personalmente evitaría "sintético" ya que para mí este término implicaría que los datos son algún tipo de combinación de otras fuentes de datos (una "síntesis" de, por ejemplo, datos A y datos B).
Ceph
12

Si desea referirse a sus datos como ficticios , estaría en buena compañía, ya que ese es el término que Francis Anscombe usó para describir su ahora famoso cuarteto .

De Anscombe, FJ (1973). " Gráficos en el análisis estadístico ", enm. Stat. 27 (1):

Algunos de estos puntos se ilustran mediante cuatro conjuntos de datos ficticios, cada uno de los cuales consta de once (x, y) pares, que se muestran en la tabla.

Pero creo que su precaución está bien puesta, ya que mi OED (v4) parece indicar que este uso de ficticio es obsoleto

ficticio , a.

(fɪkˈtɪʃəs)

[F. L. fictīci-us (f. Fingĕre a la moda, fingir) + -ous: ver -itious.]

1.1 † a.1.a Artificial en lugar de natural (obs.). b.1.b Falsificación, 'imitación', farsa; no original.

AkselA
fuente
En términos de legibilidad, la primera sugerencia y los comentarios son una alternativa mucho mejor. No es necesario usar palabras poco comunes y complicadas.
Tim
1
@Tim: Quiero estar de acuerdo, pero no estoy completamente seguro de con qué estaría de acuerdo. ¿Estás diciendo que ficticio sería una mala elección, a pesar de haber sido usado en un contexto similar antes? Porque eso es lo que estoy diciendo.
AkselA
7

En TI a menudo lo llamamos datos de maqueta , que pueden presentarse a través de una maqueta (aplicación).

Los datos de la maqueta también se pueden presentar a través de una aplicación totalmente funcional, por ejemplo, para probar la funcionalidad de la aplicación de manera controlada.

ErikE
fuente
55
Buen punto, pero creo que los datos de la maqueta y los datos simulados no son exactamente lo mismo. Al crear datos de maquetas para pruebas unitarias, solo necesita conservar algunas propiedades muy básicas de los datos reales, mientras que cuando usa datos simulados para análisis estadísticos, generalmente usa ejemplos de datos más sofisticados.
Tim
2
Sin embargo, sigo creyendo que ErikE es correcto, cuando escribes código analítico necesitas la cosa real o simulan datos. Los datos simulados pueden ser tan grandes como quieras que sean imo.
Mathijs Segers
1
Las prácticas probablemente varían al igual que el uso de la terminología, supongo. Para muchas de nuestras pruebas y análisis, utilizamos datos en vivo que han sido "desactivados" por razones de seguridad y anonimato. Para otros, creamos datos básicos tal como lo describe Tim. No tengo una opinión sólida, pero sí utilizamos el término maqueta con bastante soltura.
ErikE
3

He visto sugerencias repetidas para el término "datos sintéticos". Sin embargo, ese término tiene un significado ampliamente utilizado y muy diferente del que desea expresar: https://en.wikipedia.org/wiki/Synthetic_data

No estoy seguro de que haya un término científico generalmente aceptado, pero el término "datos de ejemplo" parece difícil de entender.

descarado
fuente
1
Ese artículo parece un poco confuso: la relación con el anonimato es bastante tenue.
Matt Krause
+1 pero estoy de acuerdo con el comentario anterior: aparte de los segundos párrafos (que dicen que los datos sintetizados son un tipo de datos anónimos), el resto de ese artículo de Wikipedia parece estar describiendo lo que quiere el interrogador. Es decir, datos inventados de aspecto realista.
Darren Cook, el
3

He encontrado el término 'datos falsos' una cantidad justa. Supongo que podría tener algunas connotaciones negativas, pero lo he escuchado con suficiente frecuencia que no se registra negativamente para mí.

FWIW, Andrew Gelman también lo usa:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Una búsqueda rápida en Google de 'datos falsos' arroja muchos resultados que parecen estar usando el término de manera similar:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

Incluso hay un fakeRpaquete que sugiere que esto es relativamente común: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

mkt - Restablecer a Monica
fuente
2

Uso una palabra diferente dependiendo de la manera en que uso los datos. Si he encontrado el conjunto de datos inventado y he apuntado mi algoritmo de manera confirmatoria, entonces la palabra "sintético" está bien.

Sin embargo, a menudo cada vez que uso este tipo de datos, he inventado los datos con la intención específica de mostrar las capacidades de mi algoritmo. En otras palabras, inventé datos con el propósito específico de obtener "buenos resultados". En tales circunstancias, me gusta el término "inventado" junto con una explicación de mis expectativas para los datos. Esto se debe a que no quiero que nadie cometa el error de pensar que apunté mi algoritmo a un conjunto de datos sintéticos arbitrarios que encontré por ahí y realmente funcionó bien. Si tengo datos seleccionados (hasta el punto de inventarlos) específicamente para hacer que mi algoritmo funcione bien, lo digo. Esto se debe a que dichos resultados proporcionan evidencia de que mi algoritmo puedefunciona bien, pero proporciona evidencia muy débil de que uno podría esperar que el algoritmo funcione bien en general . La palabra "artificial" realmente resume muy bien el hecho de que he elegido los datos con "buenos resultados" en mente, a priori.

"¿eso da la impresión de datos fraudulentos ?"

No, pero es importante tener claro el origen de cualquier conjunto de datos y sus expectativas a priori como experimentador al informar sus resultados en cualquier conjunto de datos. El término "fraude" incluye explícitamente un aspecto de haber ocultado algo o haber mentido abiertamente. La forma # 1 de evitar la comisión de fraude en la ciencia es simplemente ser honesto y directo sobre la naturaleza de sus datos y sus expectativas. En otras palabras, si sus datos son fabricados y usted no puede decir tanto de ninguna manera , y existe algún tipo de expectativa de que los datos no son fabricados o, lo que es peor, usted afirma que los datos se recopilan de algún modo no fabricado de manera, entonces eso es"fraude". No hagas eso. Si desea utilizar algún sinónimo del término "fabricado" que "suena mejor", como "sintético", nadie lo criticará, pero al mismo tiempo no creo que nadie note la diferencia, excepto usted.

Una nota al margen:

Menos obvias son las circunstancias en las que uno afirma haber tenido expectativas a priori que en realidad son explicaciones post hoc . Este también es un análisis fraudulento de datos.

Existe el peligro de que esto ocurra cuando se eligen datos específicamente con la intención de "mostrar" las capacidades de un algoritmo, que suele ser el caso de los datos sintéticos.

DHHDD

HDHD

No hay ningún problema al hacer esto, siempre y cuando sea honesto y directo sobre lo que ha hecho. Si ha pasado por dificultades para crear un conjunto de datos que ofrezca "buenos resultados", dígalo. Siempre que le haga saber al lector los pasos que ha tomado en su análisis de datos, tendrá la información necesaria para evaluar de manera efectiva la evidencia a favor o en contra de sus hipótesis. Cuando no eres honesto o no eres franco , esto puede dar la impresión de que tu evidencia es más fuerte de lo que realmente es. Cuando usted SABE MUCHO menos que honesto y directo para hacer que su evidencia parezca más fuerte de lo que realmente es, entonces eso es, de hecho, fraudulento.

En cualquier caso, esta es la razón por la que prefiero el término "inventado" para tales conjuntos de datos, junto con una breve explicación de que, de hecho, se eligen con una hipótesis en mente. "Contribuido" transmite la sensación de que no solo creé un conjunto de datos sintético, sino que lo hice con intenciones particulares que reflejan el hecho de que mi hipótesis ya estaba en su lugar antes de la creación de mi conjunto de datos.

ADx.y

tl; dr

Use el término que desee, "sintético", "artificial", "fabricado", "ficticio". Sin embargo, el término que utiliza es insuficiente para garantizar que sus resultados no sean engañosos . Asegúrese de tener claro en su informe cómo surgieron los datos, incluidas sus expectativas sobre los datos y las razones por las que eligió los datos que eligió.

Scott
fuente
Aunque las respuestas aquí se superponen y casi todas tienen buenos puntos, creo que este es el mejor punto clave que ningún término único transmitirá a todos los lectores la intención detrás de inventar datos. Los motivos pueden variar desde no solo apropiados, sino también esenciales para el propósito, pasando por la pereza (textos introductorios deficientes), hasta hacer trampa y fraude. Explicar por qué lo estás haciendo con cierta extensión puede ser una buena idea.
Nick Cox
... razones ...
Nick Cox
1

Primero, no hay razón para no llamarlo "conjunto de datos". No hay términos universalmente acordados para "falso" vs "simulado" vs ... datos. Si el objetivo es ser completamente claro, es mejor dedicar una oración, en lugar de una palabra, para calificar cuál es este conjunto de datos. Después de eso, puede relajar la designación y simplemente referirse a sus datos como datos.

"Sintético", "artificial" no distingue en mi mente de otros conjuntos de datos "simulados" muestreados por MCMC. El uso de un generador de números cuasialeatorio con una semilla fija (como lo dictaría el entrenamiento adecuado) también crea un conjunto de datos sintético o artificial.

Si el punto de curar un conjunto de datos para una ilustración específica, en lugar de generar una instancia o realización de un modelo de probabilidad, creo que es mejor llamar a ese conjunto de datos un " conjunto de datos de ejemplo ". Datos como estos son similares al cuarteto de Anscombe: totalmente abstracto y no plausible, pero destinado a ilustrar un punto.

AdamO
fuente
1

En biología, los análisis a veces se demuestran utilizando un conjunto de datos de animales míticos. La decisión de establecer o no explícitamente que los datos se simulan depende del autor / revisor.

Una guía ecologista para el modelo animal, 2009

Estos tutoriales describen una serie de análisis genéticos cuantitativos en una población de grifos (lo que refleja un compromiso entre los prejuicios de los autores sobre las aves y los mamíferos). Como el grifo es una bestia mítica, los datos proporcionados fueron necesariamente simulados.

Variación del efecto fijo y la estimación de repetibilidad y heredabilidad: problemas y soluciones, 2017

Para ilustrar esto, volvamos al conjunto de datos de unicornios de Wilson (2008). Es un hecho conocido que en los unicornios, la longitud del cuerno varía de acuerdo con la masa corporal individual (pendiente: β = 0.403 para un modelo completo que incluye la edad, el sexo y su interacción).

DA Wells
fuente
1
Enfoque interesante! Creo que esto podría ser excelente para enseñar estadísticas a los estudiantes de biología. Sin embargo, cuando se presenta al público, no estoy seguro de si esto daría la impresión correcta
Frans Rodenburg,
0

Intuitivamente, me referiría al término 'Datos ficticios', en el mismo sentido que "Lorem ipsum ..." se llama "Texto ficticio". La palabra 'Dummy' es bastante general y fácil de entender para personas de diversos orígenes y, por lo tanto, es menos probable que los lectores de un fondo menos estadístico la malinterpreten.

Mathijs
fuente
2
Si está en un contexto de regresión, evitaría sobrecargar "ficticio", para que no tenga variables ficticias que codifiquen datos ficticios.
Matt Krause
Estoy de acuerdo, lo evitaría personalmente ya que "Dummy" ya tiene una connotación establecida en regresión. Dado que hay una gran cantidad de términos disponibles, probablemente sea mejor evitar esos términos que pueden significar cosas diferentes para diferentes personas.
Samir Rachid Zaim
0

Los datos son en latín dado , que se usa en los tiempos modernos como una abreviatura de un conjunto dado de hechos registrados . Entonces, de alguna manera, referirse a grabaciones fabricadas como algún tipo de hechos dados sería una contradicción abierta.

Sin embargo, debido al uso cada vez mayor de datos para referirse simplemente a las grabaciones , independientemente de la presunción original de que los registros sean hechos, nos comprendemos felizmente cuando hablamos de grabaciones que pueden o no ser verdaderas , por lo tanto, datos reales / falsos.

A continuación resumiré mi experiencia sobre las formas de abordar las grabaciones fabricadas. La etiqueta utilizada depende de si se supone que estamos hablando de datos como grabaciones fabricadas que pretenden parecer razonablemente realistas para permitir un análisis posterior, o datos como una carga computacional.

  • En los círculos de análisis / ciencia de datos / consultorías estratégicas, las personas abordan con mayor frecuencia un conjunto fabricado de grabaciones generadas bajo supuestos realistas como datos sintéticos , y ocasionalmente datos simulados . Las grabaciones fabricadas creadas con suposiciones crudas se denominan conjuntos de datos de juguetes .
  • Entre los ingenieros de software, datos falsos , datos ficticios , los datos confeccionados y los datos de la maqueta son etiquetas frecuentes que hacen alusión principalmente a las grabaciones no necesariamente supone que tienen propiedades realistas, pero sólo comparten propiedades básicas con los datos originales (datos de edad es siempre numérico , las direcciones de correo electrónico siempre son cadenas que contienen "@").
  • Los investigadores académicos se referirían a un conjunto realista de grabaciones fabricadas como pseudodatos o datos simulados . En algunos círculos, si el conjunto de observaciones fabricado es el resultado de una simulación de Monte Carlo, se puede denominar coloquialmente como Monte Carlo . Las grabaciones semi-realistas se usan comúnmente con fines ilustrativos o para probar hipótesis alternativas, y se conocen como conjuntos de datos de juguetes.
famargar
fuente
2
"Monte Carlo" es el nombre del método, por lo que el nombre "coloquial" sería muy engañoso.
Tim
@Tim de hecho, puede verse como engañoso. Sin embargo, el lenguaje es solo una herramienta basada en el consenso en una comunidad como una forma de referirse a algo. Tanto es así que en este sitio nos estamos refiriendo a grabaciones y mediciones tal como se dan (inglés para datos latinos ). Si adoptara su punto de vista, consideraría que abordar las mediciones simuladas como falsas es muy cuestionable.
famargar
Espero que ahora vean que referirse a una "simulación de Monte Carlo" como simplemente "Monte Carlo" es una versión moderna de referirse a "observaciones dadas" como "dadas". Edité mi respuesta para incorporar esto y más consideraciones sobre el significado frente al uso real de la palabra "datos".
famargar
1
"Los investigadores académicos se referirían a un conjunto realista de grabaciones fabricadas con mayor frecuencia como pseudodatos": no recuerdo haber visto este término en más de 40 años de investigación académica. "Los académicos generalmente no tienen uso para grabaciones poco realistas": lo siento, pero eso parece bastante incorrecto. Los académicos en muchos, muchos campos usan simulaciones de varios tipos diferentes. Incluso las simulaciones poco realistas pueden ser útiles, por ejemplo, la variabilidad de las muestras normales es un contexto importante para evaluar la no normalidad.
Nick Cox
Los pseudodatos de @NickCox se usan con frecuencia en física, y lo he visto en biología y estadística. Sería curioso saber cuál es su campo y cómo se refiere su campo a las simulaciones. En cuanto a los datos poco realistas, hice una distinción entre poco realista y semi-realista. ¿Extrañé tu caso de uso?
famargar