Herramienta para generar grandes conjuntos de datos de datos de prueba [cerrado]

25

Muchas veces, cuando se trata de crear un diseño de base de datos eficiente, el mejor curso de acción es construir dos bases de datos de muestra, llenarlas con datos y ejecutar algunas consultas en contra de ellas para ver cuál funciona mejor.

¿Existe una herramienta que genere (idealmente directamente en la base de datos) grandes (~ 10,000 registros) conjuntos de datos de prueba con relativa rapidez? Estoy buscando algo que al menos funcione con MySQL.

BenV
fuente

Respuestas:

12

La mejor herramienta (si puede encontrarla) es DataFactory. (Tristemente agotado). He generado conjuntos de datos absolutamente encantadores (y de aspecto bastante auténtico).

Generatedata.com es ... aceptable, pero no escala muy bien.

DataGenerator es algo a tener en cuenta.

Y aunque DTM Data Generator es torpe y un pobre sustituto de DataFactory, existe y se está vendiendo, y lo he usado para generar datos ligeramente aceptables.

Brian Ballsun-Stanton
fuente
4

Normalmente genero el mío, usando algunos datos conocidos como entrada; si es demasiado aleatorio, no siempre es una buena prueba; Necesito datos que se distribuirán de manera similar a mi producto final.

Todas las bases de datos más grandes que tengo que ajustar son de naturaleza científica, por lo que generalmente puedo tomar alguna otra investigación como entrada, y volver a escalarla y agregar jitter. (p. ej., tomar datos que tenían una cadencia de 5 minutos con precisión de milisegundos y convertirlos en una cadencia de 10 segundos con precisión de milisegundos pero una fluctuación de fase de +/- 100 ms a los tiempos)

...

Pero, como otra alternativa, si no desea escribir la suya propia, es mirar algunas de las herramientas de evaluación comparativa, ya que pueden repetir las cosas una y otra vez en función de un conjunto de entrenamiento, puede usarlas para insertar lotes de registros (y luego simplemente ignore los informes sobre qué tan rápido lo hizo) ... y luego puede usar esa misma herramienta para probar qué tan rápido funciona la base de datos una vez que está poblada.

Joe
fuente
3

He estado usando mysqlslap. Se limpia después de sí mismo también.

Aquí está el artículo que leí cuando comencé a usarlo.

SteveHarville
fuente
2

Echa un vistazo a benerator

No es fácil comenzar, pero es bastante poderoso.

un caballo sin nombre
fuente
1

La forma más rentable es probablemente usar un generador de datos comerciales o de código abierto. Yo solía hacer eso.

Ahora, en mis años dorados, considero que cada necesidad de datos de prueba es un mandato para aprender otro lenguaje de secuencias de comandos.

Mike Sherrill 'Retiro del gato'
fuente
1

Para cualquiera que busque una solución diferente a este problema ... Escribí un proyecto de generador de datos de prueba para Data Synchronization Studio. Puede generar un gran conjunto de datos que varía de 1 a 100 millones de filas de datos de prueba realistas. Aquí hay una publicación de blog sobre esto. http://www.simego.com/Blog/2012/02/Test-Data-Generator-Download-for-Data-Sync Es de uso gratuito durante 15 días (una vez que tenga sus datos de prueba, los tendrá)

Tremayne Christ
fuente