Qué software usar para administrar / transformar un archivo csv de 10 Gb (más de 100 millones de líneas) [cerrado]

0

Así que tengo este archivo uge csv con más de 100 millones de registros y quiero trabajar. No quiero solo editarlo .

Lo que necesito es usar algún tipo de transformación de base de datos Excel / básica (agrupar por, extraer algunos caracteres, agregar una nueva columna basada en información combinada, etc.).

Cuál es la mejor manera de hacer esto ? Importar a una base de datos? (como Oracle, bastante seguro de que Access no puede administrar un archivo tan grande) ¿Se pueden usar otras herramientas? En el trabajo, solía tener un software llamado Amadea ( http://www.isoft.fr/html/prod_amadea_en.htm ) que hacía algunas transformaciones de datos como esta. No conozco ninguna otra herramienta (gratuita) que haga esto de la misma manera.

¡Gracias!

Choumarin
fuente
Podrías echar un vistazo a TALEND: potente ETL de código abierto. talend.com
FreudianSlip
¿ha considerado dividir el archivo en varios archivos? Incluso si tuviera que importar a una solución de base de datos completa como MSSQL o MySQL, es probable que necesite dividir los datos en varios archivos. Incluso una solución de base de datos completa tendrá problemas para tratar de analizar 10 GB de datos. superuser.com/questions/98583/break-up-a-large-csv-file?rq=1
Ramhound
La división no es una buena idea ya que sabré cómo dividir solo después de los cálculos
Choumarin
Voy por Talend, parece hacer lo que estoy buscando. Sin embargo, la curva de aprendizaje parece un poco empinada ...
Choumarin

Respuestas:

2

Definitivamente use una base de datos. Hay muchos gratuitos, como MySQL, o si solo quieres que una computadora trabaje en él a la vez, entonces Sqlite es extremadamente bueno.

Verifique que su importación haya funcionado correctamente primero, especialmente si hay números no ascii o grandes en el conjunto de datos de entrada.

pjc50
fuente