¿Cuál sería la forma más eficiente de insertar millones de registros? Por ejemplo, 50 millones de un marco de datos de Spark a tablas de Postgres. He hecho esto desde la chispa a MSSQL en el pasado haciendo uso de la opción de copia masiva y tamaño de lote que también fue exitosa. ¿Hay algo...
16
Escribiendo más de 50 millones de Pyspark df a PostgresSQL, el mejor enfoque eficiente