Preguntas etiquetadas con bigdata

16

Escribiendo más de 50 millones de Pyspark df a PostgresSQL, el mejor enfoque eficiente

¿Cuál sería la forma más eficiente de insertar millones de registros? Por ejemplo, 50 millones de un marco de datos de Spark a tablas de Postgres. He hecho esto desde la chispa a MSSQL en el pasado haciendo uso de la opción de copia masiva y tamaño de lote que también fue exitosa. ¿Hay algo...

15

Usando R para resolver el juego Lucky 26

Estoy tratando de mostrarle a mi hijo cómo se puede usar la codificación para resolver un problema planteado por un juego, así como ver cómo R maneja los grandes datos. El juego en cuestión se llama "Lucky 26". En este juego, los números (1-12 sin duplicados) se colocan en 12 puntos en una estrella...

r bigdata permutation

10

Apache Spark: impacto de volver a particionar, ordenar y almacenar en caché en una unión

Estoy explorando el comportamiento de Spark al unir una tabla consigo misma. Estoy usando Databricks. Mi escenario ficticio es: Leer una tabla externa como marco de datos A (los archivos subyacentes están en formato delta) Defina el marco de datos B como el marco de datos A con solo ciertas...

apache-spark pyspark bigdata azure-databricks delta-lake