Preguntas etiquetadas con pyspark

12
Importe el contenido del archivo csv en marcos de datos pyspark

¿Cómo puedo importar un archivo .csv en marcos de datos pyspark? Incluso intenté leer el archivo csv en Pandas y luego convertirlo en un marco de datos de chispa usando createDataFrame, pero todavía muestra algún error. ¿Alguien puede guiarme a través de esto? Además, por favor dígame ¿cómo puedo...

12
¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...

10
Spark, dividiendo de manera óptima un solo RDD en dos

Tengo un gran conjunto de datos que necesito dividir en grupos de acuerdo con parámetros específicos. Quiero que el trabajo se procese de la manera más eficiente posible. Puedo imaginar dos formas de hacerlo Opción 1 : crear un mapa a partir del RDD original y filtrar def customMapper(record):...