Preguntas etiquetadas con apache-spark

Apache Spark es un sistema de computación en clúster de código abierto que tiene como objetivo agilizar el análisis de datos, tanto de ejecución como de escritura, desarrollado originalmente en AMPLab en UC Berkeley.

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

10
Spark, dividiendo de manera óptima un solo RDD en dos

Tengo un gran conjunto de datos que necesito dividir en grupos de acuerdo con parámetros específicos. Quiero que el trabajo se procese de la manera más eficiente posible. Puedo imaginar dos formas de hacerlo Opción 1 : crear un mapa a partir del RDD original y filtrar def customMapper(record):...

10
¿Cuándo elegir regresión lineal o árbol de decisión o regresión de bosque aleatorio? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Estoy...

10
Relación entre convolución en matemáticas y CNN

He leído la explicación de la convolución y la entiendo hasta cierto punto. ¿Alguien puede ayudarme a entender cómo esta operación se relaciona con la convolución en redes neuronales convolucionales? ¿Es el filtro como una función gque aplica