Ciencia de los datos

10
Amplificación de un hash local sensible

Estoy tratando de construir un hash sensible a la localidad coseno para poder encontrar pares de artículos similares candidatos sin tener que comparar cada par posible. Básicamente funciona, pero la mayoría de los pares en mis datos parecen tener una similitud de coseno en el rango de -0.2 a +0.2,...

10
Spark, dividiendo de manera óptima un solo RDD en dos

Tengo un gran conjunto de datos que necesito dividir en grupos de acuerdo con parámetros específicos. Quiero que el trabajo se procese de la manera más eficiente posible. Puedo imaginar dos formas de hacerlo Opción 1 : crear un mapa a partir del RDD original y filtrar def customMapper(record):...