Utilice liblinear en big data para análisis semántico

17

Utilizo Libsvm para entrenar datos y predecir la clasificación del problema de análisis semántico . Pero tiene un problema de rendimiento en datos a gran escala, porque el análisis semántico se refiere al problema de la dimensión n .

El año pasado, Liblinear fue lanzado, y puede resolver el cuello de botella de rendimiento. Pero costó demasiada memoria . ¿ MapReduce es la única forma de resolver un problema de análisis semántico en big data? ¿O hay otros métodos que pueden mejorar el cuello de botella de memoria en Liblinear ?

Puffin GDI
fuente

Respuestas:

11

Tenga en cuenta que hay una versión anterior de LIBLINEAR portada a Apache Spark . Vea los comentarios de la lista de correo para algunos detalles iniciales y el sitio del proyecto .

Sean Owen
fuente
Gracias por tu respuesta. Parece diferente de SVM. Lo examinaré. :)
Puffin GDI
44
Solo un recordatorio de que no alentamos el enlace fuera del sitio a una respuesta porque es fácil que se rompan los enlaces, lo que hace que un recurso comunitario útil se convierta en un callejón sin salida. Siempre es mejor poner la respuesta directamente en tu publicación.
Ana
1
De acuerdo con eso. En este punto, apenas existe como más que ese enlace de todos modos. Agregaré un enlace al proyecto subyacente.
Sean Owen
10

Puedes echar un vistazo a Wongpal Wabbit . Es bastante popular para el aprendizaje a gran escala e incluye disposiciones paralelas.

Desde su sitio web:

VW es la esencia de la velocidad en el aprendizaje automático, capaz de aprender de conjuntos de datos de terafeature con facilidad. A través del aprendizaje paralelo, puede superar el rendimiento de cualquier interfaz de red de una sola máquina al realizar un aprendizaje lineal, el primero entre los algoritmos de aprendizaje.

Marc Claesen
fuente
1
Código abierto y algo de wiki. Se ve bien. Gracias por tu sugerencia. :)
Puffin GDI