¿Qué clasificadores de aprendizaje automático son los más paralelizables?

10

¿Qué clasificadores de aprendizaje automático son los más paralelizables? Si tuviera un problema de clasificación difícil, tiempo limitado, pero una LAN decente de computadoras para trabajar, ¿qué clasificadores probaría?

Por supuesto, me parece que algunos clasificadores estándar que conozco se apilan de la siguiente manera, pero podría estar totalmente equivocado:

Bosques aleatorios: muy paralelizables siempre y cuando cada máquina pueda contener todos los datos (es decir, no pueden dividir los datos de entrenamiento per se, pero por lo demás son paralelizables).

Impulso -?

Máquina de vectores de soporte: no muy paralelizable.

Árboles de decisión: se pueden dividir en parte, pero no de manera muy eficiente.

John Robertson
fuente
Esta publicación necesita una actualización. Actualmente, los DNN son los algoritmos que más se benefician de la computación paralela. y el impulso son apenas paralelizables.
TNM

Respuestas:

11

Se han realizado esfuerzos para paralelizar la mayoría de los clasificadores conocidos, incluido el impulso [ un documento ], SVM [ un documento ] e incluso árboles de decisión [ un documento ]. Por supuesto, al admitir paralelismo, a veces pierdes otros aspectos, ya sea la implementabilidad del algoritmo, la complejidad de la muestra u otros sospechosos habituales.

Desde el punto de vista de la teoría, la pregunta es más difícil porque cuando hablas de aprendizaje tienes que pensar en la función objetivo. Por ejemplo, ni siquiera sabemos que los árboles de decisión sean aptos para PAC, por lo que si el objetivo (así como el método) es un árbol de decisión, entonces ni siquiera podemos aprenderlo (aún) sin introducir facetas adicionales en el problema. Impulsar evita eso asumiendo una condición de aprendizaje débil, SVM un margen, etc. Creo que esas suposiciones se transfieren al caso paralelo para darle el aprendizaje PAC.

Pero, como siempre, existe una gran brecha entre las fronteras (y, por lo tanto, las preocupaciones) de la teoría y la práctica. Por ejemplo, en la práctica, importa si el paralelismo es sobre núcleos o grupos. Un algoritmo desarrollado especialmente para uso práctico en configuraciones de datos grandes es VW , y está comenzando a admitir paralelismo. Tal vez le interesen los documentos del taller NIPS 2010 sobre aprendizaje práctico paralelo.

Lev Reyzin
fuente