He estado pensando, implementando y utilizando el paradigma Extreme Learning Machine (ELM) durante más de un año, y cuanto más lo hago, más dudo de que sea realmente algo bueno. Sin embargo, mi opinión parece estar en contraste con la comunidad científica donde, cuando se usan citas y nuevas publicaciones como medida, parece ser un tema candente.
El ELM ha sido introducido por Huang et. Alabama. alrededor de 2003. La idea subyacente es bastante simple: comenzar con una red neuronal artificial de 2 capas y asignar aleatoriamente los coeficientes en la primera capa. Esto transforma el problema de optimización no lineal, que generalmente se maneja a través de la retropropagación, en un simple problema de regresión lineal. Más detallado, para , el modelo es
Ahora, solo se ajustan los (para minimizar la pérdida de error al cuadrado), mientras que los se eligen al azar. Como compensación por la pérdida en grados de libertad, la sugerencia habitual es utilizar un número bastante grande de nodos ocultos (es decir, parámetros libres ).
Desde otra perspectiva (no la que generalmente se promueve en la literatura, que proviene del lado de la red neuronal), todo el procedimiento es simplemente una regresión lineal, pero una en la que elige sus funciones al azar, por ejemplo
(Muchas otras opciones además del sigmoide son posibles para las funciones aleatorias. Por ejemplo, el mismo principio también se ha aplicado utilizando funciones de base radial).
Desde este punto de vista, todo el método se vuelve casi demasiado simplista, y este es también el punto en el que empiezo a dudar de que el método sea realmente bueno (... mientras que su comercialización científica ciertamente lo es). Asi que aqui están mis preguntas:
La idea de rasterizar el espacio de entrada usando funciones de base aleatorias es, en mi opinión, buena para las dimensiones bajas. En las dimensiones altas, creo que no es posible encontrar una buena opción utilizando una selección aleatoria con un número razonable de funciones básicas. Por lo tanto, ¿el ELM se degrada en altas dimensiones (debido a la maldición de la dimensionalidad)?
¿Conoces los resultados experimentales que respaldan / contradicen esta opinión? En el documento vinculado solo hay un conjunto de datos de regresión de 27 dimensiones (PYRIM) en el que el método funciona de manera similar a SVM (mientras que preferiría ver una comparación con un ANN de propagación inversa)
En términos más generales, me gustaría aquí sus comentarios sobre el método ELM.
fuente
Respuestas:
Su intuición sobre el uso de ELM para problemas de alta dimensión es correcta, tengo algunos resultados al respecto, que estoy preparando para su publicación. Para muchos problemas prácticos, los datos no son muy no lineales y el ELM funciona bastante bien, pero siempre habrá conjuntos de datos donde la maldición de la dimensionalidad significa que la posibilidad de encontrar una buena base funciona con curvatura justo donde la necesita. pequeño, incluso con muchos vectores básicos.
Personalmente, usaría algo como una máquina de vectores de soporte de mínimos cuadrados (o una red de función de base radial) e intentaría elegir los vectores de base de aquellos en el conjunto de entrenamiento de una manera codiciosa (ver, por ejemplo, mi artículo , pero hubo otros / mejor enfoques que se publicaron aproximadamente al mismo tiempo, por ejemplo, en el muy buen libro de Scholkopf y Smola sobre "Aprender con los núcleos"). Creo que es mejor calcular una solución aproximada al problema exacto, en lugar de una solución exacta a un problema aproximado, y las máquinas del núcleo tienen una mejor base teórica (para un núcleo fijo; o).
fuente
El ELM "aprende" de los datos resolviendo analíticamente los pesos de salida. Por lo tanto, cuanto más grandes sean los datos que se introducen en la red, producirá mejores resultados. Sin embargo, esto también requiere más números de nodos ocultos. Si el ELM se entrena con poco o ningún error, cuando se le da un nuevo conjunto de entrada, no puede producir la salida correcta.
La principal ventaja del ELM sobre la red neuronal tradicional como la propagación de la espalda es su rápido tiempo de entrenamiento. La mayor parte del tiempo de cálculo se dedica a resolver el peso de la capa de salida como se menciona en el documento de Huang.
fuente