¿Cuáles son las ventajas de los métodos de aprendizaje de kernel múltiple (MKL)?

8

Múltiples métodos de aprendizaje del núcleo tienen como objetivo construir un modelo de núcleo donde el núcleo es una combinación lineal de núcleos de base fija. Aprender el núcleo consiste en aprender los coeficientes de ponderación para cada núcleo base, en lugar de optimizar los parámetros del núcleo de un solo núcleo.

Las desventajas del aprendizaje de múltiples núcleos parecen ser que son menos interpretables y computacionalmente costosas (para evaluar el resultado del modelo es necesario evaluar todos los núcleos base). Entonces, si se puede lograr un rendimiento similar simplemente optimizando un solo núcleo, ¿cuáles son las ventajas de MKL?

Dikran Marsupial
fuente
¿Qué significa "optimizar parámetros de un solo núcleo"? parametrizamos la matriz de gramo de k (x, y)? o de la función de mapeo Phi (x)? ¿Existe incluso una forma sistemática de hacer esto? ¿O es como ejecutar la validación cruzada en un montón de núcleos y luego elegir el mejor?
Geralt de Rivia
@GeraltofRivia Me refiero a ajustar los hiperparámetros de una función básica del núcleo (por ejemplo, el parámetro de escala de un núcleo RBF). Un núcleo RBF es sorprendentemente difícil de superar en términos de rendimiento de generalización y una suma ponderada de núcleos (que puede incluir el RBF) parece bastante menos interpretable, al menos para mí.
Dikran Marsupial

Respuestas:

14

Hay dos ventajas (o más bien dos casos de uso):

  1. Para cada aplicación de SVM, un usuario tiene que elegir qué kernel usar y, a veces, incluso tiene que diseñar sus propias matrices de kernel. ¿Es posible aliviar la elección de núcleos o diseños de núcleos especializados? MKL fue un paso hacia eso.

  2. El segundo caso en mi humilde opinión es, con mucho, un caso más convincente. Considere que su entrada de datos es un video de datos + cc. La representación de características de cada video consta de características de video, características de audio y características de texto. Tales datos se conocen como datos multimodales. Cada conjunto de estas características puede requerir una noción diferente de similitud (un núcleo diferente). En lugar de construir un núcleo especializado para tales aplicaciones, ¿es posible definir el núcleo para cada uno de estos modos y combinarlos linealmente?

TenaliRaman
fuente
1
+1 Sin embargo, no estoy convencido de que [1] sea más fácil usar MKL que simplemente tener una combinación lineal de núcleos y elegir los factores de ponderación mediante, por ejemplo, la validación cruzada. También aumenta la probabilidad de sobreajuste, ya que ahora hay más parámetros para estimar. Como dices, [2] es mucho más convincente.
Dikran Marsupial
2
Ustedes estarán interesados ​​en este artículo de McFee y Lanckriet en JMLR 2011 - jmlr.csail.mit.edu/papers/v12/mcfee11a.html
TenaliRaman