Leí en este intercambio un método heurístico para estimar gamma para el kernel rbf en SVM. Me preguntaba si alguien podría explicármelo con un poco más de detalle. Creo que selecciona 1000 (o una gran cantidad) de pares de puntos de datos del conjunto de datos y luego calcula la norma para la diferencia de cada par. Aparentemente, la inversa de los cuantiles .1, .9 y la mediana son buenos candidatos para una gamma adecuada para el núcleo rbf.
Gracias
Respuestas:
En primer lugar, no hay ninguna razón, excepto el costo computacional, para no usar todo su conjunto de datos. Mientras no use la información de la etiqueta, no hay razón para no usar toda la información que puede obtener de sus datos.
¿Por qué los cuantiles de la distancia son una buena heurística? La solución de un problema SVM es una combinación lineal de los núcleos RBF que se encuentran en los vectores de soporte.∑yoyyoαyoExp( - γEl | El | x-XyoEl |El |2) . Durante la fase de aprendizaje, la optimización adapta elαyo para maximizar el margen manteniendo la clasificación correcta.
Ahora, hay dos casos extremos para la elección deγ :
Para ver que la heurística es una buena opción, uno debe darse cuenta de que un cierto valor deγ determina un límite para el núcleo RBF en el que el núcleo será mayor que un cierto valor (como elσ -cuantil para la distribución Normal). Al elegir elγ De acuerdo con los cuantiles en las distancias por pares, se asegura de que un cierto porcentaje de los puntos de datos se encuentre dentro de ese límite. Por lo tanto, si cambia elαi para un punto de datos, de hecho, solo afectará la función de decisión para un cierto porcentaje de puntos de datos que es lo que desea. Cómo se debe elegir ese porcentaje depende del problema de aprendizaje, pero evita cambiar la función de decisión para todos o solo un punto de datos.
fuente
¡Si! Estás describiendo el llamado "truco mediano".
Realmente me gusta la intuición detrás de la respuesta anterior. También creo que es más fácil entender el problema de elegirγ al considerarlo como el inverso de la varianza del RBF, à la
Ahora está claro que el problema de buscar una buena es esencialmente el mismo que buscar una buena varianza para una función gaussiana (menos un factor de escala).γ
Para hacer esto, recurrimos a los estimadores de varianza, pero en lugar de calcular la varianza a través de la distancia cuadrada promedio de algunos como , calculamos cuantiles en esa distancia cuadrada.xi E[(x−xi)2]
Como decía el póster anterior, el uso de cuantiles nos da control sobre cuántos puntos de datos se encuentran dentro de una (o dos, o tres ...) desviaciones estándar de nuestra función gaussiana.
fuente