Tengo 12 conjuntos de entrenamiento positivo (células cancerosas tratadas con medicamentos con cada uno de los 12 mecanismos de acción diferentes). Para cada uno de estos conjuntos de entrenamiento positivo, me gustaría entrenar una máquina de vectores de soporte para distinguirlo de un conjunto negativo de igual tamaño muestreado del experimento. Cada conjunto tiene entre 1000 y 6000 celdas, y hay 476 características (características de imagen) de cada celda, cada una escalada linealmente a [0, 1].
Yo uso LIBSVM y el núcleo Gaussian RGB. Utilizando la validación cruzada de cinco veces, he realizado una búsqueda en la cuadrícula para log₂ C ∈ [-5, 15] y log₂ ɣ ∈ [-15, 3]. Los resultados son los siguientes:
Me decepcionó que no haya un solo conjunto de parámetros que proporcionen altas precisiones para los 12 problemas de clasificación. También me sorprendió que las cuadrículas generalmente no muestren una región de alta precisión rodeada de precisiones más bajas. ¿Significa esto que necesito expandir el espacio del parámetro de búsqueda, o es la búsqueda de la cuadrícula una indicación de que algo más está mal?
Respuestas:
Los valores óptimos para los hiperparámetros serán diferentes para diferentes tareas de aprendizaje, debe ajustarlos por separado para cada problema.
La razón por la que no obtiene un óptimo óptimo es porque tanto el parámetro del núcleo como el parámetro de regularización controlan la complejidad del modelo. Si C es pequeño, obtendrá un modelo uniforme, del mismo modo si el núcleo con es amplio, obtendrá un modelo uniforme (ya que las funciones básicas no son muy locales). Esto significa que diferentes combinaciones de C y el ancho del kernel conducen a modelos igualmente complejos, con un rendimiento similar (por lo que obtienes la característica diagonal en muchas de las parcelas que tienes).
El óptimo también depende del muestreo particular del conjunto de entrenamiento. Es posible sobrepasar el error de validación cruzada, por lo que elegir los hiperparámetros por validación cruzada puede empeorar el rendimiento si no tiene suerte. Vea a Cawley y Talbot para una discusión sobre esto.
El hecho de que haya una amplia meseta de valores para los hiperparámetros donde se obtienen valores igualmente buenos es en realidad una buena característica de las máquinas de vectores de soporte, ya que sugiere que no son demasiado vulnerables al sobreajuste en la selección del modelo. Si tuviera un pico agudo en los valores óptimos, sería algo malo ya que el pico sería difícil de encontrar utilizando un conjunto de datos finito que proporcionaría una indicación poco confiable de dónde reside realmente ese pico.
fuente