Solo quería ver si alguien tiene alguna experiencia aplicando la regresión de procesos gaussiana (GPR) a conjuntos de datos de alta dimensión. Estoy investigando algunos de los diversos métodos GPR dispersos (por ejemplo, pseudo-entradas GPR dispersas) para ver qué podría funcionar para conjuntos de datos de alta dimensión donde la selección de características ideal es parte del proceso de selección de parámetros.
Cualquier sugerencia sobre documentos / código / o varios métodos para probar es definitivamente apreciada.
Gracias.
Respuestas:
Los modelos de procesos gaussianos generalmente están bien con conjuntos de datos de alta dimensión (los he usado con datos de microarrays, etc.). La clave está en elegir buenos valores para los hiperparámetros (que controlan efectivamente la complejidad del modelo de manera similar a la regularización).
Los métodos dispersos y los métodos de pseudo-entrada son más para conjuntos de datos con una gran cantidad de muestras (> aproximadamente 4000 para mi computadora) en lugar de una gran cantidad de características. Si tiene una computadora lo suficientemente potente como para realizar una descomposición de Cholesky de la matriz de covarianza (n por n donde n es el número de muestras), entonces probablemente no necesite estos métodos.
Si es un usuario de MATLAB, le recomiendo encarecidamente la caja de herramientas GPML y el libro de Rasmussen y Williams como buenos lugares para comenzar.
SIN EMBARGO, si está interesado en la selección de funciones, entonces evitaría GP. El enfoque estándar para la selección de características con GP es utilizar un núcleo de determinación automática de relevancia (por ejemplo, covSEard en GPML), y luego lograr la selección de características ajustando los parámetros del núcleo para maximizar la probabilidad marginal. Desafortunadamente, es muy probable que termine ajustando la probabilidad marginal y terminando con un modelo que funciona (posiblemente mucho) peor que un modelo con una covarianza de función radial esférica simple (covSEiso en GPML).
Mi investigación actual se centra en el ajuste excesivo en la selección de modelos en este momento y he descubierto que esto es tanto un problema para la maximización de la evidencia en GP como para la optimización basada en validación cruzada de hiperparámetros en modelos de kernel, para más detalles vea este documento y este .
La selección de características para modelos no lineales es muy complicada. A menudo, obtiene un mejor rendimiento si se adhiere a un modelo lineal y utiliza enfoques de tipo de regularización L1 (Lasso / LARS / Elastic net, etc.) para lograr la dispersión o métodos forestales aleatorios.
fuente
Puede intentar utilizar funciones de covarianza diseñadas especialmente para tratar datos de alta dimensión. Mire a través del artículo sobre la función de covarianza aditiva, por ejemplo. Han funcionado mejor que otras funciones de covarianza de vanguardia en mis experimentos numéricos con algunos datos reales de una dimensión de entrada bastante grande (alrededor de ).30
Sin embargo, si la dimensión de entrada es realmente enorme (más de o ), parece que cualquier método de kernel fallará, y no hay exclusión para la regresión de procesos gaussianos.100 200
fuente