Estoy haciendo una estimación de densidad de Kernel, con un conjunto de puntos ponderados (es decir, cada muestra tiene un peso que no es necesario), en N dimensiones. Además, estas muestras están solo en un espacio métrico (es decir, podemos definir una distancia entre ellas) pero nada más. Por ejemplo, no podemos determinar la media de los puntos de muestra, ni la desviación estándar, ni escalar una variable en comparación con otra. El Kernel solo se ve afectado por esta distancia y el peso de cada muestra:
En este contexto, estoy tratando de encontrar una estimación robusta para el ancho de banda del núcleo , posiblemente variando espacialmente, y preferiblemente que proporcione una reconstrucción exacta en el conjunto de datos de entrenamiento . Si es necesario, podríamos suponer que la función es relativamente suave.
Intenté usar la distancia al primer o segundo vecino más cercano, pero da resultados bastante malos. Intenté con la optimización de dejar uno afuera, pero tengo dificultades para encontrar una buena medida para optimizar en este contexto en Nd, por lo que encuentra estimaciones muy malas, especialmente para las propias muestras de entrenamiento. No puedo usar la estimación codiciosa basada en el supuesto normal ya que no puedo calcular la desviación estándar. Encontré referencias usando matrices de covarianza para obtener núcleos anisotrópicos, pero nuevamente, no se mantendría en este espacio ...
Alguien tiene una idea o una referencia?
fuente
Respuestas:
fuente
En Matlab File Exchange, hay una función kde que proporciona el ancho de banda óptimo con el supuesto de que se utiliza un núcleo gaussiano: el estimador de densidad del núcleo .
Incluso si no usa Matlab, puede analizar este código por su método de cálculo del ancho de banda óptimo. Esta es una función altamente calificada en el intercambio de archivos y la he usado muchas veces.
fuente