DBSCAN es el algoritmo de agrupación más citado de acuerdo con cierta literatura y puede encontrar agrupaciones de formas arbitrarias basadas en la densidad. Tiene dos parámetros eps (como radio de vecindad) y minPts (como vecinos mínimos para considerar un punto como punto central) que creo que depende en gran medida de ellos.
¿Hay alguna rutina o método comúnmente utilizado para elegir estos parámetros?
clustering
dbscan
Mehraban
fuente
fuente
Respuestas:
Hay muchas publicaciones que proponen métodos para elegir estos parámetros.
La más notable es OPTICS, una variación de DBSCAN que elimina el parámetro epsilon; produce un resultado jerárquico que se puede ver más o menos como "ejecutar DBSCAN con cada épsilon posible".
Para minPts, sugiero no confiar en un método automático, sino en su conocimiento de dominio .
Un buen algoritmo de agrupación tiene parámetros que le permiten personalizarlo según sus necesidades.
Un parámetro que pasó por alto es la función de distancia. Lo primero que debe hacer para DBSCAN es encontrar una buena función de distancia para su aplicación . ¡No confíe en que la distancia euclidiana sea la mejor para cada aplicación!
fuente
k
para la clasificación de vecino más cercano, puede decir lo mismo para el parámetro minPts. Supongo que la principal diferencia es que para la distancia, hay un valor predeterminado "a menudo": distancia euclidiana; mientras que para minPts el valor será específico de los datos.