Elección de un valor k para el análisis de detección del factor de valor atípico local (LOF)

9

Tengo un conjunto de datos tridimensionales, y estoy tratando de usar el análisis del factor de valor atípico local para identificar los valores más singulares o extraños. ¿Cómo se decide el valor k para usar en el análisis LOF? Entiendo lo que determina el valor k, por lo que no me sorprende que vea resultados ligeramente diferentes con diferentes k, pero no estoy seguro de si hay características de mi conjunto de datos que me empujen hacia un valor sobre otros. . ¡Gracias!

Henry D
fuente

Respuestas:

10

Publicando esto aquí para cualquiera que se encuentre con mi pregunta en el futuro: el documento original que describe el algoritmo de factor atípico local, "LOF: identificación de valores atípicos locales basados ​​en la densidad" (Breunig et al), recomienda un método para elegir un valor k . Como recordatorio, el algoritmo LOF compara la densidad de cada punto a la densidad de sus vecinos -closest. Los autores del artículo recomiendan elegir un mínimo y un máximo , y para cada punto, tomar el valor LOF máximo sobre cada en ese rango. Ofrecen varias pautas para elegir los límites.kkkk

Para el valor mínimo, los valores de LOF fluctúan enormemente los puntos en una distribución uniforme para , con puntos en una distribución uniforme que a veces aparecen como valores atípicos, por lo que recomiendan al menos . En segundo lugar, el valor mínimo sirve como un tamaño mínimo para que algo se considere un "grupo", de modo que los puntos pueden ser atípicos en relación con ese grupo. Si , y tiene un grupo de puntos y un punto , cada punto del grupo incluirá en sus vecinos más cercanos, y incluirá esos puntos, lo que los llevará a tener LOF muy similares. Entonces, si desea considerar un punto cerca de un grupo dek<10min(k)=10kk=1512pppNpuntos como un valor atípico, en lugar de parte de ese grupo, el valor de k debe ser al menos .N

Para el valor máximo, se aplica un criterio similar, ya que debe ser el número máximo de objetos que desea que se consideren atípicos si se agrupan. Un grupo de objetos aislados del conjunto principal puede ser un clúster o valores atípicos; para , serán los primeros; para , serán el segundo.NNk<Nk>N

Esperemos que esto ayude a cualquiera con un problema similar. El documento completo está aquí , y la discusión de los valores k máximos / mínimos comienza en la página 7 y continúa hasta la página 9. (Se refieren al valor como MinPts ).k

Henry D
fuente
Solo quiero entender una cosa. Digamos que para cualquier conjunto de datos selecciono k = 20 y genero LOF para cada punto y luego muestro todos los puntos en el orden descendente de su LOF. Ahora, cuando estoy analizando los datos, puedo elegir el rango hasta el cual creo que los datos son atípicos (según el conocimiento del dominio) ¿Crees que esto ayuda? Solo soy yo, ahora no tengo que preocuparme por el valor de k y estoy usando mi conocimiento de dominio para analizar los valores atípicos según el ranking LOF. Gracias,
Swapnil Bhure