Publicando esto aquí para cualquiera que se encuentre con mi pregunta en el futuro: el documento original que describe el algoritmo de factor atípico local, "LOF: identificación de valores atípicos locales basados en la densidad" (Breunig et al), recomienda un método para elegir un valor k . Como recordatorio, el algoritmo LOF compara la densidad de cada punto a la densidad de sus vecinos -closest. Los autores del artículo recomiendan elegir un mínimo y un máximo , y para cada punto, tomar el valor LOF máximo sobre cada en ese rango. Ofrecen varias pautas para elegir los límites.kkkk
Para el valor mínimo, los valores de LOF fluctúan enormemente los puntos en una distribución uniforme para , con puntos en una distribución uniforme que a veces aparecen como valores atípicos, por lo que recomiendan al menos . En segundo lugar, el valor mínimo sirve como un tamaño mínimo para que algo se considere un "grupo", de modo que los puntos pueden ser atípicos en relación con ese grupo. Si , y tiene un grupo de puntos y un punto , cada punto del grupo incluirá en sus vecinos más cercanos, y incluirá esos puntos, lo que los llevará a tener LOF muy similares. Entonces, si desea considerar un punto cerca de un grupo dek<10min(k)=10kk=1512pppNpuntos como un valor atípico, en lugar de parte de ese grupo, el valor de k debe ser al menos .N
Para el valor máximo, se aplica un criterio similar, ya que debe ser el número máximo de objetos que desea que se consideren atípicos si se agrupan. Un grupo de objetos aislados del conjunto principal puede ser un clúster o valores atípicos; para , serán los primeros; para , serán el segundo.NNk<Nk>N
Esperemos que esto ayude a cualquiera con un problema similar. El documento completo está aquí , y la discusión de los valores k máximos / mínimos comienza en la página 7 y continúa hasta la página 9. (Se refieren al valor como MinPts ).k