Un caso típico para la aplicación de la estimación de densidad es la detección de novedad, también conocida como detección de valores atípicos, donde la idea es que solo (o en su mayoría) tiene datos de un tipo, pero le interesan datos distintos cualitativos muy raros, que se desvían significativamente de esos casos comunes
Algunos ejemplos son la detección de fraude, la detección de fallas en los sistemas, etc. Estas son situaciones en las que es muy difícil y / o costoso recopilar datos del tipo que le interesa. Estos casos raros, es decir, casos con baja probabilidad de ocurrir.
La mayoría de las veces no está interesado en estimar con precisión la distribución exacta, sino en las probabilidades relativas (cuán probable es que una muestra dada sea un valor atípico real frente a no serlo).
Hay docenas de tutoriales y reseñas sobre el tema. esta uno podría ser una buena idea para empezar.
EDITAR: para algunas personas parece extraño usar la estimación de densidad para la detección de valores atípicos. Acordemos primero una cosa: cuando alguien ajusta un modelo de mezcla a sus datos, en realidad está realizando una estimación de densidad. Un modelo de mezcla representa una distribución de probabilidad.
kNN y GMM están realmente relacionados: son dos métodos para estimar tal densidad de probabilidad. Esta es la idea subyacente para muchos enfoques en la detección de novedades. Por ejemplo, este basado en kNNs, este otro basado en ventanas Parzen (que enfatizan esta idea al principio del artículo) y muchos otros .
Me parece (pero es solo mi percepción personal) que la mayoría, si no todos, trabajan en esta idea. ¿De qué otra forma expresarías la idea de un evento anómalo / raro?
fuente
Típicamente , KDE se promociona como una alternativa a los histogramas. La principal ventaja de KDE sobre los histogramas, en este contexto, es aliviar los efectos de los parámetros elegidos arbitrariamente en la salida visual del procedimiento. En particular (y como se ilustra en el enlace anterior), KDE no necesita que el usuario especifique los puntos de inicio y finalización.
fuente