¿Dónde es útil la estimación de densidad?

Después de pasar por algunas matemáticas ligeramente concisas, creo que tengo una ligera intuición de la estimación de la densidad del núcleo. Pero también soy consciente de que estimar la densidad multivariada para más de tres variables podría no ser una buena idea, en términos de las propiedades estadísticas de sus estimadores.

Entonces, ¿en qué tipo de situaciones debería estimar, digamos, la densidad bivariada utilizando métodos no paramétricos? ¿Vale la pena comenzar a preocuparse por estimarlo para más de dos variables?

Si puede señalar algunos enlaces útiles con respecto a la aplicación de la estimación de la densidad multivariante, sería genial.

nonparametric pdf kernel-smoothing bivariate density-estimation lovekesh
fuente

Respuestas:

Un caso típico para la aplicación de la estimación de densidad es la detección de novedad, también conocida como detección de valores atípicos, donde la idea es que solo (o en su mayoría) tiene datos de un tipo, pero le interesan datos distintos cualitativos muy raros, que se desvían significativamente de esos casos comunes

Algunos ejemplos son la detección de fraude, la detección de fallas en los sistemas, etc. Estas son situaciones en las que es muy difícil y / o costoso recopilar datos del tipo que le interesa. Estos casos raros, es decir, casos con baja probabilidad de ocurrir.

La mayoría de las veces no está interesado en estimar con precisión la distribución exacta, sino en las probabilidades relativas (cuán probable es que una muestra dada sea un valor atípico real frente a no serlo).

Hay docenas de tutoriales y reseñas sobre el tema. esta uno podría ser una buena idea para empezar.

EDITAR: para algunas personas parece extraño usar la estimación de densidad para la detección de valores atípicos. Acordemos primero una cosa: cuando alguien ajusta un modelo de mezcla a sus datos, en realidad está realizando una estimación de densidad. Un modelo de mezcla representa una distribución de probabilidad.

kNN y GMM están realmente relacionados: son dos métodos para estimar tal densidad de probabilidad. Esta es la idea subyacente para muchos enfoques en la detección de novedades. Por ejemplo, este basado en kNNs, este otro basado en ventanas Parzen (que enfatizan esta idea al principio del artículo) y muchos otros .

Me parece (pero es solo mi percepción personal) que la mayoría, si no todos, trabajan en esta idea. ¿De qué otra forma expresarías la idea de un evento anómalo / raro?

jpmuc
fuente

El conjunto de notas que usted describió (sección 6, "enfoque basado en la densidad") describe algunos enfoques muy esotéricos (lejos de la corriente media y la literatura desarrollada tranquila sobre el tema) para la detección de valores atípicos. Seguramente, deben existir aplicaciones más comunes.

user603

Lo siento, no entiendo tu comentario. Dos ejemplos muy básicos serían kNN y GMM. Estos dos métodos proporcionan estimaciones de la densidad de probabilidad y pueden usarse para tales casos.

jpmuc

Gracias. ¿Qué es GMM? No creo que kNN sea un enfoque de flujo medio para la detección de valores atípicos. ¿Puedes referirte a un libro de texto reciente sobre estadísticas robustas donde se usa en ese contexto? (Miré los documentos en el conjunto de diapositivas que señaló que pertenecen a la detección de valores atípicos parecen ser procedimientos de conferencia o libros antiguos)

user603

GMM = modelo de mezcla gaussiana. En las diapositivas se refieren a puntajes basados en kNNs. Personalmente, he usado SVM para la detección de novelas. Lamentablemente, no puedo recomendarle un libro de texto concreto. Tal vez estas notas ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) sean suficientes.

jpmuc

Estoy totalmente de acuerdo con @ user603. La estimación de la densidad es a primera vista una forma muy extraña e indirecta de tratar de encontrar valores atípicos. Su respuesta se mejoraría al resumir cómo se aplica eso en la práctica y por qué cree que funciona bien.

Nick Cox

$(x_i)$ muestreados de esa función de densidad y se basa completamente en un modelo kde:

F_{h} (X) \propto \sum_{X_{yo}} Exp (- (X_{yo} - X)^{T} Σ^{- 1} (X_{yo} - X)),

$f_h(x) \propto \sum_{x_i} \exp( -(x_{i}-x)^{T}\Sigma^{-1} (x_{i}-x)),$ dónde

Σ^{- 1}

$\Sigma^{-1}$ es una matriz de covarianza (la mayoría de las veces estimada). Este algoritmo se usa ampliamente en tareas de agrupación cuando se desconoce el número de componentes: cada modo descubierto es un centroide de agrupación y cuanto más se acerca una muestra a una modalidad, más probable es que pertenezca al grupo correspondiente (todo se pondera adecuadamente por la forma del densidad reconstruida). Los datos de la muestra

x_{i}

$x_i$ son típicamente de una dimensión mayor que uno: por ejemplo, para realizar una segmentación de imagen en color 2D, las muestras pueden ser 5d para (RComponent, GComponent, BComponent, xPosition, yPosition).

peuhp
fuente

Típicamente , KDE se promociona como una alternativa a los histogramas. La principal ventaja de KDE sobre los histogramas, en este contexto, es aliviar los efectos de los parámetros elegidos arbitrariamente en la salida visual del procedimiento. En particular (y como se ilustra en el enlace anterior), KDE no necesita que el usuario especifique los puntos de inicio y finalización.

usuario603
fuente