Estoy usando Bayes para resolver un problema de agrupamiento. Después de hacer algunos cálculos termino con la necesidad de obtener la razón de dos probabilidades:
para poder obtener . Estas probabilidades se obtienen mediante la integración de dos KDE multivariados 2D diferentes como se explica en esta respuesta :
donde y son los KDE y la integración se realiza para todos los puntos por debajo de los umbrales y . Ambos KDE utilizan un núcleo gaussiano . Aquí se puede ver una imagen representativa de un KDE similar a las que estoy trabajando: Integrando el estimador de densidad del núcleo en 2D .
Calculo los KDE por medio de una python
función stats.gaussian_kde , por lo que asumo la siguiente forma general:
donde n
es la longitud de mi conjunto de puntos y h
es el ancho de banda utilizado.
Las integrales anteriores se calculan aplicando un proceso de Monte Carlo que es bastante costoso computacionalmente. Leí en alguna parte (olvidé dónde, lo siento) que en casos como este es posible reemplazar la razón de probabilidades por la razón de PDF (KDE) evaluados en los puntos de umbral para obtener resultados igualmente válidos. Estoy interesado en esto porque calcular la relación de KDE es un orden de magnitud más rápido que calcular la relación de las integrales con MC.
Entonces la pregunta se reduce a la validez de esta expresión:
¿En qué circunstancias, si las hay, puedo decir que esta relación es verdadera?
[error tipográfico fijo (EDITAR)]
Añadir :
Aquí está básicamente la misma pregunta pero hecha en una forma más matemática .
P(X)
cuál es el valor que estoy tratando de evitar calcular. ¿Podría ampliar un poco la relevancia de ese parámetro?Respuestas:
El KDE es una mezcla de distribuciones normales. Veamos uno solo de ellos.
Las definiciones de y muestran que sus valores son invariables bajo traducciones y reescalamientos en el plano, por lo que es suficiente considerar la distribución Normal estándar con PDF . La desigualdadP(A) P(B) f
es equivalente a
Introduciendo las coordenadas polares permite reescribir la integralρ,θ
Ahora considere la mezcla. Porque es lineal,
De hecho, y son proporcionales. La constante de proporcionalidad es .f P 2πh2
Que tal relación de proporcionalidad entre y sea especialP f se puede apreciar contemplando un contraejemplo simple. Deje que tenga una distribución uniforme en un conjunto medible de unidad de área y tenga una distribución uniforme en un conjunto medible que es disjunto de y tiene un área . Entonces la mezcla con PDF tiene un valor constante en , en , y es cero en otro lugar. Hay tres casos a considerar:f1 A1 f2 A2 A1 μ>1 f=f1/2+f2/2 1/2 A1 1/(2μ) A2
En otro lugar, es cero y la integral es cero.f P
Evidentemente, la relación (donde se define) no es constante y varía entre y . Aunque esta distribución no es continua, puede hacerse agregando una distribución Normal . Al hacer que ambos valores propios de pequeños, esto cambiará muy poco la distribución y producirá cualitativamente los mismos resultados, solo que ahora los valores de la relación incluirán todos los números en el intervalo .1 1/μ≠1 (0,Σ) Σ f/P [1,1/μ]
Este resultado tampoco se generaliza a otras dimensiones. Esencialmente, el mismo cálculo que inició esta respuesta muestra que es una función Gamma incompleta y que claramente no es lo mismo que . Se puede apreciar que dos dimensiones son especiales al observar que la integración en concierne esencialmente a las distancias y cuando están normalmente distribuidas, la función de distancia tiene una , que es la distribución exponencial. La función exponencial es única en ser proporcional a su propia derivada, de donde el integrando integral deben ser proporcionales.P f P χ2(2) f P
fuente