¿Qué es Hellinger Distance y cuándo usarlo?

19

Estoy interesado en saber qué sucede realmente en Hellinger Distance (en términos simples). Además, también me interesa saber cuáles son los tipos de problemas que podemos usar Hellinger Distance. ¿Cuáles son los beneficios de usar Hellinger Distance?

Smith Volka
fuente
99
La distancia de Hellinger es un análogo probabilístico de la distancia euclidiana. Una propiedad destacada es su simetría, como una métrica. Tales propiedades matemáticas son útiles si está escribiendo un artículo y necesita una función de distancia que posea ciertas propiedades para hacer posible su demostración. En la aplicación, alguien podría descubrir que una métrica produce mejores o mejores resultados que otra para una determinada tarea; por ejemplo, la distancia de Wasserstein está de moda en las redes de confrontación generativas
Emre
Gracias por el comentario. Encontré esta pregunta, que es bastante similar a la pregunta que tengo ahora. datascience.stackexchange.com/questions/22324/… Por favor, hágamelo saber, ¿por qué la respuesta dice que Hellinger Distance es adecuada?
Smith Volka
2
Probablemente para visualizar los temas en un espacio métrico. Otra buena propiedad es que la distancia Hellinger es finita para distribuciones con soporte diferente. Es bueno que estés haciendo estas preguntas. Sugiero probar diferentes métricas para usted y observar los resultados.
Emre
Gracias. Es un buen enlace. ayuda mucho. ¿Pero la distancia de Hellinger solo se limita a los temas derivados de la asignación de Dirichlet latente (LDA) como se menciona en el enlace?
Smith Volka
1
No, no tiene conexión inherente a LDA.
Emre

Respuestas:

7

La distancia de Hellinger es una medida para medir la diferencia entre dos distribuciones de probabilidad. Es el análogo probabilístico de la distancia euclidiana .

PAGQ

h(PAG,Q)=12PAG-Q2

Es útil al cuantificar la diferencia entre dos distribuciones de probabilidad. Por ejemplo, si estima una distribución para usuarios y no usuarios de un servicio. Si la distancia de Hellinger es pequeña entre esos grupos para algunas características, entonces esas características no son estadísticamente útiles para la segmentación.

Brian Spiering
fuente