Tengo un problema similar a la pregunta que se hace aquí:
¿Cómo se mide la no uniformidad de una distribución?
Tengo un conjunto de distribuciones de probabilidad durante los días de la semana. Quiero medir qué tan cerca está cada distribución (1 / 7,1 / 7, ..., 1/7).
En este momento estoy usando una respuesta de la pregunta anterior; una Norma L2, que tiene un valor 1 cuando la distribución tiene masa 1 para uno de los días, y se minimiza para (1 / 7,1 / 7, ..., 1/7). Estoy escalando linealmente esto para que se encuentre entre 0 y 1, luego voltearlo para que 0 significa perfectamente no uniforme y 1 significa perfectamente uniforme.
Esto funciona bastante bien, pero tengo un problema con él; trata cada día de la semana por igual como una dimensión en el espacio 7-Dim, por lo que no tiene en cuenta la proximidad de los días; en otras palabras, le da el mismo puntaje a (1 / 2,1 / 2,0,0,0,0,0) y (1 / 2,0,0,1 / 2,0,0,0) incluso aunque en cierto sentido este último es más "extendido" y uniforme, e idealmente debería obtener una puntuación más alta. Obviamente, existe la complicación adicional de que el orden de los días es circular.
¿Cómo puedo alterar esta heurística para dar cuenta de la cercanía de los días?
Respuestas:
La distancia del motor de la tierra , también conocida como la métrica de Wasserstein, mide la distancia entre dos histogramas. Esencialmente, considera un histograma como una cantidad de montones de suciedad y luego evalúa cuánta suciedad hay que mover y qué tan lejos (!) Convertir este histograma en el otro. Mediría la distancia entre su distribución y una uniforme durante los días de la semana.
Por supuesto, esto explica la cercanía de los días: es más fácil mover la "suciedad" de lunes a martes que de lunes a jueves, por lo que (1 / 2,0,0,1 / 2,0,0,0) tendría un menor distancia de movimiento de tierra desde la distribución uniforme que un histograma que se concentra los lunes y martes.
Lo que esto no hace es considerar la "circularidad" de la semana, es decir, que el sábado y el domingo están tan juntos como el domingo y el lunes. Para eso, necesitaría buscar una distancia de movimiento de tierra definida en distribuciones de masa de probabilidad circular . Esto debería ser posible utilizando un enfoque de optimización adecuado.
EDITAR: en R, el
emd
paquete calcula las distancias del movimiento de tierra entre los histogramas.Puede abordar el problema de la "circularidad" de una manera bastante simple (aunque ad-hoc).
Esto se encarga de la circularidad a expensas de un par de cálculos adicionales.
2da EDICIÓN: esta no es la distancia circular del movimiento de tierra como tal. Para eso, deberías mirar a través de la literatura que aparecerá una búsqueda . Si la mejor manera de mover la suciedad entre días implica moverla dos días de sábado a lunes, esto aparecerá en cinco de los siete , pero no en los dos restantes (donde será necesario mover la suciedad cinco días).di
Sin embargo, todavía consideraría que esta es una forma potencialmente útil de al menos considerar la circularidad de alguna manera, ciertamente mejor que usar un solo histograma y definir la semana como de domingo a sábado o de alguna otra manera arbitraria. Además, si bien algunos de los enlaces anteriores muestran implementaciones para la distancia circular del movimiento de tierra, no conozco uno para R, que es probablemente el lenguaje más utilizado aquí.
fuente