Mida la uniformidad de una distribución durante los días laborables.

11

Tengo un problema similar a la pregunta que se hace aquí:

¿Cómo se mide la no uniformidad de una distribución?

Tengo un conjunto de distribuciones de probabilidad durante los días de la semana. Quiero medir qué tan cerca está cada distribución (1 / 7,1 / 7, ..., 1/7).

En este momento estoy usando una respuesta de la pregunta anterior; una Norma L2, que tiene un valor 1 cuando la distribución tiene masa 1 para uno de los días, y se minimiza para (1 / 7,1 / 7, ..., 1/7). Estoy escalando linealmente esto para que se encuentre entre 0 y 1, luego voltearlo para que 0 significa perfectamente no uniforme y 1 significa perfectamente uniforme.

Esto funciona bastante bien, pero tengo un problema con él; trata cada día de la semana por igual como una dimensión en el espacio 7-Dim, por lo que no tiene en cuenta la proximidad de los días; en otras palabras, le da el mismo puntaje a (1 / 2,1 / 2,0,0,0,0,0) y (1 / 2,0,0,1 / 2,0,0,0) incluso aunque en cierto sentido este último es más "extendido" y uniforme, e idealmente debería obtener una puntuación más alta. Obviamente, existe la complicación adicional de que el orden de los días es circular.

¿Cómo puedo alterar esta heurística para dar cuenta de la cercanía de los días?

EBartrum
fuente
1
Su ejemplo de (1 / 2,1 / 2,0,0,0,0,0) y (1 / 2,0,0,1 / 2,0,0,0) no son uniformes de la misma manera , por lo que no debería importar si solo está interesado en probar la no uniformidad. Entonces, ¿tal vez desee probar algo más que no se mencionó explícitamente en su pregunta? Por cierto, la entropía es una medida de uniformidad.
Tim
Gracias Tim, he intentado usar Entropy pero encontré que la heurística mencionada anteriormente funcionó mejor para mis propósitos. No estoy seguro de cómo llamar a la propiedad de una distribución de probabilidad durante los días de la semana que me interesa, excepto que debería encapsular la "dispersión" de las probabilidades durante la semana.
EBartrum

Respuestas:

15

La distancia del motor de la tierra , también conocida como la métrica de Wasserstein, mide la distancia entre dos histogramas. Esencialmente, considera un histograma como una cantidad de montones de suciedad y luego evalúa cuánta suciedad hay que mover y qué tan lejos (!) Convertir este histograma en el otro. Mediría la distancia entre su distribución y una uniforme durante los días de la semana.

Por supuesto, esto explica la cercanía de los días: es más fácil mover la "suciedad" de lunes a martes que de lunes a jueves, por lo que (1 / 2,0,0,1 / 2,0,0,0) tendría un menor distancia de movimiento de tierra desde la distribución uniforme que un histograma que se concentra los lunes y martes.

Lo que esto no hace es considerar la "circularidad" de la semana, es decir, que el sábado y el domingo están tan juntos como el domingo y el lunes. Para eso, necesitaría buscar una distancia de movimiento de tierra definida en distribuciones de masa de probabilidad circular . Esto debería ser posible utilizando un enfoque de optimización adecuado.


EDITAR: en R, el emdpaquete calcula las distancias del movimiento de tierra entre los histogramas.

Puede abordar el problema de la "circularidad" de una manera bastante simple (aunque ad-hoc).

  • Calcule una distancia de movimiento de tierra entre su distribución y una distribución uniforme de lunes a domingo.d1
  • Calcule una distancia contra una distribución uniforme de martes a lunes.d2
  • Calcule una distancia contra una distribución uniforme de miércoles a martes.d3
  • ...
  • Finalmente, como la distancia final, use la media de .d1,,d7

Esto se encarga de la circularidad a expensas de un par de cálculos adicionales.

2da EDICIÓN: esta no es la distancia circular del movimiento de tierra como tal. Para eso, deberías mirar a través de la literatura que aparecerá una búsqueda . Si la mejor manera de mover la suciedad entre días implica moverla dos días de sábado a lunes, esto aparecerá en cinco de los siete , pero no en los dos restantes (donde será necesario mover la suciedad cinco días).di

Sin embargo, todavía consideraría que esta es una forma potencialmente útil de al menos considerar la circularidad de alguna manera, ciertamente mejor que usar un solo histograma y definir la semana como de domingo a sábado o de alguna otra manera arbitraria. Además, si bien algunos de los enlaces anteriores muestran implementaciones para la distancia circular del movimiento de tierra, no conozco uno para R, que es probablemente el lenguaje más utilizado aquí.

Stephan Kolassa
fuente
3
Al principio pensé que el último ejemplo (media de ) es un ejemplo de cómo calcular la distancia circular del movimiento de tierra y estaba confundido (porque el resultado podría ser mayor que algunos de ). Entonces me di cuenta de que esta respuesta no implica eso en ninguna parte. No sé si otros leyeron esta respuesta como lo hice yo, pero podría ser bueno decir más claramente que el ejemplo no es la distancia circular del movimiento de la tierra. d id1,,d7di
JiK
@JiK: buen punto, y uno que también se me ocurrió después de que perdí la conectividad ayer. Aclaré mi respuesta para enfatizar que este es un truco y no una verdadera distancia circular de movimiento de tierra.
Stephan Kolassa
1
Muchas gracias, de hecho logré implementar una distancia circular de movimiento de tierra en R con el paquete emd y la función emd2d, al definir mi propia función de distancia, por lo que no necesité usar el truco que mencionaste. ¡Esto es exactamente lo que estaba buscando! Otro asunto insignificante: ¿cómo debería llamarlo? Como Tim dijo anteriormente, no debería llamar a esto uniformidad. ¿Cuál sería un nombre apropiado para esta heurística?
EBartrum
1
Bueno, ya está realizando una prueba de uniformidad, por lo que ese término debe estar bien. Lo que Tim está discutiendo es sobre qué desviaciones específicas de la uniformidad desea evaluar, por lo que puede estar buscando un término más preciso que " no uniformidad". Como discutió, no está buscando salidas en un sentido de distancia , sino aparentemente en un sentido EMD. No veo un buen nombre para llamar a ese bebé. Quizás solo quieras esparcir "EMD" en tu prosa. "La distribución A es más EMD-no uniforme que B". "A está más alejado de la uniformidad de EMD que B." Sin embargo, no suena demasiado poético. Lo siento. L2
Stephan Kolassa