Agrupación de distribuciones de probabilidad: ¿métodos y métricas?

13

Tengo algunos puntos de datos, cada uno con 5 vectores de resultados discretos aglomerados, los resultados de cada vector generados por una distribución diferente, (el tipo específico del cual no estoy seguro, mi mejor suposición es Weibull, con un parámetro de forma que varía en algún lugar exponencial a la potencia ley (1 a 0, aproximadamente).)

Estoy buscando usar un algoritmo de agrupamiento como K-Means para poner cada punto de datos en grupos según los atributos de sus 5 distribuciones de componentes. Me preguntaba si hay alguna métrica de distancia establecida que sería elegante para estos fines. Hasta ahora he tenido tres ideas, pero no soy un experto en estadística (más bien un científico informático principiante en minería de datos), por lo que tengo poca idea de cuán lejos estoy del camino.

  1. Como no sé exactamente con qué tipo de distribuciones estoy lidiando, mi enfoque de la fuerza bruta del problema fue cortar cada una de las distribuciones (tengo 5 por punto) en cada uno de sus respectivos valores de datos discretos (relleno cada uno correspondiente a la misma longitud con ceros al final) y use cada uno de estos valores como un atributo separado para el punto de datos en sí. Intenté usar la distancia de Manhattan y la distancia euclidiana como métricas basadas en estos atributos, tanto para PDF como para CDF.

  2. Nuevamente, dado que no sé qué tipo de distribuciones tengo, pensé que si iba a medir la distancia entre las distribuciones generales, podría usar algún tipo de prueba no paramétrica por pares entre distribuciones, como la prueba KS , para encontrar la probabilidad de que las distribuciones proporcionadas fueran generadas por diferentes archivos PDF. Pensé que mi primera opción (arriba) usando la distancia de Manhattan sería una especie de límite superior en lo que podría obtener con este enfoque (ya que la estadística KS es el valor absoluto máximo de la diferencia de los CDF, donde la distancia de Manhattan es la suma de los valores absolutos de las diferencias en los PDF). Luego consideré combinar las diferentes estadísticas KS o valores P dentro de cada punto de datos, probablemente usando la distancia euclidiana, pero posiblemente solo tomando el máximo de todos estos valores.

  3. Por último, en un esfuerzo por utilizar lo poco que puedo interpretar sobre la forma de las distribuciones, pensé que podría intentar estimar los parámetros de las distribuciones para que encajen en una curva de Weibull. Entonces podría agrupar las distribuciones en función de las diferencias en los dos parámetros de la distribución de Weibull, lambda yk (escala y forma), probablemente normalizados de acuerdo con la varianza de estos parámetros o algo por el estilo. Este es el único caso en el que pensé que podría tener una idea de cómo normalizar los parámetros.

Entonces, mi pregunta es, ¿qué medidas / métodos recomendaría para la agrupación de distribuciones? ¿Estoy en el camino correcto con alguno de estos? ¿Es K-Means incluso un buen algoritmo para usar?

Editar: Clarificación de datos.

Cada punto de datos (cada objeto Objque quiero agrupar) en realidad contiene literalmente 5 vectorsdatos. Sé que hay exactamente 5 fases en las que pueden estar estos objetos. Diremos (a los fines de la simplificación) que cada vector es de length N.

Cada uno de estos vectores (llamarlo vector i) es una distribución de probabilidad con número entero x-valuesde 1 a N, donde cada valor de y correspondiente representa la probabilidad de medir value xen phase idel objeto Obj. N es el valor x máximo que espero medir en cualquier fase del objeto (en realidad, este no es un número fijo en mi análisis).

Determino estas probabilidades de la siguiente manera:

  1. Tomo una sola Objy lo puse en phase ipara k trials, tomar una medición en cada ensayo. Cada medida es un solo número entero. Hago esto para cada una de las 5 fases de un solo objeto y, a su vez, para cada objeto. Mis datos de medición sin procesar para un solo objeto podrían verse así:

    Vector 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Vector 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Vector 5. [16, ... ..., 0]

  2. Luego normalizo cada uno de los vectores por sí solo, con respecto al número total de mediciones en ese vector dado. Esto me da una distribución de probabilidad en ese vector, donde cada valor de y correspondiente representa la probabilidad de medir value xen phase i.

anhelo de máquina
fuente
1
No tengo claro cómo sus puntos de datos pueden "contener" las distribuciones. ¿Podrías dar un ejemplo? Además, Weibull no es una distribución de probabilidad discreta, por lo que sería deseable una aclaración adicional.
mpiktas
@mpiktas: cada punto de datos representa un objeto que tiene 5 fases diferentes. El comportamiento de cada fase del objeto puede representarse teóricamente mediante una función de distribución de probabilidad continua, pero mis datos solo contienen muestras discretas. La distribución de Weibull es probablemente la función "teórica" ​​detrás de mis datos, pero los datos en sí son solo mediciones de densidad en intervalos discretos.
máquina que anhela el

Respuestas:

5

La geometría de la información (computacional) es un campo que se ocupa exactamente de este tipo de problemas. K-means tiene una extensión llamada Bregman k-means que usa divergencias (cuyo cuadrado Euclidiano del estándar K-means es un caso particular, pero también Kullback-Leibler). Una divergencia dada está asociada a una distribución, por ejemplo, al cuadrado euclidiano a gaussiano.

También puedes echar un vistazo al trabajo de Frank Nielsen , por ejemplo

También puede echar un vistazo a las distancias de Wasserstein (transporte óptimo) , mencionado como Earth Mover Distance en una publicación anterior.

mic
fuente
3

En su artículo sobre el algoritmo EP-Means , Henderson et al revisan los enfoques de este problema y dan los suyos. Ellos consideran:

  1. Agrupación de parámetros: determine los parámetros para las distribuciones en función del conocimiento previo de la distribución y agrupe según esos parámetros
    • tenga en cuenta que aquí, en realidad, podría usar cualquier función en los datos, no solo estimaciones de parámetros, lo cual es útil si sabe que sus datos provienen de diferentes distribuciones
  2. Agrupación de histograma: separe los datos en contenedores y considere cada contenedor como una dimensión que se utilizará en la agrupación espacial
  3. EP-Means (su enfoque): defina los centroides de distribución (mezcla de todas las distribuciones asignadas a un clúster) y minimice la suma de los cuadrados de la Distancia del motor de la Tierra (algo así como el valor esperado de la distancia entre CDF) entre centroides distributivos y las distribuciones asignadas a ese grupo.L1

Otra técnica que he usado con éxito es agrupar todos los puntos observados de todas las distribuciones individualmente, y luego asignar a la distribución i la probabilidad suave correspondiente a la proporción de sus puntos que terminan en cada grupo. En el lado negativo, es mucho más difícil separar las distribuciones de esa manera. Por el lado positivo, se regulariza automáticamente y supone que todas las distribuciones son iguales. Sin embargo, solo lo usaría cuando se desee esa propiedad de regularización.

metapertura
fuente
1
$i$yo$l_2$l2
1

Debe proceder en dos pasos. (1) Reducción de datos y (2) Agrupación.

Para el paso (1), debe inspeccionar cuidadosamente sus datos y determinar una distribución de probabilidad razonable para sus datos. Parece que ya has pensado en este paso. El siguiente paso es estimar los parámetros de estas distribuciones. Puede ajustar un modelo por separado para cada unidad a agrupar, o puede ser apropiado usar un modelo más sofisticado como un modelo mixto lineal generalizado.

Para el paso (2), puede agrupar según estas estimaciones de parámetros. En esta etapa, debe tener un pequeño número de estimaciones de parámetros por unidad. Como se describe en la respuesta a esta publicación , puede agrupar estas estimaciones de parámetros.

Esta respuesta es necesariamente algo vaga: aquí no hay una solución "enlatada", y se necesita una gran cantidad de información estadística para cada paso para seleccionar entre un número casi infinito de métodos que pueden ser relevantes, dependiendo de su problema único. El enunciado de su pregunta muestra que se ha autoevaluado una buena cantidad de conocimiento estadístico, lo cual es encomiable, pero aún tiene algunos malentendidos fundamentales de los conceptos estadísticos básicos, como la distinción entre una distribución de probabilidad y observaciones de una distribución de probabilidad . Considere tomar / auditar un curso de estadística matemática o dos.

ahfoss
fuente