Agrupación: intuición detrás del teorema de la imposibilidad de Kleinberg

17

He estado pensando en escribir una publicación de blog sobre este interesante análisis de Kleinberg (2002) que explora la dificultad de la agrupación. Kleinberg describe tres desideratas aparentemente intuitivas para una función de agrupamiento y luego demuestra que no existe tal función. Hay muchos algoritmos de agrupamiento que satifican dos de los tres criterios; sin embargo, ninguna función puede satisfacer los tres simultáneamente.

Breve e informalmente, las tres desideratas que describe son:

  • Escala-Invarianza : si transformamos los datos para que todo se extienda por igual en todas las direcciones, entonces el resultado de la agrupación no debería cambiar.
  • Consistencia : si estiramos los datos para que las distancias entre los grupos aumenten y / o las distancias dentro de los grupos disminuyan, entonces el resultado de la agrupación no debería cambiar.
  • Riqueza : en teoría, la función de agrupación debería ser capaz de producir cualquier partición / agrupación arbitraria de puntos de datos (en ausencia de conocer la distancia por pares entre dos puntos)

Preguntas:

(1) ¿Existe una buena intuición, una imagen geométrica que pueda mostrar la inconsistencia entre estos tres criterios?

(2) Esto se refiere a detalles técnicos del documento. Tendrá que leer el enlace de arriba para comprender esta parte de la pregunta.

En el documento, la prueba del teorema 3.1 es un poco difícil de seguir en algunos puntos. Estoy atascado en: "Sea F una función de agrupación que satisfaga la coherencia. Afirmamos que para cualquier partición ΓRango(F) , existen números reales positivos a<b modo que el par (a,b) es Γ - forzando ".

No veo cómo puede ser el caso ... ¿No es la partición debajo de un contraejemplo donde a>b (es decir, la distancia mínima entre grupos es mayor que la distancia máxima dentro de grupos)?

contraejemplo?

Editar: esto claramente no es un contraejemplo, me estaba confundiendo a mí mismo (ver respuestas).


Otros papeles:

Alex Williams
fuente
Con respecto a la "consistencia": esta característica se desea intuitivamente solo cuando los grupos ya están bien separados. Cuando no lo están, hay un problema con el número de grupos en los datos; para el análisis, dado que no está supervisado, es una pregunta. Entonces es bastante normal esperar que a medida que agrega gradualmente la distancia entre los grupos (como los generó usted) el análisis cambia las asignaciones que hace durante el proceso de agrupación.
ttnphns
Con respecto a la "riqueza": lo siento, no entendí lo que significa (por lo menos como lo has dicho). Los algoritmos de agrupamiento son muchos, ¿cómo puede esperar que todos obedezcan algún requisito especial?
ttnphns
Con respecto a su imagen: se necesitan métodos de agrupación especiales para reconocer dicho patrón. Los métodos de agrupamiento tradicionales / originales provienen de la biología y la sociología, donde los grupos son más o menos "islas" densas de esferoides, no anillos de atolones. Estos métodos no pueden exigir hacer frente a los datos de la imagen.
ttnphns
También te puede interesar: Estivill-Castro, Vladimir. "Por qué tantos algoritmos de agrupamiento: un documento de posición". Boletín de exploraciones ACM SIGKDD 4.1 (2002): 65-75.
Anony-Mousse -Reinstalar Monica
No he leído el periódico. Pero en muchos algoritmos de agrupación tiene un umbral de distancia (por ejemplo, DBSCAN, agrupación jerárquica). Si escala las distancias, por supuesto, también debe escalar su umbral en consecuencia. Por lo tanto, no estoy de acuerdo con su requisito de invariancia de escala. También estoy en desacuerdo con la riqueza. No todas las particiones deben ser una solución válida para cada algoritmo. Hay millones de particiones aleatorias.
Anony-Mousse -Reinstalar Monica

Respuestas:

11

De una forma u otra, cada algoritmo de agrupamiento se basa en alguna noción de "proximidad" de puntos. Parece intuitivamente claro que puede usar una noción relativa (invariante de escala) o una noción de proximidad absoluta (consistente), pero no ambas .

Primero intentaré ilustrar esto con un ejemplo, y luego diré cómo esta intuición encaja con el Teorema de Kleinberg.

Un ejemplo ilustrativo

Supongamos que tenemos dos conjuntos y S 2 de 270 puntos cada uno, dispuestos en el plano de esta manera:S1S2270

dos juegos de 270 puntos

Es posible que no vea puntos en ninguna de estas imágenes, pero eso es solo porque muchos de los puntos están muy juntos. Vemos más puntos cuando hacemos zoom:270

set 1 con zoom

Probablemente estará de acuerdo espontáneamente en que, en ambos conjuntos de datos, los puntos están organizados en tres grupos. Sin embargo, resulta que si hace zoom en cualquiera de los tres grupos de , verá lo siguiente:S2

set 2 con zoom

Si crees en una noción absoluta de proximidad, o en la consistencia, seguirás manteniendo que, independientemente de lo que acabas de ver bajo el microscopio, consta de solo tres grupos. De hecho, la única diferencia entre S 1 y S 2 es que, dentro de cada grupo, algunos puntos ahora están más juntos. Si, por otro lado, crees en una noción relativa de proximidad, o en una invariancia de escala, te sentirás inclinado a argumentar que S 2 consiste no en 3 sino en 3 × 3 = 9 grupos. Ninguno de estos puntos de vista es incorrecto, pero debe elegir de una forma u otra.S2S1S2S233×3=9

Un caso de invariancia de isometría

Si compara la intuición anterior con el teorema de Kleinberg, encontrará que están ligeramente en desacuerdo. De hecho, el teorema de Kleinberg parece decir que usted puede lograr invariancia de escala y consistencia al mismo tiempo, siempre y cuando no se preocupan por una tercera propiedad llamada riqueza. Sin embargo, la riqueza no es la única propiedad que pierde si simultáneamente insiste en la invariancia de escala y la coherencia. También pierde otra propiedad más fundamental: la isometría-invariancia. Esta es una propiedad que no estaría dispuesto a sacrificar. Como no aparece en el documento de Kleinberg, me detendré en él por un momento.

En resumen, un algoritmo de agrupación es invariante en isometría si su salida depende solo de las distancias entre puntos, y no de alguna información adicional, como etiquetas que adhiere a sus puntos, o de un orden que impone a sus puntos. Espero que esto parezca una condición muy leve y muy natural. Todos los algoritmos discutidos en el artículo de Kleinberg son invariantes de isometría, excepto el algoritmo de enlace único con la condición de detención del clúster . Según la descripción de Kleinberg, este algoritmo utiliza un orden lexicográfico de los puntos, por lo que su salida puede depender de cómo los etiquete. Por ejemplo, para un conjunto de tres puntos equidistantes, la salida del algoritmo de enlace único con el 2k2- la condición de detención del clúster dará diferentes respuestas según si etiquetas tus tres puntos como "gato", "perro", "ratón" (c <d <m) o como "Tom", "Spike", "Jerry" (J <S <T):

agrupación de {gato, perro, ratón} versus {Tom, Spike, Jerry}

Este comportamiento antinatural puede, por supuesto, repararse fácilmente reemplazando la condición de detención del clúster con una “condición de detención del clúster ( k ) ”. La idea es simplemente no romper los lazos entre los puntos equidistantes, y dejar de fusionar grupos tan pronto como hayamos llegado a la mayoría de los k grupos. Este algoritmo reparado seguirá produciendo k grupos la mayor parte del tiempo, y será invariante de isometría e invariante de escala. De acuerdo con la intuición dada anteriormente, sin embargo, ya no será consistente.k(k) kk

Para una definición precisa de la invariancia de isometría, recuerde que Kleinberg define un algoritmo de agrupamiento en un conjunto finito como un mapa que asigna a cada métrica en S una partición de S : Γ : { métricas en  S } { particiones de  S }SSS Unaisometría i entre dos métricas d y d en S es una permutación i : S S tal que d ( i ( x ) , i ( y ) ) = d ( x , y ) para todos puntos x y y en S .

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

Definición: Un algoritmo de agrupamiento es invariante en isometría si cumple la siguiente condición: para cualquier métrica d y d , y cualquier isometría i entre ellas, los puntos i ( x ) e i ( y ) se encuentran en el mismo grupo de Γ ( d ) si y solo si los puntos originales x e y se encuentran en el mismo grupo de Γ ( d ) .Γddii(x)i(y)Γ(d)xyΓ(d)

Cuando pensamos en algoritmos de agrupamiento, a menudo identificamos el conjunto abstracto con un conjunto concreto de puntos en el plano, o en algún otro espacio ambiental, e imaginamos que variamos la métrica en S como moviendo los puntos de S alrededor. De hecho, este es el punto de vista que tomamos en el ejemplo ilustrativo anterior. En este contexto, la invariancia de isometría significa que nuestro algoritmo de agrupamiento es insensible a rotaciones, reflexiones y traslaciones.SSS

un conjunto de puntos en el plano y dos rotaciones del mismo

Una variante del teorema de Kleinberg

La intuición dada anteriormente es capturada por la siguiente variante del Teorema de Kleinberg.

Teorema: no existe un algoritmo de agrupamiento no trivial invariante de isometría que sea simultáneamente consistente e invariante de escala.

Aquí, mediante un algoritmo de agrupación trivial , me refiero a uno de los dos algoritmos siguientes:

  1. S

  2. S

La afirmación es que estos algoritmos tontos son los únicos dos algoritmos invariantes de isometría que son consistentes e invariantes a escala.

SΓdSd(x,y)=1xySΓΓ(d)Γ(d)Γ(d)Γ(d)dS1dΓ(d)=Γ(d)ΓΓ(d)dS1Γ(d)=Γ(d)Γ

Por supuesto, esta prueba es muy cercana en espíritu a la prueba de Margareta Ackerman del teorema original de Kleinberg, discutido en la respuesta de Alex Williams.

Álgebra Comunicativa
fuente
7

Esta es la intuición que se me ocurrió (un fragmento de mi blog aquí ).

ingrese la descripción de la imagen aquí

d1d2d3d2d3d1d1d3d2d3

Alex Williams
fuente
¿Quieres decir abajo a la izquierda para d2? Una cosa buena de su diagrama es que muestra cómo la consistencia no es una propiedad generalmente deseable (o que está formulada de manera demasiado flexible).
xan
Sí, abajo a la izquierda, editó la respuesta en consecuencia. ¡Gracias!
Alex Williams
Antes de comprender completamente su respuesta, se me ocurrió una lógica que resulta ser la doble de la suya: comience con una agrupación donde todos los puntos estén en el mismo grupo. Transfórmalo en cualquier otro arreglo reduciéndolo a una versión en miniatura de cualquier otro arreglo y ampliándolo a una versión de tamaño completo del otro arreglo.
xan