He estado pensando en escribir una publicación de blog sobre este interesante análisis de Kleinberg (2002) que explora la dificultad de la agrupación. Kleinberg describe tres desideratas aparentemente intuitivas para una función de agrupamiento y luego demuestra que no existe tal función. Hay muchos algoritmos de agrupamiento que satifican dos de los tres criterios; sin embargo, ninguna función puede satisfacer los tres simultáneamente.
Breve e informalmente, las tres desideratas que describe son:
- Escala-Invarianza : si transformamos los datos para que todo se extienda por igual en todas las direcciones, entonces el resultado de la agrupación no debería cambiar.
- Consistencia : si estiramos los datos para que las distancias entre los grupos aumenten y / o las distancias dentro de los grupos disminuyan, entonces el resultado de la agrupación no debería cambiar.
- Riqueza : en teoría, la función de agrupación debería ser capaz de producir cualquier partición / agrupación arbitraria de puntos de datos (en ausencia de conocer la distancia por pares entre dos puntos)
Preguntas:
(1) ¿Existe una buena intuición, una imagen geométrica que pueda mostrar la inconsistencia entre estos tres criterios?
(2) Esto se refiere a detalles técnicos del documento. Tendrá que leer el enlace de arriba para comprender esta parte de la pregunta.
En el documento, la prueba del teorema 3.1 es un poco difícil de seguir en algunos puntos. Estoy atascado en: "Sea una función de agrupación que satisfaga la coherencia. Afirmamos que para cualquier partición , existen números reales positivos modo que el par es - forzando ".
No veo cómo puede ser el caso ... ¿No es la partición debajo de un contraejemplo donde (es decir, la distancia mínima entre grupos es mayor que la distancia máxima dentro de grupos)?
Editar: esto claramente no es un contraejemplo, me estaba confundiendo a mí mismo (ver respuestas).
Otros papeles:
- Ackerman y Ben-David (2009). Medidas de calidad de la agrupación: un conjunto de axiomas de trabajo para la agrupación
- Señala algunos problemas con el axioma de "consistencia"
fuente
Respuestas:
De una forma u otra, cada algoritmo de agrupamiento se basa en alguna noción de "proximidad" de puntos. Parece intuitivamente claro que puede usar una noción relativa (invariante de escala) o una noción de proximidad absoluta (consistente), pero no ambas .
Primero intentaré ilustrar esto con un ejemplo, y luego diré cómo esta intuición encaja con el Teorema de Kleinberg.
Un ejemplo ilustrativo
Supongamos que tenemos dos conjuntos y S 2 de 270 puntos cada uno, dispuestos en el plano de esta manera:S1 S2 270
Es posible que no vea puntos en ninguna de estas imágenes, pero eso es solo porque muchos de los puntos están muy juntos. Vemos más puntos cuando hacemos zoom:270
Probablemente estará de acuerdo espontáneamente en que, en ambos conjuntos de datos, los puntos están organizados en tres grupos. Sin embargo, resulta que si hace zoom en cualquiera de los tres grupos de , verá lo siguiente:S2
Si crees en una noción absoluta de proximidad, o en la consistencia, seguirás manteniendo que, independientemente de lo que acabas de ver bajo el microscopio, consta de solo tres grupos. De hecho, la única diferencia entre S 1 y S 2 es que, dentro de cada grupo, algunos puntos ahora están más juntos. Si, por otro lado, crees en una noción relativa de proximidad, o en una invariancia de escala, te sentirás inclinado a argumentar que S 2 consiste no en 3 sino en 3 × 3 = 9 grupos. Ninguno de estos puntos de vista es incorrecto, pero debe elegir de una forma u otra.S2 S1 S2 S2 3 3×3=9
Un caso de invariancia de isometría
Si compara la intuición anterior con el teorema de Kleinberg, encontrará que están ligeramente en desacuerdo. De hecho, el teorema de Kleinberg parece decir que usted puede lograr invariancia de escala y consistencia al mismo tiempo, siempre y cuando no se preocupan por una tercera propiedad llamada riqueza. Sin embargo, la riqueza no es la única propiedad que pierde si simultáneamente insiste en la invariancia de escala y la coherencia. También pierde otra propiedad más fundamental: la isometría-invariancia. Esta es una propiedad que no estaría dispuesto a sacrificar. Como no aparece en el documento de Kleinberg, me detendré en él por un momento.
En resumen, un algoritmo de agrupación es invariante en isometría si su salida depende solo de las distancias entre puntos, y no de alguna información adicional, como etiquetas que adhiere a sus puntos, o de un orden que impone a sus puntos. Espero que esto parezca una condición muy leve y muy natural. Todos los algoritmos discutidos en el artículo de Kleinberg son invariantes de isometría, excepto el algoritmo de enlace único con la condición de detención del clúster . Según la descripción de Kleinberg, este algoritmo utiliza un orden lexicográfico de los puntos, por lo que su salida puede depender de cómo los etiquete. Por ejemplo, para un conjunto de tres puntos equidistantes, la salida del algoritmo de enlace único con el 2k 2 - la condición de detención del clúster dará diferentes respuestas según si etiquetas tus tres puntos como "gato", "perro", "ratón" (c <d <m) o como "Tom", "Spike", "Jerry" (J <S <T):
Este comportamiento antinatural puede, por supuesto, repararse fácilmente reemplazando la condición de detención del clúster con una “condición de detención del clúster ( ≤ k ) ”. La idea es simplemente no romper los lazos entre los puntos equidistantes, y dejar de fusionar grupos tan pronto como hayamos llegado a la mayoría de los k grupos. Este algoritmo reparado seguirá produciendo k grupos la mayor parte del tiempo, y será invariante de isometría e invariante de escala. De acuerdo con la intuición dada anteriormente, sin embargo, ya no será consistente.k (≤k) k k
Para una definición precisa de la invariancia de isometría, recuerde que Kleinberg define un algoritmo de agrupamiento en un conjunto finito como un mapa que asigna a cada métrica en S una partición de S : Γ : { métricas en S } → { particiones de S }S S S
Unaisometría i entre dos métricas d y d ′ en S es una permutación i : S → S tal que d ′ ( i ( x ) , i ( y ) ) = d ( x , y ) para todos puntos x y y en S .
Cuando pensamos en algoritmos de agrupamiento, a menudo identificamos el conjunto abstracto con un conjunto concreto de puntos en el plano, o en algún otro espacio ambiental, e imaginamos que variamos la métrica en S como moviendo los puntos de S alrededor. De hecho, este es el punto de vista que tomamos en el ejemplo ilustrativo anterior. En este contexto, la invariancia de isometría significa que nuestro algoritmo de agrupamiento es insensible a rotaciones, reflexiones y traslaciones.S S S
Una variante del teorema de Kleinberg
La intuición dada anteriormente es capturada por la siguiente variante del Teorema de Kleinberg.
Aquí, mediante un algoritmo de agrupación trivial , me refiero a uno de los dos algoritmos siguientes:
La afirmación es que estos algoritmos tontos son los únicos dos algoritmos invariantes de isometría que son consistentes e invariantes a escala.
Por supuesto, esta prueba es muy cercana en espíritu a la prueba de Margareta Ackerman del teorema original de Kleinberg, discutido en la respuesta de Alex Williams.
fuente
Esta es la intuición que se me ocurrió (un fragmento de mi blog aquí ).
fuente