Al realizar la agrupación jerárquica, se pueden usar muchas métricas para medir la distancia entre las agrupaciones. Dos de estas métricas implican el cálculo de los centroides y las medias de los puntos de datos en los grupos.
¿Cuál es la diferencia entre la media y el centroide? ¿No son estos el mismo punto en el clúster?
Hasta donde sé, la "media" de un grupo y el centroide de un solo grupo son la misma cosa, aunque el término "centroide" podría ser un poco más preciso que "media" cuando se trata de datos multivariados.
Para encontrar el centroide, se calcula la media (aritmética) de las posiciones de los puntos por separado para cada dimensión. Por ejemplo, si tuviera puntos en:
(-1, 10, 3),
(0, 5, 2) y
(1, 20, 10),
entonces el centroide se ubicaría en ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), lo que simplifica (0, 11 2/3, 5) (Nota: el centroide no tiene que ser, y rara vez es, uno de los puntos de datos originales)
El centroide también se denomina a veces el centro de masa o baricentro, en función de su interpretación física (es el centro de masa de un objeto definido por los puntos). Al igual que la media, la ubicación del centroide minimiza la distancia al cuadrado de los otros puntos.
Una idea relacionada es el medoide , que es el punto de datos que es "menos diferente" de todos los otros puntos de datos. A diferencia del centroide, el medoide tiene que ser uno de los puntos originales. También puede interesarle la mediana geométrica, que es análoga a la mediana, pero para datos multivariados. Ambos son diferentes del centroide.
UNAsicentroide ( A )centroide ( B )unayoUNAdist (ayo,b1)dist ( ayo, b2)dist ( ayo, bnorte)
¿En qué condiciones el centroide y el medoide son idénticos? ¿Y también por qué el centroide es un buen representante de un conjunto de puntos?
raikumardipak
@dkr, es posible que desee hacer esto como una nueva pregunta para obtener más (y más en profundidad) respuestas. Dicho esto, la diferencia se reduce a dos cosas: 1) lo que se debe minimizar (distancia al cuadrado / norma L2 para el centroide, distancia absoluta / norma L1 para el mediod) y 2) si la salida puede ser cualquier punto (centroide) o debe estar en el conjunto de datos (mediod). Puedes imaginar casos en los que serán iguales, pero en general no lo serán. El centroide es "bueno" por las mismas razones que la media es (la distancia al cuadrado más pequeña a los puntos) y también tiene inconvenientes similares (por ejemplo, no es robusto frente a los valores atípicos).
Matt Krause
4
La respuesta anterior puede ser incorrecta. Vea este video: https://www.youtube.com/watch?v=VMyXc3SiEqs Parece que el promedio suma todas las combinaciones de distancias entre los elementos del grupo 1 y el grupo 2, es decir, n ^ 2 distancias se suman y luego se divide por n ^ 2 para el promedio.
El método centroide primero calcula el promedio de cada grupo dentro de sí mismo. Luego calcula una distancia entre esos puntos promedio.
Hola gabe ¿Creo que estás hablando de esta parte del video? Hasta donde yo sé, el centroide y la media de un solo grupo son lo mismo pero, como usted señaló, la distancia del centroide y la distancia promedio entre dos grupos son medidas diferentes. Pensé que el OP estaba preguntando sobre el primero, pero también edité un poco sobre el último. ¡Gracias por señalarlo (+1) y bienvenido a Cross Validated!
Matt Krause
-1
el centroide es el promedio de los puntos de datos en un grupo, el punto centroide no necesita estar presente en el conjunto de datos, mientras que medoid es el punto de datos que está más cerca del centroide, el medoide debe estar presente en los datos originales
La respuesta anterior puede ser incorrecta. Vea este video: https://www.youtube.com/watch?v=VMyXc3SiEqs Parece que el promedio suma todas las combinaciones de distancias entre los elementos del grupo 1 y el grupo 2, es decir, n ^ 2 distancias se suman y luego se divide por n ^ 2 para el promedio.
El método centroide primero calcula el promedio de cada grupo dentro de sí mismo. Luego calcula una distancia entre esos puntos promedio.
fuente
el centroide es el promedio de los puntos de datos en un grupo, el punto centroide no necesita estar presente en el conjunto de datos, mientras que medoid es el punto de datos que está más cerca del centroide, el medoide debe estar presente en los datos originales
fuente