Convertir matriz de similitud a matriz de distancia (euclidiana)

27

En el algoritmo de bosque aleatorio, Breiman (autor) construye una matriz de similitud de la siguiente manera:

  1. Envíe todos los ejemplos de aprendizaje a cada árbol del bosque

  2. Si dos ejemplos aterrizan en la misma hoja, incremente el elemento correspondiente en la matriz de similitud en 1

  3. Normalizar la matriz con el número de árboles.

Él dice:

Las proximidades entre los casos n y k forman una matriz {prox (n, k)}. Desde su definición, es fácil demostrar que esta matriz es simétrica, positiva definida y acotada arriba por 1, con los elementos diagonales iguales a 1. Se deduce que los valores 1-prox (n, k) son distancias al cuadrado en un Euclidiano espacio de dimensión no mayor que el número de casos. Fuente

En su implementación, usa sqrt (1-prox) , donde prox es una matriz de similitud, para convertirla en matriz de distancia. Supongo que tiene algo que ver con las "distancias cuadradas en un espacio euclidiano", citado anteriormente.

¿Alguien puede arrojar algo de luz sobre por qué se deduce que 1-prox son distancias cuadradas en un espacio euclidiano y por qué usa la raíz cuadrada para obtener la matriz de distancia?

Uros K
fuente

Respuestas:

30

ingrese la descripción de la imagen aquí

re122=h12+h22-2h1h2cosϕh12h22h1h2cosϕ (= producto puntual, = producto interno) de los vectores 1 y 2.

El producto escalar también se llama similitud de tipo angular entre 1 y 2, y en el espacio euclidiano es geométricamente la medida de similitud más válida , porque se convierte fácilmente a la distancia euclidiana y viceversa (ver también aquí ).

h2cosϕrσ1σ2r12espacio de sujeto "forma de representación. El teorema del coseno sigue siendo cierto independientemente de lo que se tome como" vectores "en este caso: puntos de datos o características de datos.]

hsre2=2(1-s)re2re2=1-srr

sshre

ttnphns
fuente