Estoy tratando de buscar un buen argumento sobre por qué uno usaría la distancia de Manhattan sobre la distancia euclidiana en Machine Learning.
Lo más cercano que encontré a un buen argumento hasta ahora está en esta conferencia del MIT .
A las 36:15 puede ver en las diapositivas la siguiente declaración:
"Por lo general, use métrica euclidiana; Manhattan puede ser apropiado si las diferentes dimensiones no son comparables. "
Poco después de que el profesor diga que, debido a que el número de patas de un reptil varía de 0 a 4 (mientras que las otras características son binarias, solo varían de 0 a 1), la característica de "número de patas" terminará teniendo un valor mucho mayor peso si se usa la distancia euclidiana. Efectivamente, eso es cierto. Pero uno también tendría ese problema si usara la distancia de Manhattan (solo que el problema se mitigaría ligeramente porque no cuadramos la diferencia como lo hacemos en la distancia euclidiana).
Una mejor manera de resolver el problema anterior sería normalizar la función "número de tramos" para que su valor siempre esté entre 0 y 1.
Por lo tanto, dado que hay una mejor manera de resolver el problema, parecía que el argumento de utilizar la distancia de Manhattan en este caso carecía de un punto más fuerte, al menos en mi opinión.
¿Alguien sabe realmente por qué y cuándo alguien usaría la distancia de Manhattan sobre Euclidiana? ¿Alguien puede darme un ejemplo en el que el uso de la distancia de Manhattan arrojaría mejores resultados?
Puedo sugerir un par de ideas, de wikipedia .
fuente
Encontré algo que podría ser intuición sobre este problema en Aprendizaje automático práctico con Scikit-Learn y TensorFlow
fuente
El uso de la distancia de Manhattan depende mucho del tipo de sistema de coordenadas que esté utilizando su conjunto de datos. Mientras que la distancia euclidiana da la distancia más corta o mínima entre dos puntos, Manhattan tiene implementaciones específicas.
Por ejemplo, si tuviéramos que usar un conjunto de datos de Ajedrez, el uso de la distancia de Manhattan es más apropiado que la distancia euclidiana. Otro uso sería cuando estén interesados en conocer la distancia entre casas que están a pocas cuadras de distancia.
Además, es posible que desee considerar la distancia de Manhattan si las variables de entrada no son similares en tipo (como edad, género, altura, etc.). Debido a la maldición de la dimensionalidad, sabemos que la distancia euclidiana se convierte en una mala elección a medida que aumenta el número de dimensiones.
En pocas palabras: la distancia de Manhattan generalmente funciona solo si los puntos están dispuestos en forma de cuadrícula y el problema en el que estamos trabajando da más prioridad a la distancia entre los puntos solo junto con las cuadrículas, pero no la distancia geométrica.
fuente