¿Cuándo usaría la distancia de Manhattan como opuesta a la distancia euclidiana?

18

Estoy tratando de buscar un buen argumento sobre por qué uno usaría la distancia de Manhattan sobre la distancia euclidiana en Machine Learning.

Lo más cercano que encontré a un buen argumento hasta ahora está en esta conferencia del MIT .

A las 36:15 puede ver en las diapositivas la siguiente declaración:

"Por lo general, use métrica euclidiana; Manhattan puede ser apropiado si las diferentes dimensiones no son comparables. "

Poco después de que el profesor diga que, debido a que el número de patas de un reptil varía de 0 a 4 (mientras que las otras características son binarias, solo varían de 0 a 1), la característica de "número de patas" terminará teniendo un valor mucho mayor peso si se usa la distancia euclidiana. Efectivamente, eso es cierto. Pero uno también tendría ese problema si usara la distancia de Manhattan (solo que el problema se mitigaría ligeramente porque no cuadramos la diferencia como lo hacemos en la distancia euclidiana).

Una mejor manera de resolver el problema anterior sería normalizar la función "número de tramos" para que su valor siempre esté entre 0 y 1.

Por lo tanto, dado que hay una mejor manera de resolver el problema, parecía que el argumento de utilizar la distancia de Manhattan en este caso carecía de un punto más fuerte, al menos en mi opinión.

¿Alguien sabe realmente por qué y cuándo alguien usaría la distancia de Manhattan sobre Euclidiana? ¿Alguien puede darme un ejemplo en el que el uso de la distancia de Manhattan arrojaría mejores resultados?

Tiago
fuente

Respuestas:

4

Según este interesante artículo, la distancia de Manhattan (norma L1) puede ser preferible a la distancia euclidiana (norma L2) para el caso de datos de alta dimensión:

https://bib.dbvis.de/uploadedFiles/155.pdf

Los autores del artículo incluso van un paso más allá y sugieren utilizar distancias de la norma Lk, con un valor fraccional de k, para datos dimensionales muy altos con el fin de mejorar los resultados de algoritmos basados ​​en la distancia, como el agrupamiento.

Pablo Suau
fuente
stats.stackexchange.com/a/99191 proporciona una respuesta más completa
micrófono
3

Puedo sugerir un par de ideas, de wikipedia .

  1. Si desea poner menos énfasis en los valores atípicos, la distancia de Manhattan intentará reducir todos los errores por igual, ya que el gradiente tiene una magnitud constante.
  2. Si su ruido se distribuye laplaciano, el MLE se encuentra minimizando la estimación de Manhattan.
Jacques Kvam
fuente
3

Encontré algo que podría ser intuición sobre este problema en Aprendizaje automático práctico con Scikit-Learn y TensorFlow

Tanto el RMSE como el MAE son formas de medir la distancia entre dos vectores: el vector de predicciones y el vector de valores objetivo. Son posibles varias medidas de distancia, o normas:

  • Calcular la raíz de una suma de cuadrados (RMSE) corresponde a la norma euclidiana: es la noción de distancia con la que está familiarizado. También se llama la norma ℓ2 (...)

  • Calcular la suma de los absolutos (MAE) corresponde a la norma ℓ1, (...). A veces se le llama la norma de Manhattan porque mide la distancia entre dos puntos en una ciudad si solo puede viajar a lo largo de manzanas ortogonales.

  • En términos más generales, (...) just 0 solo da el número de elementos distintos de cero en el vector, y ℓ∞ da el valor absoluto máximo en el vector.

  • Cuanto más alto es el índice de la norma, más se enfoca en los valores grandes y descuida los pequeños. Es por eso que el RMSE es más sensible a los valores atípicos que el MAE. Pero cuando los valores atípicos son exponencialmente raros (como en una curva en forma de campana), el RMSE funciona muy bien y generalmente se prefiere.

Damian Melniczuk
fuente
2

El uso de la distancia de Manhattan depende mucho del tipo de sistema de coordenadas que esté utilizando su conjunto de datos. Mientras que la distancia euclidiana da la distancia más corta o mínima entre dos puntos, Manhattan tiene implementaciones específicas.

Por ejemplo, si tuviéramos que usar un conjunto de datos de Ajedrez, el uso de la distancia de Manhattan es más apropiado que la distancia euclidiana. Otro uso sería cuando estén interesados ​​en conocer la distancia entre casas que están a pocas cuadras de distancia.

Además, es posible que desee considerar la distancia de Manhattan si las variables de entrada no son similares en tipo (como edad, género, altura, etc.). Debido a la maldición de la dimensionalidad, sabemos que la distancia euclidiana se convierte en una mala elección a medida que aumenta el número de dimensiones.

En pocas palabras: la distancia de Manhattan generalmente funciona solo si los puntos están dispuestos en forma de cuadrícula y el problema en el que estamos trabajando da más prioridad a la distancia entre los puntos solo junto con las cuadrículas, pero no la distancia geométrica.

Saurabh Jain
fuente