No soy un ecologista comunitario, pero en estos días estoy trabajando en datos de ecología comunitaria.
Lo que no pude entender, aparte de las matemáticas de estas distancias, es el criterio para cada distancia a usar y en qué situaciones se puede aplicar. Por ejemplo, ¿qué usar con los datos de conteo? ¿Cómo convertir el ángulo de pendiente entre dos ubicaciones en una distancia? ¿O la temperatura o la lluvia en dos lugares? ¿Cuáles son los supuestos para cada distancia y cuándo tiene sentido?
Respuestas:
Desafortunadamente, en la mayoría de las situaciones no hay una respuesta clara a su pregunta. Es decir, para cualquier aplicación dada, seguramente hay muchas métricas de distancia que producirán respuestas similares y precisas. Teniendo en cuenta que hay docenas, y probablemente cientos, de métricas de distancia válidas que se utilizan activamente, la noción de que puede encontrar la distancia "correcta" no es una forma productiva de pensar sobre el problema de seleccionar una métrica de distancia adecuada.
En cambio, me enfocaría en no elegir la métrica de distancia incorrecta . ¿Desea que su distancia refleje "magnitud absoluta" (por ejemplo, está interesado en usar la distancia para identificar acciones que tienen valores medios similares) o para reflejar la forma general de la respuesta (por ejemplo, precios de acciones que fluctúan de manera similar con el tiempo, pero puede tener valores en bruto completamente diferentes) El primer escenario indicaría distancias como Manhattan y Euclidiana, mientras que el segundo indicaría la distancia de correlación, por ejemplo.
Si conoce la estructura de covarianza de sus datos, entonces la distancia de Mahalanobis es probablemente más apropiada. Para datos puramente categóricos hay muchas distancias propuestas, por ejemplo, distancia de coincidencia. Para la categoría mixta y continua, la distancia de Gower es popular (aunque, en mi opinión, algo teóricamente insatisfactoria).
Finalmente, en mi opinión, su análisis se fortalecerá si demuestra que sus resultados y conclusiones son sólidos para la elección de la métrica de distancia (dentro del subconjunto de distancias apropiadas, por supuesto). Si su análisis cambia drásticamente con cambios sutiles en la métrica de distancia utilizada, se deben realizar más estudios para identificar la razón de la inconsistencia.
fuente
correlation distance
? 1- r ?reflect overall shape of the response
en sus palabras.Elegir la distancia correcta no es una tarea elemental. Cuando deseamos hacer un análisis de conglomerados en un conjunto de datos, pueden aparecer resultados diferentes usando distancias diferentes, por lo que es muy importante tener cuidado en qué distancia elegir, porque podemos hacer un falso buen artefacto que capture bien la variabilidad, pero en realidad sin sentido en nuestro problema.
La distancia euclidiana es apropiada cuando tengo variables numéricas continuas y quiero reflejar distancias absolutas. Esta distancia tiene en cuenta todas las variables y no elimina las redundancias, por lo que si tuviera tres variables que explican lo mismo (están correlacionadas), pondería este efecto en tres. Además, esta distancia no es invariante de escala, por lo que generalmente tengo que escalar previamente para usar la distancia.
Ejemplo de ecología: tenemos diferentes observaciones de muchas localidades, de las cuales los expertos han tomado muestras de algunos factores microbiológicos, físicos y químicos. Queremos encontrar patrones en los ecosistemas. Estos factores tienen una alta correlación, pero sabemos que todos son relevantes, por lo que no queremos eliminar estas redundancias. Utilizamos la distancia euclidiana con datos escalados para evitar el efecto de las unidades.
La distancia de Mahalanobis es apropiada cuando tengo variables numéricas continuas y quiero reflejar distancias absolutas, pero queremos eliminar las redundancias. Si tenemos variables repetidas, su efecto repetitivo desaparecerá.
La distancia familiar Hellinger , Species Profile y Chord es apropiada cuando queremos hacer énfasis en las diferencias entre variables, cuando queremos diferenciar los perfiles. Estas distancias pesan en cantidades totales de cada observación, de tal manera que las distancias son pequeñas cuando variable por variable los individuos son más similares, aunque en magnitudes absolutas fue muy diferente. ¡Cuidado! Estas distancias reflejan muy bien la diferencia entre perfiles, pero perdieron el efecto de magnitud. Podrían ser muy útiles cuando tenemos diferentes tamaños de muestra.
Ejemplo de ecología: queremos estudiar la fauna de muchas tierras y tenemos una matriz de datos de un inventario del gasterópodo (ubicaciones de muestreo en filas y nombres de especies en columnas). La matriz se caracteriza por tener muchos ceros y diferentes magnitudes porque algunas localidades tienen algunas especies y otras tienen otras especies. Podríamos usar la distancia Hellinger.
Bray-Curtis es bastante similar, pero es más apropiado cuando queremos diferenciar perfiles y también tener en cuenta las magnitudes relativas.
fuente
Con respecto a la distancia de Manhattan: Kaufman, Leonard y Peter J. Rousseeuw. "Encontrar grupos en datos: una introducción al análisis de conglomerados". (2005)
fuente