Formas de lidiar con la función de longitud / latitud [cerrado]

18

Estoy trabajando en un conjunto de datos ficticio con 25 características. Dos de las características son la latitud y longitud de un lugar y otras son valores de pH, elevación, velocidad del viento, etc., con rangos variables. Puedo realizar la normalización en las otras funciones, pero ¿cómo me acerco a las funciones de latitud / longitud?

Editar: Este es un problema para predecir el rendimiento agrícola. Creo que lat / long es muy importante ya que las ubicaciones pueden ser vitales en la predicción y, por lo tanto, en el dilema.

AllThingsScience
fuente
¿Podría aclarar por qué no cree que pueda normalizar esas funciones? Presumiblemente son numéricos iguales a otras características, por lo que puede tomar mean / sd? ¿Le preocupa tener una medida natural de la distancia entre ubicaciones? Si es así, ¿los datos cubren un área pequeña (con valores similares) o es global?
Neil Slater
@NeilSlater Es solo que intuitivamente no tiene sentido normalizar estas funciones. ¿No se perderá la información si se normaliza? Tengo el conjunto de datos que cubre los condados de América.
AllThingsScience
¿Qué información crees que se perderá? Probablemente no se perderá realmente, pero si explica en su pregunta cuál es su preocupación, alguien podrá responder. Sin saber más, simplemente me normalizaría de todos modos: para valores completamente globales y algunos problemas (donde la distancia entre puntos es importante), podría crear una función de coordenadas cartesianas 3d a partir de long / lat.
Neil Slater
¿Cuál es tu pregunta aquí? ¿Qué estás tratando de averiguar a partir de los datos? ¿Correlación? Agrupación? ¿Clasificación? ¿Predicción? ¿Interpolación? ¿Cómo es la ubicación importante para su modelo?
Spacedman
@Spacedman Por favor vea editar.
AllThingsScience

Respuestas:

24

Las coordenadas largas de Lat tienen el problema de que son 2 características que representan un espacio tridimensional. Esto significa que la coordenada larga da la vuelta, lo que significa que los dos valores más extremos están realmente muy juntos. He tratado este problema varias veces y lo que hago en este caso es mapearlos a las coordenadas x, y y z. Esto significa que los puntos cercanos en estas 3 dimensiones también están cerca en realidad. Dependiendo del caso de uso, puede ignorar los cambios de altura y asignarlos a una esfera perfecta. Estas características se pueden estandarizar correctamente.

Para aclarar (resumido de los comentarios):

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 
Jan van der Vegt
fuente
1
Eso es muy interesante. ¡Gracias! ¿Podría confirmar si estas son las fórmulas para la conversión? x = R * cos (lat) * cos (lon), y = R * cos (lat) * sin (lon), z = R * sin (lat)
AllThingsScience
No tengo acceso a mi código en este momento, pero se ve bien. No necesita la R ya que de todos modos estará estandarizando;)
Jan van der Vegt
¡Perfecto! Gracias.
AllThingsScience