Tengo conjuntos de datos que contienen, entre muchas características, coordenadas GPS (latitud y longitud). Me gustaría utilizar estos conjuntos de datos para explorar problemas como: (1) calcular ETA para conducir entre los puntos de inicio y finalización; y (2) estimar la cantidad de delito para un punto específico.
Me gustaría usar un modelo de regresión lineal. Sin embargo, ¿puedo usar estas coordenadas GPS directamente en un modelo lineal?
La latitud y la longitud no tienen una propiedad ordinal , como la edad de una persona. Por ejemplo, los dos puntos (40.805996, -96.681473) y (41.226682, -95.986587) no parecen tener ningún orden significativo. Son solo puntos en el espacio. Estaba pensando en reemplazarlos con códigos postales categóricos de EE. UU. Y luego en hacer una codificación única , pero eso daría lugar a muchas variables.
fuente
Respuestas:
No puede usarlos directamente, ya que es poco probable que haya una relación lineal verdadera a menos que esté buscando predecir "qué tan lejos al este o al norte" está alguien. Como se menciona en los comentarios, debe convertirlos en zonas. Si desea que sea realmente simple, puede usar un algoritmo de agrupación kNN con un bajo número de clústeres potenciales y luego asignar a cada instancia una nueva función con la ID del clúster, y luego codificarla en caliente.
También es posible que desee leer acerca de cómo las personas interpolan las coordenadas para predecir los valores en todo un mapa. El primer ejemplo es con estaciones de temperatura, pero también puede imaginarse que son "zonas calientes" para el crimen.
( DOCS )
fuente
Podrías hacer lo que tu corazón desee, pero a menos que tu modelo prediga la temperatura o la diferencia de tiempo, no puedo encontrar ninguna otra variable objetivo que dependa únicamente de las coordenadas.
Lo que probablemente quiera hacer es usar una fuente de datos externa y enriquecer sus datos con País / Código postal / clima / otras características geográficas que ayudarán a su modelo a funcionar.
fuente
Las coordenadas GPS se pueden convertir directamente a un geohash . Geohash divide la Tierra en "cubos" de diferente tamaño según el número de dígitos (los códigos cortos de Geohash crean áreas grandes y códigos más largos para áreas más pequeñas).
Un geohash es un número único que se puede usar como una característica en un modelo.
Geohash se aplica solo a todo el mundo, los códigos postales no.
fuente