¿Se pueden usar las coordenadas GPS (latitud y longitud) como características en un modelo lineal?

10

Tengo conjuntos de datos que contienen, entre muchas características, coordenadas GPS (latitud y longitud). Me gustaría utilizar estos conjuntos de datos para explorar problemas como: (1) calcular ETA para conducir entre los puntos de inicio y finalización; y (2) estimar la cantidad de delito para un punto específico.

Me gustaría usar un modelo de regresión lineal. Sin embargo, ¿puedo usar estas coordenadas GPS directamente en un modelo lineal?

La latitud y la longitud no tienen una propiedad ordinal , como la edad de una persona. Por ejemplo, los dos puntos (40.805996, -96.681473) y (41.226682, -95.986587) no parecen tener ningún orden significativo. Son solo puntos en el espacio. Estaba pensando en reemplazarlos con códigos postales categóricos de EE. UU. Y luego en hacer una codificación única , pero eso daría lugar a muchas variables.

stackoverflowuser2010
fuente
1
¿Tienes que usarlos directamente ? ¿Has oído hablar de herramientas de zonificación, como el algoritmo AZP de S. Openshaw? Incluso podría delimitar manualmente regiones en un mapa para separar regiones / zonas, si el área es relativamente consistente.
Mephy
@Mephy: Eso significaría que convertiría lat / long a zonas, ¿verdad? Pero entonces tendría cientos o miles de zonas categóricas, al igual que con los códigos postales. Tendría que codificarlos en caliente.
stackoverflowuser2010
Depende de cómo cortes las zonas, por supuesto. Si elige "al sur de la línea ecuatorial / norte de la línea ecuatorial", entonces son solo dos. Muchos algoritmos de zonificación tienen algunos hiperparámetros para definir cantidades como el número de zonas o el tamaño mínimo de zona.
Mephy
Tengo el mismo problema. Quiero predecir la posición de un pueblo. He geohashed todas las características de geolocalización en los datos de entrenamiento. Después de eso, LabelDecoder se usa para transformar la función de ubicación categórica. Finalmente, el resultado es terrible. ¿Hay alguna buena idea para lidiar con la predicción espacial?
berisfu

Respuestas:

5

No puede usarlos directamente, ya que es poco probable que haya una relación lineal verdadera a menos que esté buscando predecir "qué tan lejos al este o al norte" está alguien. Como se menciona en los comentarios, debe convertirlos en zonas. Si desea que sea realmente simple, puede usar un algoritmo de agrupación kNN con un bajo número de clústeres potenciales y luego asignar a cada instancia una nueva función con la ID del clúster, y luego codificarla en caliente.

También es posible que desee leer acerca de cómo las personas interpolan las coordenadas para predecir los valores en todo un mapa. El primer ejemplo es con estaciones de temperatura, pero también puede imaginarse que son "zonas calientes" para el crimen.

( DOCS )

CalZ
fuente
2

Podrías hacer lo que tu corazón desee, pero a menos que tu modelo prediga la temperatura o la diferencia de tiempo, no puedo encontrar ninguna otra variable objetivo que dependa únicamente de las coordenadas.

Lo que probablemente quiera hacer es usar una fuente de datos externa y enriquecer sus datos con País / Código postal / clima / otras características geográficas que ayudarán a su modelo a funcionar.

GregA
fuente
0

Las coordenadas GPS se pueden convertir directamente a un geohash . Geohash divide la Tierra en "cubos" de diferente tamaño según el número de dígitos (los códigos cortos de Geohash crean áreas grandes y códigos más largos para áreas más pequeñas).

Un geohash es un número único que se puede usar como una característica en un modelo.

Geohash se aplica solo a todo el mundo, los códigos postales no.

Brian Spiering
fuente
La salida de un geohasher es una cadena, no un solo número, ¿verdad? Y si el geohash es una cadena, entonces tendría que codificarla en caliente, lo que daría lugar a muchas variables, al igual que con un código postal codificado en caliente.
stackoverflowuser2010
Un geohash es un número único, codificado en la base 32. No hay razón para codificar en caliente. Elija el nivel de precisión y use el número relevante de dígitos.
Brian Spiering
Solo he visto representaciones de cadenas de geohashes. Sin embargo, incluso si las geohashes se representaron como un int largo, ¿hay alguna relación lineal entre ellas para usar en un modelo lineal? Ese es exactamente el punto de mi pregunta original.
stackoverflowuser2010
La relación entre geohashes es ligeramente compleja - es.wikipedia.org/wiki/Geohash#Design
Brian Spiering
1
Hay muchas formas de ingeniería de características más allá de la codificación lineal y en caliente. Por ejemplo, el truco del núcleo o la transformación de Helmert.
Brian Spiering