Buenos recursos en algoritmos de geocodificación

19

¿Conoces algún buen recurso sobre algoritmos de geocodificación?

Estoy particularmente interesado en el análisis de consultas de direcciones, incluidas las partes de coincidencia y ponderación de la consulta, el tratamiento de errores ortográficos y variaciones, así como los detalles sobre el almacenamiento de datos físicos (por ejemplo, esquemas para consultas directas de bases de datos relacionales, enfoques para la indexación de datos, etc.) .

He estudiado algunos documentos sobre la geocodificación de ArcGIS 10, pero tocan un poco los detalles de implementación reales. La documentación detallada de otras implementaciones de producción de alta calidad también podría ser útil. Cuanto más técnico, mejor. Los documentos de algoritmos teóricos también son geniales.

Gracias.

Petr Krebs
fuente

Respuestas:

14

Del texto a las coordenadas geográficas: el estado actual de la geocodificación

Daniel W. Goldberg, John P. Wilson y Craig A. Knoblock Resumen: Este artículo presenta una encuesta sobre el estado del arte en las prácticas de geocodificación a través de una revisión histórica interdisciplinaria de la literatura existente. Exploramos el concepto evolutivo de geocodificación y los componentes fundamentales del proceso. Se discuten las fuentes frecuentes de error e incertidumbre, así como las medidas existentes utilizadas para cuantificarlas. Se presenta un examen de las dificultades comunes y los desafíos persistentes en el proceso de geocodificación, y se describen los métodos tradicionales para superarlos.

10.1.1.119.714.pdf

PDF (página 34 en adelante) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.714&rep=rep1&type=pdf

Mapperz
fuente
Creo que tiene el enlace equivocado, citeseerx.ist.psu.edu/viewdoc/…
Andy W
@gracias 10.1.1.119.714.pdf es la publicación actualizada correcta - una convención de nomenclatura diferente hubiera sido mejor.
Mapperz
6

El documento al que se vincula Mapperz es muy bueno y tiene muchas citas que probablemente serán de interés, pero no creo que hagan un muy buen trabajo al describir la coincidencia de cadenas y su importancia para el proceso de geocodificación. Mencionaron brevemente Soundex , pero Soundex no es la única opción y ni siquiera la mejor opción para las direcciones IMO. Enumeraron bastantes citas que son relevantes para el tema, por lo que esos documentos serán de su interés.

Este hilo en el sitio de intercambio de estadísticas habla sobre la coincidencia difusa de dos conjuntos de cadenas, y todas las mismas técnicas se aplican al hacer coincidir direcciones. Particularmente creo que usar distancias de edición tiene más sentido que Soundex, especialmente con detalles de dirección que no tienen análogo Soundex. Calcular la distancia de Levenshtein entre dos cadenas no es tan complicado, y hay muchos ejemplos flotando en Internet ( aquí hay uno en Python).

Acabo de pasar la última hora tratando de encontrar cómo ESRI implementa su sensibilidad ortográfica y sus diferentes puntajes de candidatos y partidos. No he encontrado nada más que descripciones simples (la mejor de las que encontré en este PDF y la sección de ayuda en línea de 9.3 ). Entonces, si alguien puede señalarme una documentación más detallada, agradecería también el OP.

Andy W
fuente