¿Usar OGR y Shapely de manera más eficiente? [cerrado]

29

Estoy buscando algunas sugerencias sobre cómo hacer que mi código de Python sea más eficiente. Normalmente, la eficiencia no me importa, pero ahora estoy trabajando con un archivo de texto de ubicaciones de EE. UU. Con más de 1,5 millones de puntos. Con la configuración dada, se tarda unos 5 segundos en ejecutar operaciones en un punto; Necesito bajar esta cifra.

Estoy usando tres paquetes diferentes de Python GIS para hacer algunas operaciones diferentes en los puntos y generar un nuevo archivo de texto delimitado.

  1. Utilizo OGR para leer un archivo de forma de límite de condado y obtener acceso a la geometría de límite.
  2. Comprobaciones bien proporcionadas para ver si un punto está dentro de alguno de estos condados.
  3. Si está dentro de uno, uso la biblioteca de archivos de forma de Python para extraer información de atributos del límite .dbf.
  4. Luego escribo información de ambas fuentes en un archivo de texto.

Sospecho que la ineficiencia radica en tener un ciclo de 2-3 niveles ... no estoy muy seguro de qué hacer al respecto. Particularmente busco ayuda con alguien con experiencia en el uso de cualquiera de estos 3 paquetes, ya que es la primera vez que uso alguno de ellos.

import os, csv
from shapely.geometry import Point
from shapely.geometry import Polygon
from shapely.wkb import loads
from osgeo import ogr
import shapefile

pointFile = "C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\NationalFile_20110404.txt"
shapeFolder = "C:\NSF_Stuff\NLTK_Scripts\Gazetteer_New"
#historicBounds = "C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\US_Counties_1860s_NAD"
historicBounds = "US_Counties_1860s_NAD"
writeFile = "C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\NewNational_Gazet.txt"

#opens the point file, reads it as a delimited file, skips the first line
openPoints = open(pointFile, "r")
reader = csv.reader(openPoints, delimiter="|")
reader.next()

#opens the write file
openWriteFile = open(writeFile, "w")

#uses Python Shapefile Library to read attributes from .dbf
sf = shapefile.Reader("C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\US_Counties_1860s_NAD.dbf")
records = sf.records()
print "Starting loop..."

#This will loop through the points in pointFile    
for row in reader:
    print row
    shpIndex = 0
    pointX = row[10]
    pointY = row[9]
    thePoint = Point(float(pointX), float(pointY))
    #This section uses OGR to read the geometry of the shapefile
    openShape = ogr.Open((str(historicBounds) + ".shp"))
    layers = openShape.GetLayerByName(historicBounds)
    #This section loops through the geometries, determines if the point is in a polygon
    for element in layers:
        geom = loads(element.GetGeometryRef().ExportToWkb())
        if geom.geom_type == "Polygon":
            if thePoint.within(geom) == True:
                print "!!!!!!!!!!!!! Found a Point Within Historic !!!!!!!!!!!!"
                print str(row[1]) + ", " + str(row[2]) + ", " + str(row[5]) + " County, " + str(row[3])
                print records[shpIndex]
                openWriteFile.write((str(row[0]) + "|" + str(row[1]) + "|" + str(row[2]) + "|" + str(row[5]) + "|" + str(row[3]) + "|" + str(row[9]) + "|" + str(row[10]) + "|" + str(records[shpIndex][3]) + "|" + str(records[shpIndex][9]) + "|\n"))
        if geom.geom_type == "MultiPolygon":
            for pol in geom:
                if thePoint.within(pol) == True:
                    print "!!!!!!!!!!!!!!!!! Found a Point Within MultiPolygon !!!!!!!!!!!!!!"
                    print str(row[1]) + ", " + str(row[2]) + ", " + str(row[5]) + " County, " + str(row[3])
                    print records[shpIndex]
                    openWriteFile.write((str(row[0]) + "|" + str(row[1]) + "|" + str(row[2]) + "|" + str(row[5]) + "|" + str(row[3]) + "|" + str(row[9]) + "|" + str(row[10]) + "|" + str(records[shpIndex][3]) + "|" + str(records[shpIndex][9]) + "|\n"))
        shpIndex = shpIndex + 1
    print "finished checking point"
    openShape = None
    layers = None


pointFile.close()
writeFile.close()
print "Done"
GrantD
fuente
3
Puede considerar publicar esta revisión de código @: codereview.stackexchange.com
RyanDalton

Respuestas:

21

El primer paso sería mover el archivo de forma abierto fuera del bucle de filas, está abriendo y cerrando el archivo de forma 1.5 millones de veces.

Para ser honesto, aunque incluiría todo en PostGIS y lo haría usando SQL en tablas indexadas.

Ian Turton
fuente
19

Un vistazo rápido a su código le recuerda algunas optimizaciones:

  • Verifique cada punto contra el cuadro delimitador / envolvente de los polígonos primero, para eliminar valores atípicos obvios. Podría ir un paso más allá y contar la cantidad de bboxes en que se encuentra un punto, si es exactamente uno, entonces no necesita ser probado contra la geometría más compleja (bueno, en realidad lo será si se encuentra en más que uno, tendrá que probarse más. Podría hacer dos pases para eliminar los casos simples de los casos complejos).

  • En lugar de recorrer cada punto y probarlo contra polígonos, recorre los polígonos y prueba cada punto. La carga / conversión de la geometría es lenta, por lo que debe hacerlo lo menos posible. Además, cree una lista de Puntos desde el CSV inicialmente, nuevamente para evitar tener que hacerlo varias veces por punto y luego descarte los resultados al final de esa iteración.

  • Indice espacialmente sus puntos, lo que implica convertirlo en un archivo shape, un archivo SpatialLite o algo así como una base de datos PostGIS / PostgreSQL . Esto tiene la ventaja de que herramientas como OGR podrán hacer la mayor parte del trabajo por usted.

  • No escriba la salida hasta el final: print () es una función costosa en el mejor de los casos. En su lugar, almacene los datos como una lista y escríbalos al final usando las funciones estándar de decapado de Python o las funciones de volcado de listas.

MerseyViking
fuente
55
Los dos primeros pagarán en grande. También podría acelerar un poco las cosas usando ogr para todo en lugar de Shapely y Shapefile.
sgillies
2
Para cualquier cosa relacionada con "Python" e "índice espacial", no busque más que Rtree, ya que es muy rápido para encontrar formas cerca de otras formas
Mike T