Para "fines de alquiler", tengo que especificar los recursos informáticos que necesito del centro informático de mi universidad. Tengo muy poca idea de qué pedir.
Teniendo en cuenta la siguiente información, ¿puede sugerir algo?
Este es el clúster computacional: "Un servidor de diez blades con cada blade que consta de 2 CPU de cuatro núcleos Intel Xeon 2.33 Ghz con 16 GB de memoria para un total de 80 CPU y 160 GB de memoria. Cuentas en un sistema de disco de 2 TB. Linux de 64 bits "
Con una compresión sin pérdidas, los datos originales son un archivo tiff de 50 gb. En algún momento trabajaré con varios (hasta diez) archivos de 50 gb de tamaño.
Usaría GDAL, secuencias de comandos Python y tal vez secuencias de comandos C ++. Si está permitido, usaría softwares como Grass GIS y Saga GIS. Además, lenguaje R con bibliotecas espaciales. Obtendré los parámetros de terreno habituales, intentando aplicar algoritmos orientados a objetos para la extracción de características específicas (formas terrestres) y utilizando análisis estadísticos con fines descriptivos y de modelado.
Respuestas:
Como dijo DavidF en los comentarios, lo más importante es la estrategia, no importa la máquina, no puede ejecutar (o no es una buena idea ejecutar) un álgebra matricial de 50 GB con toda la matriz a la vez, ya que conceptualmente implica que toda la matriz tiene que ser escrito en la memoria.
Una buena estrategia, rápida, muy fácil y eficiente es usar gdal_calc , lee y escribe el ráster en fragmentos, por lo que es muy eficiente con la memoria.
Por ejemplo: gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc = "(A + B) / 2"
Pruébelo, es muy probable que pueda ejecutar el procesamiento en su escritorio, y luego puede que necesite una máquina mejor para acelerar el proceso o no.
Obs: necesita enviar spam a múltiples procesos gdal_calc para aprovechar los procesadores multinúcleo.
fuente