Así que estoy tratando de hacer un script de Python que descargue webcomics y los coloque en una carpeta en mi escritorio. He encontrado algunos programas similares aquí que hacen algo similar, pero nada como lo que necesito. El que encontré más similar está aquí ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Intenté usar este código:
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
Luego busqué en mi computadora un archivo "00000001.jpg", pero todo lo que encontré fue la imagen en caché. Ni siquiera estoy seguro de que guardó el archivo en mi computadora. Una vez que entiendo cómo descargar el archivo, creo que sé cómo manejar el resto. Esencialmente solo use un bucle for y divida la cadena en '00000000'. 'Jpg' e incremente el '00000000' hasta el número más grande, que de alguna manera tendría que determinar. ¿Alguna recomendación sobre la mejor manera de hacer esto o cómo descargar el archivo correctamente?
¡Gracias!
EDITAR 15/06/10
Aquí está el script completo, guarda los archivos en cualquier directorio que elija. Por alguna extraña razón, los archivos no se estaban descargando y simplemente lo hicieron. Cualquier sugerencia sobre cómo limpiarlo sería muy apreciada. Actualmente estoy trabajando en cómo descubrir que existen muchos cómics en el sitio para poder obtener solo el último, en lugar de hacer que el programa se cierre después de que se generen ciertas excepciones.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
beautifulsoup
? Esta publicación aparece en la lista debeautifulsoup
preguntas principalesRespuestas:
Python 2
Usando urllib.urlretrieve
Python 3
Usar urllib.request.urlretrieve (parte de la interfaz heredada de Python 3, funciona exactamente igual)
fuente
import urllib.request urllib.request.retrieve("http://...")
import urllib.request urllib.request.urlretrieve("http://...jpg", "1.jpg")
. Ahora es aurlretrieve
partir de 3.x.fuente
Solo para el registro, utilizando la biblioteca de solicitudes.
Aunque debería verificar el error de request.get ().
fuente
Para Python 3 necesitará importar
import urllib.request
:para más información mira el enlace
fuente
Versión de Python 3 de la respuesta de @ DiGMi:
fuente
He encontrado esta respuesta y la edito de manera más confiable
De esto nunca obtienes otros recursos o excepciones durante la descarga.
fuente
Si sabe que los archivos se encuentran en el mismo directorio
dir
del sitio website
y tienen el siguiente formato: filename_01.jpg, ..., filename_10.jpg, descárguelos todos:fuente
Es más fácil usarlo
.read()
para leer la respuesta parcial o completa, luego escribirlo en un archivo que haya abierto en una buena ubicación conocida.fuente
Quizás necesites 'User-Agent':
fuente
Además de sugerirle que lea los documentos
retrieve()
detenidamente ( http://docs.python.org/library/urllib.html#urllib.URLopener.retrieve ), sugeriría llamarread()
al contenido de la respuesta y luego guardarlo en un archivo de su elección en lugar de dejarlo en el archivo temporal que crea la recuperación.fuente
Todos los códigos anteriores, no permiten conservar el nombre de la imagen original, que a veces se requiere. Esto ayudará a guardar las imágenes en su unidad local, conservando el nombre de la imagen original.
Prueba esto para más detalles.
fuente
Esto funcionó para mí usando Python 3.
Obtiene una lista de URL del archivo csv y comienza a descargarlas en una carpeta. En caso de que el contenido o la imagen no exista, toma esa excepción y continúa haciendo su magia.
fuente
Una solución más simple puede ser (python 3):
fuente
¿Qué hay de esto?
fuente
Si necesita soporte de proxy, puede hacer esto:
fuente
Otra forma de hacerlo es a través de la biblioteca fastai. Esto funcionó como un encanto para mí. Estaba enfrentando un
SSL: CERTIFICATE_VERIFY_FAILED Error
uso,urlretrieve
así que lo intenté.fuente
Usar solicitudes
fuente
Usando urllib, puede hacer esto al instante.
fuente