Preguntas etiquetadas con web-scraping

El web scraping es el proceso de extraer información específica de sitios web que no proporcionan fácilmente una API u otros métodos de recuperación automatizada de datos. Las preguntas sobre "Cómo empezar a raspar" (por ejemplo, con Excel VBA) deben * investigarse a fondo * ya que hay numerosos ejemplos de código funcional disponibles. Los métodos de raspado web incluyen aplicaciones de terceros, desarrollo de software personalizado o incluso recopilación manual de datos de forma estandarizada.

386
Cómo encontrar elementos por clase

Tengo problemas para analizar elementos HTML con el atributo "class" usando Beautifulsoup. El código se ve así soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Recibo un error en la misma línea "después" de que finaliza...

16
¿Cómo puedo raspar más rápido?

El trabajo aquí es para raspar una API un sitio que se inicia a partir https://xxx.xxx.xxx/xxx/1.jsonde https://xxx.xxx.xxx/xxx/1417749.jsony escribir exactamente a mongodb. Para eso tengo el siguiente código: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com =...