¿Cómo puedo obtener la fuente HTML en una variable usando el módulo Selenium con Python?
Quería hacer algo como esto:
from selenium import webdriver
browser = webdriver.Firefox()
browser.get("http://example.com")
if "whatever" in html_source:
# Do something
else:
# Do something else
¿Cómo puedo hacer esto? No sé cómo acceder a la fuente HTML.
python
selenium
selenium-webdriver
usuario1008791
fuente
fuente
Respuestas:
Necesitas acceder a la
page_source
propiedad:fuente
find_element_by_xpath("//*").get_attribute("outerHTML")
(Con Selenium2Library puede utilizar
get_source()
fuente
driver.page_source le ayudará a obtener el código fuente de la página. Puede verificar si el texto está presente en la fuente de la página o no.
Si desea almacenar la fuente de la página en una variable, agregue la siguiente línea después de driver.get :
y cambie la condición if a:
fuente
Al utilizar el código fuente de la página, obtendrá el código HTML completo.
Así que primero decida el bloque de código o etiqueta en el que necesita recuperar los datos o hacer clic en el elemento.
Puede encontrar los elementos por nombre, XPath, id, enlace y ruta CSS.
fuente
Para responder a su pregunta sobre cómo obtener la URL para usar con urllib, simplemente ejecute este código JavaScript:
fuente
Simplemente puede usar el
WebDriver
objeto y acceder al código fuente de la página a través de su@property
campopage_source
...Pruebe este fragmento de código :-)
fuente
Ahora puede aplicar la función BeautifulSoup para extraer datos ...
fuente
Recomiendo obtener la fuente con urllib y, si va a analizar, use algo como Beautiful Soup .
fuente