¿Cómo puedo obtener la fuente HTML en una variable usando el módulo Selenium con Python?
Quería hacer algo como esto:
from selenium import webdriver
browser = webdriver.Firefox()
browser.get("http://example.com")
if "whatever" in html_source:
# Do something
else:
# Do something else
¿Cómo puedo hacer esto? No sé cómo acceder a la fuente HTML.
python
selenium
selenium-webdriver
usuario1008791
fuente
fuente

Respuestas:
Necesitas acceder a la
page_sourcepropiedad:fuente
find_element_by_xpath("//*").get_attribute("outerHTML")(Con Selenium2Library puede utilizar
get_source()fuente
driver.page_source le ayudará a obtener el código fuente de la página. Puede verificar si el texto está presente en la fuente de la página o no.
Si desea almacenar la fuente de la página en una variable, agregue la siguiente línea después de driver.get :
y cambie la condición if a:
fuente
Al utilizar el código fuente de la página, obtendrá el código HTML completo.
Así que primero decida el bloque de código o etiqueta en el que necesita recuperar los datos o hacer clic en el elemento.
Puede encontrar los elementos por nombre, XPath, id, enlace y ruta CSS.
fuente
Para responder a su pregunta sobre cómo obtener la URL para usar con urllib, simplemente ejecute este código JavaScript:
fuente
Simplemente puede usar el
WebDriverobjeto y acceder al código fuente de la página a través de su@propertycampopage_source...Pruebe este fragmento de código :-)
fuente
Ahora puede aplicar la función BeautifulSoup para extraer datos ...
fuente
Recomiendo obtener la fuente con urllib y, si va a analizar, use algo como Beautiful Soup .
fuente