Codifico muchos analizadores. Hasta ahora, estaba usando el navegador sin cabeza HtmlUnit para el análisis y la automatización del navegador.
Ahora, quiero separar ambas tareas.
Como el 80% de mi trabajo implica solo el análisis, quiero usar un analizador HTML ligero porque lleva mucho tiempo en HtmlUnit cargar primero una página, luego obtener la fuente y luego analizarla.
Quiero saber qué analizador HTML es el mejor. El analizador sería mejor si está cerca del analizador HtmlUnit.
EDITAR:
Por lo mejor, quiero al menos las siguientes características:
- Velocidad
- Facilidad para localizar cualquier HtmlElement por su "id" o "nombre" o "tipo de etiqueta".
Estaría bien para mí si no limpia el código HTML sucio. No necesito limpiar ninguna fuente HTML. Solo necesito una forma más fácil de moverme a través de HtmlElements y obtener datos de ellos.
java
html
parsing
html-parsing
web-scraping
Yatendra Goel
fuente
fuente
Respuestas:
Autoenchufe : Acabo de lanzar un nuevo analizador HTML de Java: jsoup . Lo menciono aquí porque creo que hará lo que buscas.
Su truco de fiesta es una sintaxis de selector CSS para encontrar elementos, por ejemplo:
Vea el Selector javadoc para más información.
Este es un proyecto nuevo, por lo que cualquier idea de mejora es bienvenida.
fuente
Lo mejor que he visto hasta ahora es HtmlCleaner :
Con HtmlCleaner puedes localizar cualquier elemento usando XPath.
Para otros analizadores html, vea esta pregunta SO .
fuente
Similar rules that the most of web browsers use
- Esto no es muy convincenteSugiero el analizador Validator.nu , basado en el algoritmo de análisis HTML5. Es el analizador utilizado en Mozilla del 2010-05-03
fuente