¿Cómo raspo tablas html usando el paquete XML?
Tome, por ejemplo, esta página de wikipedia sobre el equipo de fútbol brasileño . Me gustaría leerlo en R y obtener la tabla "lista de todos los partidos que Brasil ha jugado contra equipos reconocidos por la FIFA" como un marco de datos. ¿Cómo puedo hacer esto?
Respuestas:
... o un intento más corto:
la mesa elegida es la más larga de la página
fuente
Editado para agregar:
Salida de muestra
fuente
Otra opción usando Xpath.
Produce este resultado
fuente
El
rvest
junto conxml2
es otro paquete popular para analizar páginas web html.La sintaxis es más fácil de usar que el
xml
paquete y para la mayoría de las páginas web, el paquete proporciona todas las opciones que uno necesita.fuente