Raspado web de LinkedIn

11

Recientemente descubrí un nuevo paquete R para conectarse a la API de LinkedIn. Desafortunadamente, la API de LinkedIn parece bastante limitada para empezar; por ejemplo, solo puede obtener datos básicos sobre empresas, y esto se separa de los datos sobre individuos. Me gustaría obtener datos sobre todos los empleados de una empresa determinada, lo que puede hacer manualmente en el sitio pero no es posible a través de la API.

import.io sería perfecto si reconociera la paginación de LinkedIn (vea el final de la página).

¿Alguien conoce alguna herramienta o técnica de raspado web aplicable al formato actual del sitio de LinkedIn, o formas de doblar la API para llevar a cabo un análisis más flexible? Preferiblemente en R o basado en la web, pero ciertamente abierto a otros enfoques.

christopherlovell
fuente
2
Web scraping LinkedIn está en contra de sus términos de servicio. Consulte "HACER" y " NO HACER " de LinkedIn - NO HACER: "Usar software manual o automatizado, dispositivos, scripts robots, otros medios o procesos para acceder," raspar "," arrastrar "o" arañar "los Servicios o cualquier datos o información relacionados ";
Brian Spiering

Respuestas:

3

Scrapy es una gran biblioteca de Python que puede ayudarlo a raspar diferentes sitios más rápido y mejorar la estructura de su código. No todos los sitios se pueden analizar con herramientas clásicas, porque pueden usar la creación dinámica de contenido JS. Para esta tarea, es mejor usar Selenium (este es un marco de prueba para sitios web, pero también es una excelente herramienta de raspado web). También hay un contenedor Python disponible para esta biblioteca. En Google puede encontrar algunos trucos que pueden ayudarlo a usar Selenium dentro de Scrapy y hacer que su código sea claro, organizado y puede usar algunas herramientas excelentes para la biblioteca de Scrapy .

Creo que Selenium sería un mejor raspador para Linkedin que las herramientas clásicas. Hay mucho javascript y contenido dinámico. Además, si desea realizar la autenticación en su cuenta y eliminar todo el contenido disponible, tendrá muchos problemas con la autenticación clásica utilizando bibliotecas simples como solicitudes o urllib .

itdxer
fuente
1

Me gusta rvest en combinación con el complemento SelectorGadget Chrome para seleccionar secciones relevantes.

He usado rvest y he creado pequeños scripts para paginar a través de los foros:

  1. Busque el objeto "Página n de m"
  2. Extraer m
  3. Según la estructura de la página, cree una lista de enlaces de 1 a m (por ejemplo, www.sample.com/page1)
  4. Itere el raspador a través de la lista completa de enlaces
Rglish
fuente
0

También iría con beautifulsoup, si conoces Python. En caso de que prefiera codificar javascript / JQuery (y esté familiarizado con node.js), es posible que desee revisar CoffeeScript ( consulte el Tutorial ). Ya lo usé con éxito en varias ocasiones para raspar páginas web.

Hannes
fuente
0

lxml es una buena biblioteca de desguace web en Python. Beautiful Soup es una envoltura sobre lxml. Por lo tanto, lxml es más rápido que la sopa ruda y hermosa y tiene una curva de aprendizaje mucho más fácil.

Este es un ejemplo de un raspador que construí con él para un proyecto personal, que puede iterar sobre páginas web.

Dawny33
fuente
0

BeautifulSoup no funciona en LinkedIn. Scrappy viola las políticas. Octoparse es solo para Windows. ¿Hay otra manera? Quiero extraer datos de personas similares para la cuenta de una persona. ¡Por favor ayuda!

Chinmay Joshi
fuente
1
Publique esto como un comentario o haga una nueva pregunta
christopherlovell
Esta es información importante, pero elimine la pregunta si se supone que es una respuesta.
Pithikos