Preguntas etiquetadas con web-crawler

Un rastreador web (también conocido como araña web) es un programa informático que navega por la World Wide Web de manera metódica, automatizada o ordenada. Otros términos para los rastreadores web son hormigas, indexadores automáticos, bots, arañas web, robots web o, especialmente en la comunidad FOAF, cortadores web.

227

¿Cómo solicitar a Google que vuelva a rastrear mi sitio web? [cerrado]

Cerrado. Esta pregunta no cumple con las pautas de desbordamiento de pila . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que sea sobre el tema de Stack Overflow. Cerrado hace 5 años . Mejora...

seo web-crawler

216

Envío de "User-agent" utilizando la biblioteca de solicitudes en Python

Quiero enviar un valor "User-agent"mientras solicito una página web usando Python Requests. No estoy seguro de si está bien enviar esto como parte del encabezado, como en el código a continuación: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response =...

python web-crawler python-requests

169

evitar que rsync elimine los archivos fuente sin terminar

Tengo dos máquinas, velocidad y masa. speed tiene una conexión rápida a Internet y ejecuta un rastreador que descarga muchos archivos al disco. mass tiene mucho espacio en disco. Quiero mover los archivos de velocidad a masa después de que hayan terminado la descarga. Idealmente, solo correría: $...

storage web-crawler rsync

134

¿Diferencia entre BeautifulSoup y Scrapy crawler?

Quiero hacer un sitio web que muestre la comparación entre Amazon y el precio del producto e-bay. ¿Cuál de estos funcionará mejor y por qué? Estoy algo familiarizado con BeautifulSoup pero no tanto con Scrapy crawler

python beautifulsoup scrapy web-crawler

118

¿Cómo detectar bots de motores de búsqueda con php?

¿Cómo se pueden detectar los robots de los motores de búsqueda usando

php web-crawler bots

108

Encontrar las capas y los tamaños de capa para cada imagen de Docker

Para fines de investigación, estoy tratando de rastrear el registro público de Docker ( https://registry.hub.docker.com/ ) y averiguar 1) cuántas capas tiene una imagen promedio y 2) los tamaños de estas capas para obtener una idea de la distribución. Sin embargo, estudié la API y las bibliotecas...

image docker web-crawler

108

TypeError: no se puede usar un patrón de cadena en un objeto de tipo bytes en re.findall ()

Estoy tratando de aprender a buscar automáticamente las URL de una página. En el siguiente código, intento obtener el título de la página web: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with...

python python-3.x web-crawler

107

Detectar rastreadores web 'sigilosos'

¿Qué opciones existen para detectar rastreadores web que no quieren ser detectados? (Sé que enumerar las técnicas de detección permitirá que el programador inteligente de rastreadores sigilosos cree una araña mejor, pero no creo que podamos bloquear los rastreadores inteligentes de todos modos,...

web-crawler

100

Cómo pasar un argumento definido por el usuario en scrapy spider

Estoy tratando de pasar un argumento definido por el usuario a una araña de scrapy. ¿Alguien puede sugerir cómo hacer eso? Leí sobre un parámetro en -aalguna parte, pero no tengo idea de cómo

python scrapy web-crawler

Cómo encontrar todos los enlaces / páginas de un sitio web

¿Es posible encontrar todas las páginas y enlaces en CUALQUIER sitio web? Me gustaría ingresar una URL y producir un árbol de directorio de todos los enlaces de ese sitio. He mirado HTTrack pero eso descarga todo el sitio y simplemente necesito el árbol de directorios.

directory web-crawler

Obtener una lista de URL de un sitio [cerrado]

Cerrado. Esta pregunta no cumple con las pautas de Stack Overflow . Actualmente no acepta respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté relacionada con el tema de Stack Overflow. Cerrado hace 4 años . Mejora esta...

web-crawler

¿Cómo puedo usar diferentes tuberías para diferentes arañas en un solo proyecto Scrapy?

Tengo un proyecto fragmentario que contiene varias arañas. ¿Hay alguna forma de que pueda definir qué canalizaciones usar para qué araña? No todas las tuberías que he definido son aplicables para todas las arañas. Gracias

python scrapy web-crawler

Ocultar la dirección de correo electrónico de los bots - Mantener mailto:

tl; dr Oculte la dirección de correo electrónico de los bots sin utilizar scripts y mantenga la mailto:funcionalidad. El método también debe admitir lectores de pantalla. Resumen Ofuscación de correo electrónico sin utilizar scripts o formularios de contacto La dirección de correo...

html css web-crawler mailto