¿Cómo eliminar miles de URL del caché de Google?

13

Google ha almacenado en caché miles de archivos PDF de mi sitio web que no deberían ser públicos. He actualizado mis encabezados, pero necesito eliminar el caché existente de Vista rápida.

La herramienta para webmasters de Google me permite eliminarlos uno por uno; sin embargo, esto claramente no es práctico dada la cantidad de archivos que se eliminarán.

¿Alguien sabe cómo puedo eliminar por lotes archivos PDF del caché de Google? Idealmente, me gustaría una forma de eliminar todo lo que coincida con "sitio: mysite.com * .pdf"


fuente
3
La búsqueda rápida en Google indica que no es posible eliminar por lotes usando la API de Google, tiene que improvisar su propio script que elimina los enlaces uno por uno

Respuestas:

9

Parece que ya has descubierto cómo solicitar la eliminación de una única URL , lo que obviamente está fuera de discusión aquí. El segundo paso en ese proceso también le permite solicitar la eliminación de un directorio completo , si las URL del archivo son predecibles de esa manera particular. (Si tiene miles de archivos PDF, espero que estén al menos algo organizados). Si no, desafortunadamente no tiene más opciones.

Su '
fuente
2

Recientemente tuve un hack que agregó varios miles de páginas falsas a mi sitio.

Envié un mapa del sitio corregido a Google Search Console (anteriormente llamado Herramientas para webmasters) y cambié todos los enlaces a 410, pero Google todavía tenía la mayoría de ellos indexados.

Utilicé las herramientas de WebMaster: extensión de Chrome de eliminación masiva de URL para enviar automáticamente las URL para su eliminación. Básicamente es un script que toma una lista de las URL y luego las envía por usted, una a la vez. Tardará horas en enviarlos todos, pero al menos no tendrá que hacerlo usted mismo. Aquí hay un artículo sobre cómo usarlo .

Puede obtener una lista de las URL que Google está indexando descargando los datos directamente desde la Consola de búsqueda. Vaya a Estado> Cobertura de índice, seleccione los resultados válidos y luego desplácese hacia abajo. Verá que Google ha indexado una tonelada de URL que no están en su mapa del sitio. Puede descargar los primeros 1000 resultados. Aparentemente, hay una forma indirecta de obtenerlos a todos, no solo a los primeros mil, sino que involucra llamadas API de Excel. Esperé unos días entre cada mil, ya que lentamente cayeron del índice.

Instantánea de cobertura del índice de Google

Otra ruta es hacer que un complemento WP cree un mapa del sitio, luego filtre los PDF o lo que sea que esté apuntando. Probablemente tendrá que hacer un poco de copia / pegar / borrar manual aquí. Solo para estar seguro, me desplacé lentamente por mi lista de aproximadamente 2.700 URL de spam y eliminé las URL legítimas. Solo tomó unos 20 minutos.

Si no está tratando de bombardear algo permanentemente, como el correo no deseado, y en su lugar está tratando de ofuscar recursos premium, debe usar otros métodos para evitar indexar esos recursos, como un archivo de robots. Pero si resulta que Google no escuchó o dejó caer la pelota, al menos ahora puede solucionar el problema y eliminarlos del índice en solo unos días.

En mi circunstancia particular, me pregunto por qué Google no tiene un botón de máquina del tiempo, o deshacer o restablecer. La idea es que puedo decirle a Google que el sitio fue pirateado hace unos días, pero lo hemos reparado, por lo tanto, deshacer los últimos x días de rastreo e indexación. Pero eso sería demasiado fácil.

51336
fuente
1

Si los archivos "no deberían ser públicos", entonces deberían estar en la Internet pública. Puede eliminar los archivos de las listas de Google (a través de robots.txt y otros métodos), pero si los archivos siguen ahí, cualquiera puede descargarlos.

Debe mantenerlos detrás de algún tipo de autenticación. Por ejemplo, mueva los archivos fuera del directorio web público y sírvalos desde un script que verifique si el usuario es válido primero.

Cabra descontento
fuente