¿Recuperar un sitio web perdido sin respaldo?

262

Desafortunadamente, nuestro proveedor de alojamiento experimentó una pérdida de datos del 100%, por lo que perdí todo el contenido de dos sitios web de blogs alojados:

(Sí, sí, absolutamente debería haber hecho copias de seguridad completas fuera del sitio. Desafortunadamente, todas mis copias de seguridad estaban en el servidor mismo. Así que guarde la conferencia; tiene un 100% de razón, pero eso no me ayuda en este momento. ¡Manténgase enfocado en la pregunta aquí!)

Estoy comenzando el proceso lento y doloroso de recuperar el sitio web de los cachés de rastreadores web.

Hay algunas herramientas automatizadas para recuperar un sitio web de cachés de Internet spider (Yahoo, Bing, Google, etc.), como Warrick , pero obtuve algunos malos resultados al usar esto:

  • Mi dirección IP fue prohibida rápidamente por Google por usarla
  • Recibo muchos errores 500 y 503 y "espero 5 minutos ..."
  • Finalmente, puedo recuperar el contenido de texto más rápido a mano

He tenido mucha mejor suerte al usar una lista de todas las publicaciones de blog, hacer clic en el caché de Google y guardar cada archivo individual como HTML. Si bien hay una gran cantidad de publicaciones en el blog, no hay que muchos, y me imagino que merezco un poco de auto-flagelación por no tener una mejor estrategia de copia de seguridad. De todos modos, lo importante es que he tenido buena suerte al obtener el texto de la publicación del blog de esta manera, y definitivamente puedo sacar el texto de las páginas web de los cachés de Internet. Según lo que he hecho hasta ahora, estoy seguro de que puedo recuperar todo el texto y los comentarios perdidos de la publicación del blog .

Sin embargo, las imágenes que van con cada publicación de blog están demostrando ... más difícil.

¿Algún consejo general para recuperar páginas de sitios web de cachés de Internet y, en particular, lugares para recuperar imágenes archivadas de páginas de sitios web ?

(Y, de nuevo, por favor, no hay conferencias de respaldo. ¡Tienes total, total, total razón! Pero tener razón no es resolver mi problema inmediato ... a menos que tengas una máquina del tiempo ...)

Jeff Atwood
fuente
96
Cuando alguien como Jeff Atwood puede perder dos sitios web completos de una sola vez ... Bueno. Voy a revisar mis propios procedimientos de respaldo, por
240
@Phoshi: Jeff tiene algunos buenos artículos sobre Coding Horror en la copia de seguridad. Deberías darles una lectura rápida.
34
joshhunt gana un (1) internet. Esta oferta no se puede combinar con otras ofertas, intercambiar o sustituir. No hay cheques de lluvia.
Adam Davis
28
Los extremos a los que irán algunas personas para ganar reputación en SU ​​...
26
No se refiera a lo que hizo como "copias de seguridad": si esos archivos están en el mismo servidor, de ninguna manera son "copias de seguridad".

Respuestas:

220

Aquí está mi puñalada salvaje en la oscuridad: configure su servidor web para que devuelva 304 para cada solicitud de imagen, luego obtenga la recuperación mediante la publicación de una lista de URL en algún lugar y solicite en el podcast que todos sus lectores carguen cada URL y recojan cualquier imagen que se cargan de sus cachés locales. (Esto solo puede funcionar después de restaurar las páginas HTML, completar con las <img ...>etiquetas, lo que su pregunta parece implicar que podrá hacer).

Esta es básicamente una forma elegante de decir: "obténgalo de las memorias caché del navegador web de sus lectores". Tiene muchos lectores y oyentes de podcasts, por lo que puede movilizar efectivamente a un gran número de personas que probablemente hayan visto su sitio web recientemente. Pero encontrar y extraer imágenes manualmente de los cachés de varios navegadores web es difícil, y todo el enfoque funciona mejor si es lo suficientemente fácil como para que muchas personas lo intenten y tengan éxito. Así, el enfoque 304. Todo lo que requiere de los lectores es que hagan clic en una serie de enlaces y arrastren cualquier imagen que se cargue en su navegador web (o haga clic derecho y guardar como, etc.) y luego se los envíe por correo electrónico o cárguelos a un ubicación central que configuró, o lo que sea. El principal inconveniente de este enfoque es que los cachés del navegador web no retroceden tanto en el tiempo. Pero solo se necesita un lector que cargó una publicación de 2006 en los últimos días para rescatar incluso una imagen muy antigua. Con una audiencia lo suficientemente grande, todo es posible.

John Siracusa
fuente
52
+1 para el enfoque más creativo. En realidad podría funcionar ya que CH tiene muchos lectores.
16
implementado aquí? diovo.com/2009/12/…
Jeff Atwood
3
Creo que podría rastrear sus archivos estáticos para las etiquetas de imagen y copiarlos en una página gigante de imágenes, en lugar de hacer que todos hagan clic en cada enlace. La implementación de diovo.com se ve muy impresionante, espero que funcione para usted.
2
WOW eso es una mierda mágica malvada I <3
Ahmad Alfy
44
De hecho, debería poder recuperar imágenes usando canvasy enviarlas a casa por AJAX.
Tomáš Zato
65

Algunos de nosotros lo seguimos con un lector RSS y no borramos los cachés. Tengo publicaciones de blog que parecen remontarse a 2006. No hay imágenes, por lo que puedo ver, pero podría ser mejor de lo que estás haciendo ahora.

retroceder
fuente
+1 definitivamente. Google Reader no lo hace, pero apuesto a que lo haría una computadora de escritorio.
2
También puede pedirle a la gente que revise sus cachés del navegador. Aquellos que ven el estilo retro de Coding Horror podrían tener algunas de las imágenes en caché.
Tengo publicaciones de blog en 2005 en GReader, pero desafortunadamente, no tienen imágenes, y no me dejan exportarlas como una serie de páginas ... Sin embargo, podría enviártelas por correo electrónico, Jeff. ..
Glen Solsberry
Sí, había un implícito "Te enviaré lo que tengo si me lo pides". en mi respuesta también.
3
Demasiados lectores RSS asumen que las imágenes nunca morirán. Sé que el mío sí :(
62

(1) Extraiga una lista de los nombres de archivo de todas las imágenes faltantes de las copias de seguridad HTML. Te quedarás con algo como:

  • stay-puft-marshmallow-man.jpg
  • internet-properties-dialog.png
  • yahoo-homepage-small.png
  • contraseña-show-animated.gif
  • tivo2.jpg
  • michael-abrash-graphics-program

(2) Realice una búsqueda de imágenes de Google para esos nombres de archivo. Parece que MUCHOS de ellos han sido, um, "reflejados" por otros blogueros y están listos para ser tomados porque tienen el mismo nombre de archivo .

(3) Podría hacer esto de manera automatizada si resulta exitoso para, por ejemplo, más de 10 imágenes.

Portman
fuente
Sería muy irónico si realmente recuperara alguna imagen como esta.
Hashim
51

Al ir a la búsqueda de imágenes de Google y escribir site:codinghorror.com, al menos puede encontrar las versiones en miniatura de todas sus imágenes. No, no necesariamente ayuda, pero le brinda un punto de partida para recuperar esas miles de imágenes.

Codinghorror images

Parece que Google almacena una miniatura más grande en algunos casos:

Google contra Bing

Google está a la izquierda, Bing a la derecha.

George Stocker
fuente
2
Sí, en el peor de los casos, tendremos que ampliar las miniaturas de Google. ¿Escuché que Bing almacena miniaturas más grandes?
Jeff Atwood
No lo sé; No soy un tipo de tipo Bing. Ni siquiera sé si hacen la búsqueda de imágenes como lo hace Google. Lo averiguaré y actualizaré dicha publicación.
George Stocker
18
No sé si eres tú. Pero Imageshack parece tener muchas de las imágenes de tu blog. profile.imageshack.us/user/codinghorror
Nick Berardi
Parecen tener lo que parecen 456 imágenes de tamaño completo. Esta podría ser la mejor apuesta para recuperar todo. Tal vez incluso pueden proporcionarle un basurero.
Nick Berardi
28
Use las miniaturas de Google como inicio, luego use tineye.com para ver si alguien está alojando una copia.
sep332
40

Lamento escuchar sobre los blogs. No voy a dar una conferencia. Pero encontré lo que parecen ser tus imágenes en Imageshack. ¿Son realmente tuyos o alguien ha guardado una copia de ellos?

http://profile.imageshack.us/user/codinghorror

Parecen tener lo que parecen 456 imágenes de tamaño completo. Esta podría ser la mejor apuesta para recuperar todo. Tal vez incluso pueden proporcionarle un basurero.

Nick Berardi
fuente
37

Jeff, he escrito algo para ti aquí.

En resumen, lo que te propongo que hagas es:

  1. Configure el servidor web para que devuelva 304 para cada solicitud de imagen. 304 significa que el archivo no está modificado y esto significa que el navegador buscará el archivo de su caché si está presente allí. (crédito: esta respuesta SuperUser )

  2. En cada página del sitio web, agregue un pequeño script para capturar los datos de la imagen y enviarlos al servidor.

  3. Guarde los datos de la imagen en el servidor.

  4. Voila!

Puede obtener los scripts desde el enlace dado.

Niyaz
fuente
La respuesta del superusuario no está vinculada.
Nathaniel el
@Nathaniel: FIJO
alexanderpas
28

Pruebe esta consulta en la máquina Wayback :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Esto le proporcionará todas las imágenes de codinghorror.com archivadas por archive.org. Esto devuelve 3878 imágenes, algunas de las cuales son duplicadas. No estará completo, pero un buen comienzo no obstante.

Para las imágenes restantes, puede usar las miniaturas de la memoria caché de un motor de búsqueda, y luego hacer una búsqueda inversa utilizando estas en http://www.tineye.com/ . Le da la imagen en miniatura y le dará una vista previa y un puntero a las imágenes que coinciden estrechamente encontradas en la web.

Peter Stuer
fuente
1
devuelve un 404 ahora?
rogerdpack
He creado una herramienta para obtener automáticamente una copia de seguridad de Wayback Machine: github.com/hartator/wayback-machine-downloader
Hartator
26

+1 en la ddrecomendación si (1) el disco sin formato está disponible en alguna parte; y (2) las imágenes eran archivos simples. Luego, puede usar una herramienta forense de 'tallado de datos' para (por ejemplo) extraer todos los rangos creíbles que parecen ser JPG / PNG / GIF. He recuperado más del 95% de las fotos en un iPhone que se borró de esta manera.

Las herramientas de código abierto 'más importantes' y su sucesor 'bisturí' se pueden utilizar para esto:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/

gojomo
fuente
2
Photorec también puede ser útil una vez que obtenga imágenes dd.
foremost está disponible a través de yum en Fedora
26

Afortunadamente, las futuras generaciones estarán bien.

Incluso con solo algo de esta gran roca, los científicos / lingüistas descubrieron mucho.

Rosetta Stone

Si faltan algunas imágenes, deje que alguien las resuelva en un par de miles de años.

Con suerte, te estás riendo un poco. :)

jm
fuente
55
Ok, al menos me
21

Siempre puedes probar archive.org, también. Usa la máquina del camino. Lo he usado para recuperar imágenes de mis sitios web.

Kyle
fuente
3
No parece tener mucho caché para CodingHorror, al menos. Sin embargo, sí veo imágenes para blog.stackoverflow.
reconstruí un sitio web utilizando la máquina de internet wayback una vez, pero he intentado un par de veces desde entonces, y que realmente no archiva muchos sitios ...
djangofan
Parece que se remonta a 2004 aquí web.archive.org/web * / codinghorror.com
Gracias a Dios que no tenía un archivo robots.txt ¿eh? :)
Synetech
14

Entonces, en el peor de los casos, no puedes recuperar nada. Maldición.

Intente agarrar los minificados de Google y ponerlos en TinEye , el motor de búsqueda de imágenes inversas. Con suerte, debería tomar cualquier duplicado o rehospedaje que la gente haya hecho.

Phoshi
fuente
14

Es una posibilidad remota, pero podría considerar:

  • Publicar la lista exacta de la imagen que te falta
  • El proceso de recuperación a través de la memoria caché de Internet de todos sus lectores se realiza de forma colectiva.

Por ejemplo, vea Nirsoft Mozilla Cache Viewer :

texto alternativo
(fuente: nirsoft.net )

Puede desenterrar rápidamente cualquier imagen de "blog.stackoverflow.com" que aún pueda tener a través de una simple línea de comando:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Nota: tienen el mismo explorador de caché para Chrome .

texto alternativo
(fuente: nirsoft.net )

(Debo tener 15 días de fotos de blog.stackoverflow.com)

E Internet Explorer u Opera .


Luego actualice la lista pública para reflejar lo que los lectores informan haber encontrado en su caché.

VonC
fuente
12

En el pasado, he usado http://www.archive.org/ para extraer imágenes en caché. Es un poco impredecible pero me ha funcionado.
Además, cuando trato de recuperar fotos de archivo que he usado en un sitio antiguo, www.tineye.com es excelente cuando solo tengo las miniaturas y necesito las imágenes a tamaño completo.

Espero que esto te ayude. Buena suerte.

Zar Elitista
fuente
Hace unos minutos busqué en archive.org las imágenes de codinghorror.com y las pocas publicaciones en las que hice clic no aparecían.
George Stocker
Archive.org publica los datos meses después de haberlos indexado por primera vez.
Christian
10

Probablemente esta no sea la solución más fácil o más completa, pero los servicios como Evernote generalmente guardan tanto el texto como las imágenes cuando se almacenan dentro de la aplicación; quizás algunos lectores útiles que guardaron sus artículos podrían guardar las imágenes y devolvérselas ?

Justin Burdett
fuente
10

He tenido grandes experiencias con archive.org . Incluso si no puede extraer todas las publicaciones de su blog del sitio, conservan instantáneas periódicas:

texto alternativo

De esta manera, puede consultar cada página y ver las publicaciones de blog que realizó. Con los nombres de todas las publicaciones, puede encontrarlas fácilmente en el caché de Google si archive.org no lo tiene. El archivo intenta mantener las imágenes, el caché de Google tendrá imágenes, y no he vaciado mi caché recientemente para poder ayudarlo con las publicaciones de blog más recientes :)

John T
fuente
Traté de obtener algunos datos del sitio web de una empresa en la que solía trabajar hace un tiempo. Fue bueno para el texto, menos para las imágenes. Pero YMMV
ChrisF
Creo que el caché web de Google no almacena imágenes.
Nathaniel el
8

Una sugerencia para el futuro: utilizo Windows Live Writer para bloguear y guarda copias locales de publicaciones en mi máquina, además de publicarlas en el blog.

Matt Sherman
fuente
Además, usar Windows Live Writer es solo un buen sentido común.
7

Hace unos cinco años, una encarnación temprana de un disco duro externo en el que estaba almacenando todas mis fotos digitales falló gravemente. Hice una imagen del disco duro usando ddy escribí una herramienta rudimentaria para recuperar todo lo que parecía una imagen JPEG. Saqué la mayoría de mis fotos de eso.

Entonces, la pregunta es, ¿puede obtener una copia de la imagen del disco de la máquina virtual que contenía las imágenes?

Sinan Ünür
fuente
7

Sugiero la combinación de archive.org y un anonimato de solicitud como [Tor] [2]. Sugiero usar el anonimato porque de esa manera cada una de sus solicitudes tendrá una dirección IP y una ubicación aleatorias y de esa manera puede evitar que un archive.org (como lo hizo Google) evite la prohibición de un número inusualmente alto de solicitudes.

Buena suerte, hay muchas gemas en ese blog.

mirnazim
fuente
Dado que Jeff quiere hacer una donación a archive.org, abusar del anonimizador podría no ser absolutamente inaceptable. Pero todavía quiero darte una patada por eso. : - |
6

La máquina del camino tendrá algunos. Google cache y cachés similares tendrán algunos.

Una de las cosas más efectivas que podrá hacer es enviar por correo electrónico los carteles originales y pedir ayuda.

De hecho, tengo algunas recomendaciones de infraestructura, porque después de todo esto se limpia. El problema fundamental no son las copias de seguridad, es la falta de replicación del sitio y la falta de auditoría. Si me envía un correo electrónico al contenido del campo de correo electrónico privado, más tarde, cuando esté de nuevo en pie, me encantaría discutir el asunto con usted.

John
fuente
6

Si sus imágenes se almacenaron en un servicio externo como Flickr o un CDN (como se menciona en uno de sus podcasts), aún puede tener los recursos de imágenes allí.

Algunas de las imágenes se pueden encontrar buscando en Google Images y haciendo clic en "Buscar imágenes similares" , tal vez haya copias en otros sitios.

rev splattne
fuente
5

archive.org a veces oculta imágenes. Obtenga cada URL manualmente (o escriba un script corto) y consúltelas de esta manera:

string.Format ("GET / * / {0}", nextUri)

Por supuesto, va a ser bastante difícil buscarlo.

Podría tener algunos en la memoria caché de mi navegador. Si lo hago, los alojaré en alguna parte.

Andrew Wilcox
fuente
4

Si espera tratar de raspar las memorias caché de los usuarios, puede configurar el servidor para que responda 304 Not Modifieda todas las solicitudes condicional-GET ('If-Modified-Since' o 'If-None-Match'), que los navegadores usan para revalidar su material en caché.

Si sus encabezados de almacenamiento en caché iniciales en contenido estático, como imágenes, eran bastante liberales, lo que permite que las cosas se almacenen en caché durante días o meses, podría seguir recibiendo solicitudes de revalidación por un tiempo. Establezca una cookie en esas solicitudes y solicite a esos usuarios que ejecuten un script en su caché para extraer las imágenes que aún tienen.

Sin embargo, tenga cuidado: en el momento en que comience a publicar contenido textual con recursos en línea que aún no están presentes, podría eliminar esas versiones en caché cuando los revalidadores lleguen a los 404.

gojomo
fuente
4

A riesgo de señalar lo obvio, intente extraer las copias de seguridad de su propia computadora para las imágenes. Sé que mi estrategia de copia de seguridad es lo suficientemente casual como para tener múltiples copias de muchos archivos en unidades externas, discos grabados y en archivos zip / tar. ¡Buena suerte!

lo_fye
fuente
4

Logré recuperar estos archivos de mi caché Safari en Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Si alguien más quiere intentarlo, he escrito un script de Python para extraerlo a ~ / codinghorror / filename, que he puesto en línea aquí .

Espero que esto ayude.

Dan Udey
fuente
3

¿Tuviste la oportunidad de ver si tu proveedor de hosting tiene alguna copia de seguridad (algunas versiones anteriores)?

Hola
fuente
no se ve bien ... su programa de copia de seguridad no pudo hacer una copia de seguridad de los archivos del disco duro de la máquina virtual, por lo que no hay copias de seguridad.
Jeff Atwood
2

¿Cuánto valen estos datos para usted? Si vale una suma significativa (miles de dólares), considere pedirle a su proveedor de alojamiento el disco duro utilizado para almacenar los datos de su sitio web (en el caso de pérdida de datos debido a una falla de hardware). Luego puede llevar el disco al camino o algún otro servicio de recuperación de datos para ver qué puede obtener del disco. Esto puede ser difícil de negociar debido a la posibilidad de que los datos no recuperados de otras personas también estén en el disco, pero si realmente te importa, probablemente puedas resolverlo.

Cuña
fuente
el servidor era una máquina virtual hasta donde yo sé.
splattne
1
@splattne aún así, existe una probabilidad distinta de cero de que se puedan recuperar muchos datos.
Tendría que ser un servicio altamente especializado.
2

Lamento mucho escuchar esto y estoy muy molesto por ti, y por el momento: quería una copia fuera de línea de algunas de tus publicaciones e hice HTTrack en todo tu sitio, pero tuve que salir (esto fue hace un par de semanas) y Lo detuve.

Si el host está medio descendiente, y por el hecho de que supongo que es un buen cliente ... les pediría que le envíen los discos duros (como supongo que deberían estar usando RAID) o que se recuperen ellos mismos.

Si bien esto puede no ser un proceso rápido, hice esto con un host para un cliente y pude recuperar bases de datos enteras intactas (... básicamente, el host intentó una actualización para el panel de control que estaban usando y lo estropeó ... pero no se sobrescribió nada).

Pase lo que pase, ¡buena suerte de parte de todos tus fanáticos en los sitios SO!

wilhil
fuente