Desafortunadamente, nuestro proveedor de alojamiento experimentó una pérdida de datos del 100%, por lo que perdí todo el contenido de dos sitios web de blogs alojados:
(Sí, sí, absolutamente debería haber hecho copias de seguridad completas fuera del sitio. Desafortunadamente, todas mis copias de seguridad estaban en el servidor mismo. Así que guarde la conferencia; tiene un 100% de razón, pero eso no me ayuda en este momento. ¡Manténgase enfocado en la pregunta aquí!)
Estoy comenzando el proceso lento y doloroso de recuperar el sitio web de los cachés de rastreadores web.
Hay algunas herramientas automatizadas para recuperar un sitio web de cachés de Internet spider (Yahoo, Bing, Google, etc.), como Warrick , pero obtuve algunos malos resultados al usar esto:
- Mi dirección IP fue prohibida rápidamente por Google por usarla
- Recibo muchos errores 500 y 503 y "espero 5 minutos ..."
- Finalmente, puedo recuperar el contenido de texto más rápido a mano
He tenido mucha mejor suerte al usar una lista de todas las publicaciones de blog, hacer clic en el caché de Google y guardar cada archivo individual como HTML. Si bien hay una gran cantidad de publicaciones en el blog, no hay que muchos, y me imagino que merezco un poco de auto-flagelación por no tener una mejor estrategia de copia de seguridad. De todos modos, lo importante es que he tenido buena suerte al obtener el texto de la publicación del blog de esta manera, y definitivamente puedo sacar el texto de las páginas web de los cachés de Internet. Según lo que he hecho hasta ahora, estoy seguro de que puedo recuperar todo el texto y los comentarios perdidos de la publicación del blog .
Sin embargo, las imágenes que van con cada publicación de blog están demostrando ... más difícil.
¿Algún consejo general para recuperar páginas de sitios web de cachés de Internet y, en particular, lugares para recuperar imágenes archivadas de páginas de sitios web ?
(Y, de nuevo, por favor, no hay conferencias de respaldo. ¡Tienes total, total, total razón! Pero tener razón no es resolver mi problema inmediato ... a menos que tengas una máquina del tiempo ...)
fuente
Respuestas:
Aquí está mi puñalada salvaje en la oscuridad: configure su servidor web para que devuelva 304 para cada solicitud de imagen, luego obtenga la recuperación mediante la publicación de una lista de URL en algún lugar y solicite en el podcast que todos sus lectores carguen cada URL y recojan cualquier imagen que se cargan de sus cachés locales. (Esto solo puede funcionar después de restaurar las páginas HTML, completar con las
<img ...>
etiquetas, lo que su pregunta parece implicar que podrá hacer).Esta es básicamente una forma elegante de decir: "obténgalo de las memorias caché del navegador web de sus lectores". Tiene muchos lectores y oyentes de podcasts, por lo que puede movilizar efectivamente a un gran número de personas que probablemente hayan visto su sitio web recientemente. Pero encontrar y extraer imágenes manualmente de los cachés de varios navegadores web es difícil, y todo el enfoque funciona mejor si es lo suficientemente fácil como para que muchas personas lo intenten y tengan éxito. Así, el enfoque 304. Todo lo que requiere de los lectores es que hagan clic en una serie de enlaces y arrastren cualquier imagen que se cargue en su navegador web (o haga clic derecho y guardar como, etc.) y luego se los envíe por correo electrónico o cárguelos a un ubicación central que configuró, o lo que sea. El principal inconveniente de este enfoque es que los cachés del navegador web no retroceden tanto en el tiempo. Pero solo se necesita un lector que cargó una publicación de 2006 en los últimos días para rescatar incluso una imagen muy antigua. Con una audiencia lo suficientemente grande, todo es posible.
fuente
canvas
y enviarlas a casa por AJAX.Algunos de nosotros lo seguimos con un lector RSS y no borramos los cachés. Tengo publicaciones de blog que parecen remontarse a 2006. No hay imágenes, por lo que puedo ver, pero podría ser mejor de lo que estás haciendo ahora.
fuente
(1) Extraiga una lista de los nombres de archivo de todas las imágenes faltantes de las copias de seguridad HTML. Te quedarás con algo como:
(2) Realice una búsqueda de imágenes de Google para esos nombres de archivo. Parece que MUCHOS de ellos han sido, um, "reflejados" por otros blogueros y están listos para ser tomados porque tienen el mismo nombre de archivo .
(3) Podría hacer esto de manera automatizada si resulta exitoso para, por ejemplo, más de 10 imágenes.
fuente
Al ir a la búsqueda de imágenes de Google y escribir
site:codinghorror.com
, al menos puede encontrar las versiones en miniatura de todas sus imágenes. No, no necesariamente ayuda, pero le brinda un punto de partida para recuperar esas miles de imágenes.Parece que Google almacena una miniatura más grande en algunos casos:
Google está a la izquierda, Bing a la derecha.
fuente
Lamento escuchar sobre los blogs. No voy a dar una conferencia. Pero encontré lo que parecen ser tus imágenes en Imageshack. ¿Son realmente tuyos o alguien ha guardado una copia de ellos?
http://profile.imageshack.us/user/codinghorror
Parecen tener lo que parecen 456 imágenes de tamaño completo. Esta podría ser la mejor apuesta para recuperar todo. Tal vez incluso pueden proporcionarle un basurero.
fuente
Jeff, he escrito algo para ti aquí.
En resumen, lo que te propongo que hagas es:
Configure el servidor web para que devuelva 304 para cada solicitud de imagen. 304 significa que el archivo no está modificado y esto significa que el navegador buscará el archivo de su caché si está presente allí. (crédito: esta respuesta SuperUser )
En cada página del sitio web, agregue un pequeño script para capturar los datos de la imagen y enviarlos al servidor.
Guarde los datos de la imagen en el servidor.
Voila!
Puede obtener los scripts desde el enlace dado.
fuente
Pruebe esta consulta en la máquina Wayback :
Esto le proporcionará todas las imágenes de codinghorror.com archivadas por archive.org. Esto devuelve 3878 imágenes, algunas de las cuales son duplicadas. No estará completo, pero un buen comienzo no obstante.
Para las imágenes restantes, puede usar las miniaturas de la memoria caché de un motor de búsqueda, y luego hacer una búsqueda inversa utilizando estas en http://www.tineye.com/ . Le da la imagen en miniatura y le dará una vista previa y un puntero a las imágenes que coinciden estrechamente encontradas en la web.
fuente
+1 en la
dd
recomendación si (1) el disco sin formato está disponible en alguna parte; y (2) las imágenes eran archivos simples. Luego, puede usar una herramienta forense de 'tallado de datos' para (por ejemplo) extraer todos los rangos creíbles que parecen ser JPG / PNG / GIF. He recuperado más del 95% de las fotos en un iPhone que se borró de esta manera.Las herramientas de código abierto 'más importantes' y su sucesor 'bisturí' se pueden utilizar para esto:
http://foremost.sourceforge.net/
http://www.digitalforensicssolutions.com/Scalpel/
fuente
Afortunadamente, las futuras generaciones estarán bien.
Incluso con solo algo de esta gran roca, los científicos / lingüistas descubrieron mucho.
Si faltan algunas imágenes, deje que alguien las resuelva en un par de miles de años.
Con suerte, te estás riendo un poco. :)
fuente
Siempre puedes probar archive.org, también. Usa la máquina del camino. Lo he usado para recuperar imágenes de mis sitios web.
fuente
Entonces, en el peor de los casos, no puedes recuperar nada. Maldición.
Intente agarrar los minificados de Google y ponerlos en TinEye , el motor de búsqueda de imágenes inversas. Con suerte, debería tomar cualquier duplicado o rehospedaje que la gente haya hecho.
fuente
Es una posibilidad remota, pero podría considerar:
Por ejemplo, vea Nirsoft Mozilla Cache Viewer :
(fuente: nirsoft.net )
Puede desenterrar rápidamente cualquier imagen de "blog.stackoverflow.com" que aún pueda tener a través de una simple línea de comando:
Nota: tienen el mismo explorador de caché para Chrome .
(fuente: nirsoft.net )
(Debo tener 15 días de fotos de blog.stackoverflow.com)
E Internet Explorer u Opera .
Luego actualice la lista pública para reflejar lo que los lectores informan haber encontrado en su caché.
fuente
En el pasado, he usado http://www.archive.org/ para extraer imágenes en caché. Es un poco impredecible pero me ha funcionado.
Además, cuando trato de recuperar fotos de archivo que he usado en un sitio antiguo, www.tineye.com es excelente cuando solo tengo las miniaturas y necesito las imágenes a tamaño completo.
Espero que esto te ayude. Buena suerte.
fuente
Probablemente esta no sea la solución más fácil o más completa, pero los servicios como Evernote generalmente guardan tanto el texto como las imágenes cuando se almacenan dentro de la aplicación; quizás algunos lectores útiles que guardaron sus artículos podrían guardar las imágenes y devolvérselas ?
fuente
He tenido grandes experiencias con archive.org . Incluso si no puede extraer todas las publicaciones de su blog del sitio, conservan instantáneas periódicas:
De esta manera, puede consultar cada página y ver las publicaciones de blog que realizó. Con los nombres de todas las publicaciones, puede encontrarlas fácilmente en el caché de Google si archive.org no lo tiene. El archivo intenta mantener las imágenes, el caché de Google tendrá imágenes, y no he vaciado mi caché recientemente para poder ayudarlo con las publicaciones de blog más recientes :)
fuente
¿Has probado tu propio caché de navegador local? Es muy probable que algunas de las cosas más recientes sigan ahí. http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache
(O podría compilar una lista de todas las imágenes que faltan y todos podrían revisar su caché para ver si podemos completar los espacios en blanco)
fuente
Una sugerencia para el futuro: utilizo Windows Live Writer para bloguear y guarda copias locales de publicaciones en mi máquina, además de publicarlas en el blog.
fuente
Hace unos cinco años, una encarnación temprana de un disco duro externo en el que estaba almacenando todas mis fotos digitales falló gravemente. Hice una imagen del disco duro usando
dd
y escribí una herramienta rudimentaria para recuperar todo lo que parecía una imagen JPEG. Saqué la mayoría de mis fotos de eso.Entonces, la pregunta es, ¿puede obtener una copia de la imagen del disco de la máquina virtual que contenía las imágenes?
fuente
El archivo web almacena en caché las imágenes. Está bajo una carga pesada en este momento, debería estar bien hasta 2008 más o menos.
http://web.archive.org/web/20080618014552rn%5F2/www.codinghorror.com/blog/
fuente
Sugiero la combinación de archive.org y un anonimato de solicitud como [Tor] [2]. Sugiero usar el anonimato porque de esa manera cada una de sus solicitudes tendrá una dirección IP y una ubicación aleatorias y de esa manera puede evitar que un archive.org (como lo hizo Google) evite la prohibición de un número inusualmente alto de solicitudes.
Buena suerte, hay muchas gemas en ese blog.
fuente
La máquina del camino tendrá algunos. Google cache y cachés similares tendrán algunos.
Una de las cosas más efectivas que podrá hacer es enviar por correo electrónico los carteles originales y pedir ayuda.
De hecho, tengo algunas recomendaciones de infraestructura, porque después de todo esto se limpia. El problema fundamental no son las copias de seguridad, es la falta de replicación del sitio y la falta de auditoría. Si me envía un correo electrónico al contenido del campo de correo electrónico privado, más tarde, cuando esté de nuevo en pie, me encantaría discutir el asunto con usted.
fuente
Si sus imágenes se almacenaron en un servicio externo como Flickr o un CDN (como se menciona en uno de sus podcasts), aún puede tener los recursos de imágenes allí.
Algunas de las imágenes se pueden encontrar buscando en Google Images y haciendo clic en "Buscar imágenes similares" , tal vez haya copias en otros sitios.
fuente
archive.org a veces oculta imágenes. Obtenga cada URL manualmente (o escriba un script corto) y consúltelas de esta manera:
string.Format ("GET / * / {0}", nextUri)
Por supuesto, va a ser bastante difícil buscarlo.
Podría tener algunos en la memoria caché de mi navegador. Si lo hago, los alojaré en alguna parte.
fuente
Si espera tratar de raspar las memorias caché de los usuarios, puede configurar el servidor para que responda
304 Not Modified
a todas las solicitudes condicional-GET ('If-Modified-Since' o 'If-None-Match'), que los navegadores usan para revalidar su material en caché.Si sus encabezados de almacenamiento en caché iniciales en contenido estático, como imágenes, eran bastante liberales, lo que permite que las cosas se almacenen en caché durante días o meses, podría seguir recibiendo solicitudes de revalidación por un tiempo. Establezca una cookie en esas solicitudes y solicite a esos usuarios que ejecuten un script en su caché para extraer las imágenes que aún tienen.
Sin embargo, tenga cuidado: en el momento en que comience a publicar contenido textual con recursos en línea que aún no están presentes, podría eliminar esas versiones en caché cuando los revalidadores lleguen a los 404.
fuente
Se podría utilizar TinEye a encontrar duplicados de las imágenes mediante la búsqueda en las miniaturas con caché de Google . Sin embargo, esto solo ayudará con las imágenes que haya tomado del sitio de otros.
fuente
A riesgo de señalar lo obvio, intente extraer las copias de seguridad de su propia computadora para las imágenes. Sé que mi estrategia de copia de seguridad es lo suficientemente casual como para tener múltiples copias de muchos archivos en unidades externas, discos grabados y en archivos zip / tar. ¡Buena suerte!
fuente
Logré recuperar estos archivos de mi caché Safari en Snow Leopard:
Si alguien más quiere intentarlo, he escrito un script de Python para extraerlo a ~ / codinghorror / filename, que he puesto en línea aquí .
Espero que esto ayude.
fuente
¿Tuviste la oportunidad de ver si tu proveedor de hosting tiene alguna copia de seguridad (algunas versiones anteriores)?
fuente
¿Cuánto valen estos datos para usted? Si vale una suma significativa (miles de dólares), considere pedirle a su proveedor de alojamiento el disco duro utilizado para almacenar los datos de su sitio web (en el caso de pérdida de datos debido a una falla de hardware). Luego puede llevar el disco al camino o algún otro servicio de recuperación de datos para ver qué puede obtener del disco. Esto puede ser difícil de negociar debido a la posibilidad de que los datos no recuperados de otras personas también estén en el disco, pero si realmente te importa, probablemente puedas resolverlo.
fuente
Lamento mucho escuchar esto y estoy muy molesto por ti, y por el momento: quería una copia fuera de línea de algunas de tus publicaciones e hice HTTrack en todo tu sitio, pero tuve que salir (esto fue hace un par de semanas) y Lo detuve.
Si el host está medio descendiente, y por el hecho de que supongo que es un buen cliente ... les pediría que le envíen los discos duros (como supongo que deberían estar usando RAID) o que se recuperen ellos mismos.
Si bien esto puede no ser un proceso rápido, hice esto con un host para un cliente y pude recuperar bases de datos enteras intactas (... básicamente, el host intentó una actualización para el panel de control que estaban usando y lo estropeó ... pero no se sobrescribió nada).
Pase lo que pase, ¡buena suerte de parte de todos tus fanáticos en los sitios SO!
fuente