Últimamente, he visto que scribd hace que sea muy difícil para los usuarios (usuarios gratuitos) navegar a través de un documento alojado en su sitio. No existe la posibilidad de buscar dentro de un documento, y mucho menos poder descargar el mismo.
Al usar JavaScript, cargan páginas a pedido en el navegador, por lo que la función "guardar como" del navegador no ayuda mucho.
Para mi sorpresa, ¡vi que incluso copiar / pegar copias de texto galimatías en el portapapeles! Para verificar qué estaba mal, apagué javascript en el navegador y luego cargué el mismo documento nuevamente. Voila, vi el galimatías. Y así, parece que el javascript de scribd de alguna manera decodifica el texto galimatías y luego lo muestra en el navegador.
Ahora, mi pregunta es, incluso después de que javascript esté habilitado, y el texto se represente correctamente en el navegador, si voy y miro los objetos DOM correspondientes al texto que selecciono, aún veo el texto galimatías.
Entonces, ahora estoy confundido. El texto se muestra bien al usuario, pero los objetos DOM todavía contienen galimatías. Entonces, la pregunta es, ¿qué tipo de ganchos / código javascript está usando el sitio, para poder retener el galimatías en los objetos DOM y aún representar el texto decodificado?
¿Hay alguna manera de acceder al texto decodificado? Mi intención no es aplicar ingeniería inversa al algoritmo para decodificar, sino localizar dónde se almacena el texto decodificado.
El documento de ejemplo es:
¡Vea lo que sucede cuando activa / desactiva Javascript!
fuente
Respuestas:
Mira el
font-family
para elspan
. Usan una fuente personalizada (en este casoff6
).Deben hacer esto para que se muestren más documentos PDF correctamente. Al igual que en los documentos PDF, no es necesario que el texto del documento use un juego de caracteres estándar. Solo necesita usar uno que tenga un código que se asigne a los glifos en la fuente incrustada.
fuente
Si observa el texto que se muestra frente al "galimatías", puede ver que algunas de las letras son iguales, mientras que algunas de las letras se sustituyen. Por ejemplo, "Mltmrprfsm Jblbemr" es "Enterprise Manager". Con suficiente texto, debería poder construir una tabla de traducción rápida. Ya sabemos que M se traduce en E , L -> N , T , R y P son claros, F -> R , etc. Dado el tiempo, el trabajo de detective y las habilidades de programación modestas, uno podría traducir todo el documento.
Por supuesto, no hay garantía de que el próximo documento use la misma
ff6
fuente que Dan D. mencionó , por lo que tomar esa fuente para uso local debería ser su próximo paso si desea guardar el texto para más adelante.fuente
Puede intentar capturar una captura de pantalla utilizando la herramienta de recorte del navegador y luego usar cualquiera de los sitios ocr en línea disponibles para convertirlo en texto. Eso debería resolverlo.
fuente