Si intento wget en una página web, obtengo la página como html. ¿Es posible recuperar solo el texto de un archivo sin html asociado? (Esto es necesario para mí, ya que algunas de las páginas HTML que contiene el programa c se están descargando con etiquetas html. Tengo que abrirlo en el navegador y copiar manualmente el texto para crear un archivo .c).
17
.c
. No es difícil, pero depende de la estructura de la página. Si proporciona un enlace, alguien lo ayudará con el código exacto. De lo contrariosed
operl
son tus amigos.Respuestas:
wget
solo recuperará el documento. Si el documento está en HTML, lo que desea es el resultado de analizar el documento.Podría, por ejemplo, usar
lynx -dump -nolist
, si tiene lince alrededor.lynx
es un navegador web simple y liviano, que tiene la-dump
función, utilizada para generar el resultado del proceso de análisis.-nolist
evita la lista de enlaces al final, que aparecerá si la página tiene hipervínculos.Como mencionó @Thor, también
elinks
se puede usar para esto, ya que también tiene una-dump
opción (y tiene-no-references
que omitir la lista de enlaces). Puede ser especialmente útil si camina por algún sitio usando -sigh- frames (MTFBWY).Además, tenga en cuenta que, a menos que la página sea realmente solo un código C con etiquetas HTML, deberá verificar el resultado, solo para asegurarse de que no haya nada más que código C allí.
fuente
Si no tiene estas otras herramientas instaladas, solo wget, y la página no tiene formato, solo texto y enlaces, por ejemplo, código fuente o una lista de archivos, puede eliminar el HTML usando sed de esta manera:
Esto usa wget para volcar la fuente de la página en STDOUT y sed para quitar cualquier par <> y cualquier cosa entre ellos.
Luego puede redirigir la salida del comando sed al archivo que desea crear usando>:
NB: es posible que tenga espacios en blanco adicionales en el archivo que no desea (por ejemplo, las líneas tienen sangría en algunas columnas)
Puede ser más fácil usar su editor de texto para ordenar el archivo (o un formateador fuente mientras descarga el código fuente C).
Si necesita hacer lo mismo en cada línea del archivo, puede incluir un comando para hacerlo en el comando sed (aquí eliminando un espacio inicial):
fuente
solo para agregar otra herramienta. Prefiero
w3m
, que eslynx
como un navegador de consola. Es posible que desee ver lo que ya está disponible en su sistema.fuente