Estoy extrayendo URL de un sitio web usando cURL como se muestra a continuación.
curl www.somesite.com | grep "<a href=.*title=" > new.txt
Mi archivo new.txt es el siguiente.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Sin embargo, necesito extraer solo la información a continuación.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Estoy tratando de ignorar los <a href
que tienen información en ellos y cuyo título termina con NOTNEEDED .
¿Cómo puedo modificar mi declaración grep?
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
?Respuestas:
No estoy siguiendo completamente tu ejemplo + la descripción, pero parece que lo que quieres es esto:
Entonces, para su ejemplo:
fuente
La página del manual de grep dice:
Puede usar expresiones regulares para múltiples inversiones:
o
fuente