Estoy escribiendo un rastreador en Ruby (1.9) que consume mucho HTML de muchos sitios aleatorios. Al intentar extraer enlaces, decidí usar simplemente en .scan(/href="(.*?)"/i)lugar de nokogiri / hpricot (mayor aceleración). El problema es que ahora recibo muchos " invalid byte sequence in UTF-8"...