He estado usando GNU SED por un par de años. Me da vueltas un poco a veces, pero hace un buen trabajo ... ¡para conjuntos de caracteres de un solo byte!
De vez en cuando noto que las referencias a GNU SED son compatibles con Unicode, pero lo más cercano que he visto de esto es su modo "binario" ... y el binario no es Unicode.
¿Puede GSED procesar un archivo de texto Unicode con resolución de CodePoint, incluyendo y especialmente \ r \ n (Windows) ... y si puede, ¿espera UTF-8, UTF-16 o qué? ¿Y cómo detecta SED la codificación?
10
Respuestas:
No sé mucho sobre sed, pero después de buscar en Google, parece tener soporte para una variedad de páginas de códigos a través de la variable de entorno LANG. Creo que UTF-8 es de hecho el valor predeterminado en ausencia de LANG. Sin embargo, no sé cómo está configurado el puerto de Windows. Tengo una fuerte sospecha de que sed no realiza ningún procesamiento de detección en absoluto en la secuencia de entrada.
Fuentes: /programming/67410/why-does-sed-fail-with-international-characters-and-how-to-fix http://omgili.com/mailinglist/cygwin/cygwin/com /20100520123926GA1432onderneming10xs4allnl.html
También puede intentar escapar de los caracteres como se menciona aquí: http://forums.whirlpool.net.au/forum-replies-archive.cfm/841095.html Sin embargo, eso parece muy engorroso.
fuente