Al intentar convertir un archivo de texto en su equivalente ASCII, recibo un mensaje de error iconv: illegal input sequence at position
.
El comando que uso es iconv -f UTF-8 -t ascii//TRANSLIT file
El personaje ofensivo es æ
.
El archivo de texto en sí está presente aquí .
¿Por qué dice secuencia ilegal? El carácter de entrada es el carácter UTF-8 apropiado (U + 00E6).
text-processing
character-encoding
unicode
usuario13107
fuente
fuente
hexdump -C file
comando y obtuve0002b220 72 75 69 6e e6 0a 20 2d 2d 20 48 6f 72 61 63 65 |ruin.. -- Horace|
como salida.El archivo que vinculó parece ser UTF-8 dentro de un documento HTML
Si primero lo ejecuta a través de un convertidor de HTML a texto, p. Ej.
entonces el fragmento UTF-8 con el que parece tener problemas parece transliterar sin error, es decir
se convierte
Es
html2text
posible que la utilidad no esté instalada en su sistema; si no puede ubicarla / instalarla, hay otros convertidores, incluido un módulo de Python.fuente
file
comando dice ASCII, pero la razón es que solo mira el comienzo del archivo, y el carácter ISO-8859-1 aparece muy lejos, en la posición 181536.