He notado que el file
comando de Linux no devuelve ningún valor si un archivo xml tiene el <?xml version="1.0" encoding="UTF-8"?>
en la parte superior. Si falta el prólogo, file -i somefile.xml
devuelve algún valor. ¿Alguien tiene alguna idea de por qué sucede esto? Básicamente, estoy interesado en conocer la codificación del archivo y he encontrado file -i filename.xml
algo útil, pero ¿hay algo mejor disponible en Linux para calcular la codificación y el juego de caracteres?
1
Adivinar codificaciones es un arte negro que incluso los navegadores populares no pueden hacer exactamente bien. Le sugiero que deje que su analizador obedezca la codificación XML, rompa en voz alta si la codificación no es válida, y que corrija los errores de codificación en la fuente.
fuente