CentOS
¿Hay una manera fácil de convertir entidades especiales HTML de un flujo de datos? Estoy pasando datos a un script bash y, a veces, esos datos incluyen entidades especiales. Por ejemplo:
"prueba" & amp; prueba $ prueba! prueba @ # $% ^ & amp; * *
No estoy seguro de por qué algunos caracteres aparecen bien y otros no, pero desafortunadamente no tengo control sobre los datos que ingresan.
Estoy pensando que podría usar SED aquí, pero parece que sería engorroso y posiblemente propenso a falsos positivos. ¿Hay algún comando de Linux al que pueda canalizar que se especialice en decodificar este tipo de datos?
recode parece estar disponible en repositorios de paquetes predeterminados de las principales distribuciones de GNU / Linux. Por ejemplo, para decodificar entidades HTML en UTF-8:
fuente
Con Python 3:
fuente
Toma el archivo de texto de stdin:
Probablemente necesite bash> = versión 4
fuente