Me gustaría poder correr
unicode-names 'abç'
y vea los nombres de caracteres Unicode correspondientes:
LATIN SMALL LETTER A
LATIN SMALL LETTER B
LATIN SMALL LETTER C WITH CEDILLA
Imprimir una cadena como una serie de nombres de glifos Unicode sería útil en varios casos:
- Distinguir caracteres fácilmente confundidos como "i" e "í".
- Explique qué contiene realmente una cadena literal (por ejemplo, caracteres no imprimibles o sin asignar, de ancho cero).
command-line
unicode
l0b0
fuente
fuente
echo -n …— | uniname -bcegpu
No sé una buena manera de verificar esto
bash
, pero Python tiene una base de datos Unicode incorporada que puede usar como en un script como este:Puede usar este script de esta manera (suponiendo que lo haya llamado
unicode-names
):La base de datos arroja una
ValueError
excepción para cualquier carácter que no conozca, por lo que imprimimos sus puntos de código en decimal (generalmente son caracteres no imprimibles).Advertencia: el script asume que su terminal está codificada en UTF-8. Si no es así, debe cambiar el argumento del
decode()
método. Python admite una amplia selección de codificaciones, la suya definitivamente estará allí.fuente
sys.getdefaultencoding()
.