Preguntas etiquetadas con unicode

440
La mejor manera de revertir una cadena

Solo tuve que escribir una función inversa de cadena en C # 2.0 (es decir, LINQ no está disponible) y se me ocurrió esto: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse +=...

395
¿Qué es Unicode, UTF-8, UTF-16?

¿Cuál es la base de Unicode y por qué la necesidad de UTF-8 o UTF-16? Investigué esto en Google y busqué aquí también, pero no me queda claro. En VSS al hacer una comparación de archivos, a veces hay un mensaje que dice que los dos archivos tienen UTF diferentes. Por qué sería este el caso? Por...

360
¿Por qué 2+ 40 es igual a 42?

Estaba desconcertado cuando un colega me mostró esta línea de alertas de JavaScript 42. alert(2+ 40); Ejecutar fragmento de códigoHide resultsExpandir fragmento Resulta rápidamente que lo que parece un signo menos es en realidad un personaje arcano de Unicode con una semántica claramente...

359
¿Cómo hago grep para todos los caracteres no ASCII?

Tengo varios archivos XML muy grandes y estoy tratando de encontrar las líneas que contienen caracteres no ASCII. He intentado lo siguiente: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Pero esto devuelve todas las líneas del archivo, independientemente de si la línea contiene un carácter en el rango...

348
Cómo encontrar la longitud de una cadena en R

¿Cómo encontrar la longitud de una cadena (número de caracteres en una cadena) sin dividirla en R? Sé cómo encontrar la longitud de una lista pero no de una cadena. ¿Y qué hay de las cadenas Unicode? ¿Cómo encuentro la longitud (en bytes) y el número de caracteres (runas, símbolos) en una cadena...

257
UnicodeDecodeError, byte de continuación no válido

¿Por qué falla el siguiente artículo? ¿Y por qué tiene éxito con el códec "latin-1"? o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") resultados en: Traceback (most recent call last): File "<stdin>", line 1, in <module>...

244
Reemplazar caracteres no ASCII con un solo espacio

Necesito reemplazar todos los caracteres que no sean ASCII (\ x00- \ x7F) con un espacio. Me sorprende que esto no sea fácil en Python, a menos que me falte algo. La siguiente función simplemente elimina todos los caracteres que no son ASCII: def remove_non_ascii_1(text): return ''.join(i for i...

241
Python: ¿Eliminar \ xa0 de la cadena?

Actualmente estoy usando Beautiful Soup para analizar un archivo HTML y llamar get_text(), pero parece que me quedan muchos \ xa0 Unicode que representan espacios. ¿Hay alguna manera eficiente de eliminarlos en Python 2.7 y cambiarlos a espacios? Supongo que la pregunta más general sería: ¿hay...