En su experiencia, ¿qué caracteres Unicode, puntos de código, rangos fuera del BMP (Plano multilingüe básico) son los más comunes hasta ahora? Estos son los que requieren 4 bytes en UTF-8 o sustitutos en UTF-16.
Esperaba que la respuesta fueran caracteres chinos y japoneses utilizados en los nombres, pero no incluidos en los conjuntos de caracteres multibyte de CJK más extendidos, pero en el proyecto en el que trabajo más, el Wikcionario en inglés, hemos descubierto que el alfabeto gótico es mucho más común hasta ahora.
ACTUALIZAR
He escrito un par de herramientas de software para escanear Wikipedias completas en busca de caracteres que no sean BMP y, para mi sorpresa, descubrí que incluso en la Wikipedia japonesa, el alfabeto gótico es el más común. Esto también es cierto en la Wikipedia china, pero también tenía muchos caracteres chinos que se usaban hasta 50 o 70 veces, incluidos "𨭎", "𠬠" y "𩷶".
Respuestas:
Los emoji son ahora los caracteres no BMP más comunes con diferencia. 😂, también conocido como U + 1F602 CARA CON LÁGRIMAS DE ALEGRÍA, es el más común en la transmisión pública de Twitter. ¡Ocurre con más frecuencia que la tilde!
fuente
¡Excelente pregunta!
La respuesta son las letras matemáticas. El pasado mes de diciembre hice un escaneo de todo el corpus de PubMed Open Access y encontré estas cifras para los personajes astrales en él.
El primer número en las figuras a continuación es cuántas copias de cada punto de código dado encontré en todo el corpus. Primero, sin embargo, para darle una noción sobre las frecuencias relativas, aquí están los diez puntos de código trans-ASCII principales en ese corpus:
Y aquí ahora están los puntos de código trans-BMP, en orden de frecuencia descendente:
Yo realmente deseo que sabía lo que estaban utilizando U + 100002 hacer. :(
Si no aparecen en su navegador, debe instalar la fuente Symbola de George Douros . También tiene todos los divertidos puntos de código Unicode 6.0.0.
fuente
Para mí, los símbolos alfanuméricos matemáticos que se utilizan para la composición tipográfica matemática con fuentes OpenType como Cambria Math.
fuente