¿Cuál es la gama completa de caracteres chinos en Unicode?

95

U + 4E00..U + 9FFF es parte del conjunto completo, pero no todos

Dios mio
fuente
3
Simplemente vincularía un artículo de wikipedia aquí, ya que el rango de bloques se actualizaría de vez en cuando, por lo que es mejor vincular algo que cambia dinámicamente a ratger tgan dando una respuesta estática ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Respuestas:

104

Puede que encuentre una lista completa a través de las preguntas frecuentes de CJK Unicode (que incluyen caracteres "chinos, japoneses y coreanos")

El documento " Escritura de Asia Oriental " menciona:

Bloques que contienen ideogramas Han

Los caracteres ideográficos Han se encuentran en cinco bloques principales del estándar Unicode, como se muestra en la Tabla 12-2

Tabla 12-2. Bloques que contienen ideogramas Han

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Nota: los rangos de bloques pueden evolucionar con el tiempo: el último está en CJK Unified Ideographs .

Véase también Wikipedia:

VonC
fuente
También puede incluir U + AC00 - U + D7AF (sílabas Hangul).
Flimm
12
@Flimm: Hangul no es parte del estándar chino; Hangul es coreano. Idioma coreano hace usos Hanja ( "escritura china"), pero apenas y sólo para algunas cosas tradicionales (como los últimos nombres, monumentos, lugares ...) que no pueden ser transcritos en Hangul. El OP preguntó sobre el chino específicamente, por lo que no era necesario que el Respondedor incluyera Hangul. :-)
omninonsense
1
La lista parece no cubrir la puntuación ("。").
Michał Woliński
1
@ MichałWoliński CJK El rango de símbolos y puntuación es 3000-303F
Mariano
Aprendí que la Extensión A de ideogramas unificados de CJK es de 3400 a 4dbf en lugar de 3400 a 4dff.
Lerner Zhang
48

Unicode tiene actualmente 74605 caracteres CJK. Los caracteres CJK no solo incluyen caracteres utilizados en chino, sino también en kanji japonés, hanja coreano y Chu Nom vietnamita . Algunos caracteres CJK no son caracteres chinos.

1) 20941 caracteres del bloque de ideogramas unificados de CJK .

Puntos de código U + 4E00 a U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 caracteres desde el bloque CJKUI Ext A .

Puntos de código U + 3400 a U + 4DB5 . Unicode 3.0 (1999).

3) 42711 caracteres desde el bloque CJKUI Ext B .

Puntos de código U + 20000 a U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 caracteres desde el bloque CJKUI Ext C .

Puntos de código U + 2A700 a U + 2B734 . Unicode 5.2 (2009).

4) 222 caracteres desde el bloque CJKUI Ext D .

Puntos de código U + 2B740 a U + 2B81D . Unicode 6.0 (2010).

5) Bloque CJKUI Ext E.

Próximamente

Si lo anterior no es lo suficientemente espagueti, eche un vistazo a los problemas conocidos . Diviértete =)

Pacerier
fuente
1
Hola, ¿puedes dar un ejemplo de un ideograma CJK (preferiblemente del plano básico) que no sea un carácter chino? Pensé que los caracteres de otros idiomas (japonés, coreano) que no son también caracteres chinos aparecen en otro bloque (por ejemplo, el bloque Hangul Jamo, en el caso del coreano) ...
Adam Burley
Intente buscar en 'Gukja', 'Kokuji' y 'Chữ Nôm'. U + 4E44, 乄, es un carácter CJK solo en japonés.
Ṃųỻịgǻňạcểơửṩ
21

Los rangos exactos de caracteres chinos (excepto las extensiones) son [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

El suplemento de radicales CJK es un bloque Unicode que contiene formas alternativas, a menudo posicionales, de los radicales Kangxi. Se utilizan encabezados en índices de diccionario y otras colecciones de ideogramas de CJK organizadas por trazo radical.

  1. [\u3190-\u319f]

Kanbun es un bloque Unicode que contiene caracteres de anotación utilizados en copias japonesas de textos chinos clásicos para indicar el orden de lectura.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A es un bloque Unicode que contiene ideogramas Han raros.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs es un bloque Unicode que contiene los ideogramas CJK más comunes utilizados en chino y japonés modernos.

  1. [\uF900-\uFAAD]

Los ideogramas de compatibilidad CJK es un bloque Unicode creado para contener caracteres Han que se codificaron en varias ubicaciones en otras codificaciones de caracteres establecidas, además de sus asignaciones de ideogramas unificados CJK, con el fin de mantener la compatibilidad de ida y vuelta entre Unicode y esas codificaciones.

Para obtener más detalles, consulte aquí , y las extensiones se proporcionan en otras respuestas.

Lerner Zhang
fuente
¿Podría el que ha votado negativamente esta respuesta por favor decirme el motivo?
Lerner Zhang
2
No voté en contra, pero ¿qué pasa con las extensiones B, C, D y E?
Suragch
@Suragch Esas extensiones se han proporcionado correctamente en otras respuestas, por lo que no es necesario que las vuelva a escribir. Solo separé claramente los rangos intermedios.
Lerner Zhang
1. El rango del Suplemento de Radicales CJK es 2E80—2EFF 2. Los Radicales Kangxi no son caracteres chinos, son un componente gráfico de caracteres chinos, se utilizan especialmente para expresar radicales, .eg ⼻ (U + 2F3B) y 彳 (U + 5F73 ), ⻜ (U + 2EDC) y 飞 (U + 98DE) 3. Si cree que los kanbun son caracteres chinos, ¿por qué no los ideogramas de compatibilidad CJK? ¿Por qué no adjuntar cartas y meses de CJK?
Voyager
@rambler Gracias por tu consejo. Creo que cuando procesamos el carácter chino deberíamos considerar a los radicales Kangxi y Kanbun. Los ideogramas de compatibilidad CJK son buenos, pero las letras CJK adjuntas y los meses son demasiado raros y no creo que debamos considerarlos.
Lerner Zhang
10

Unicode versión 11.0.0

En Unicode, los scripts en chino, japonés y coreano (CJK) comparten un trasfondo común, conocido colectivamente como caracteres CJK.

Estos rangos a menudo contienen puntos de código no asignados o reservados (como U + 2E9A , U + 2EF4 - 2EFF),

caracteres chinos

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • En el bloque de ideogramas unificados de CJK , noto que muchas respuestas usan el límite superior 9FCC, pero U + 9FCD (鿍) es de hecho un carácter chino. Y todos los caracteres de este bloque son caracteres chinos (también se utilizan en japonés o coreano, etc.).
  • La mayoría de los caracteres en CJK Unified Ideograohs Ext (excepto Ext F, solo el 17% en Ext F son caracteres chinos), son caracteres chinos tradicionales, que rara vez se usan en China.
  • 〇 es la forma del carácter chino de cero y todavía se usa hoy

Por lo tanto, el rango es

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Caracteres CJK pero nunca usados ​​en chino

Son Common Han que se utilizan solo por compatibilidad.

Es casi imposible verlos aparecer en cualquier libro, artículo, escrito, etc. chino.

todos los caracteres aquí tienen un carácter chino idéntico al glifo correspondiente. Como 金 (U + F90A) y 金 (U + 91D1), son idénticos en Glyph.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

Símbolos relacionados con CJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • algunos bloques como Hangul Compatibility Jamo se abandonan porque no tienen relación con el chino.
  • Kangxi Radicals no son caracteres chinos, es un componente gráfico de los caracteres chinos, se utilizan especialmente para expresar radicales, .eg ⼻ (U + 2F3B) y 彳 (U + 5F73), ⻜ (U + 2EDC) y 飞 (U + 98DE)

Aparecen otros signos de puntuación habituales en chino

Este es un rango amplio, algunos signos de puntuación tal vez nunca se usen, algunos signos de puntuación como los que ……”“se usan tanto en chino.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

También hay muchos símbolos relacionados con el chino, como los símbolos del hexagrama de Yijing o Kanbun , pero de todos modos está fuera de tema. Escribo caracteres no chinos en CJK para tener una mejor explicación de qué son los caracteres chinos. Y los rangos anteriores ya cubren casi todos los caracteres que aparecen en escritura china, excepto matemáticas y otras notación especial.

Suplementario

Símbolos y puntuación de CJK

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Formularios de ancho medio y ancho completo

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Referir

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (en chino, observe la barra lateral derecha)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (observe la tabla inferior)
  3. http://www.unicode.org
Viajero
fuente
2

Los bloques de código Unicode que dieron las otras respuestas ciertamente cubren la mayoría de los caracteres Unicode chinos, pero también revise algunos de estos otros bloques de código.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Vea mi discusión más completa aquí . Y este sitio es conveniente para navegar por Unicode.

Suragch
fuente
1

Para resumir, parece que estos son ellos:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Lance Pollard
fuente