U + 4E00..U + 9FFF является частью набора, но не все
Какой полный диапазон для китайских иероглифов в Юникоде?
Ответ 1
Может быть, вы найдете полный список в FAQ по CJK Unicode (который включает символы "китайский, японский и корейский")
В документе " Восточноазиатский сценарий " упоминаются:
Блоки, содержащие хан-идеограммы
Идеографические символы хана находятся в пяти основных блоках стандарта Unicode, как показано в таблице 12-2.
Таблица 12-2. Блоки, содержащие хан-идеограммы
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Примечание: диапазоны блоков могут изменяться с течением времени: последние находятся в унифицированных идеографиях CJK.
Смотрите также Википедия:
Ответ 2
В настоящее время Unicode имеет 74605 символов CJK. Символы CJK включают не только символы, используемые китайцами, но также японские кандзи, корейский ханджа и вьетнамский Chu Nom. Некоторые символы CJK являются не китайскими иероглифами.
1) 20941 символов из Блок унифицированных идеографов CJK.
Кодовые точки U + 4E00 до U + 9FCC.
2) 6582 символа из CJKUI Ext A block.
Кодовые точки U + 3400 до U + 4DB5. Unicode 3.0 (1999).
3) 42711 символов из блок CJKUI Ext B.
Кодовые точки U + 20000 до U + 2A6D6. Unicode 3.1 (2001).
- U + 20000 - U + 215FF
- U + 21600 - U + 230FF
- U + 23100 - U + 245FF
- U + 24600 - U + 260FF
- U + 26100 - U + 275FF
- U + 27600 - U + 290FF
- U + 29100 - U + 2A6DF
3) 4149 символов из блок CJKUI Ext C.
Кодовые точки U + 2A700 до U + 2B734. Unicode 5.2 (2009).
4) 222 символа из блок CJKUI Ext D.
Кодовые точки U + 2B740 до U + 2B81D. Unicode 6.0 (2010).
5) Блок CJKUI Ext E.
Если выше не достаточно спагетти, посмотрите известные проблемы. Удачи =)
Ответ 3
Точные диапазоны для китайских символов (кроме расширений): [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
Дополнение радикалов CJK - это блок Unicode, содержащий альтернативные, часто позиционные формы радикалов Канси. Они используются заголовками в словарных индексах и других идеографических коллекциях CJK, организованных радикальным ударом.
Kanbun - это блок Unicode, содержащий символы аннотации, используемые в японских копиях классических китайских текстов для указания порядка чтения.
CJK Unified Ideographs Extension-A - это блок Unicode, содержащий редкие идеограммы Хань.
CJK Unified Ideographs - это блок Unicode, содержащий наиболее распространенные идеографии CJK, используемые в современном китайском и японском языках.
Идеографы совместимости с CJK - это блок Unicode, созданный для того, чтобы содержать символы Han, которые были закодированы в нескольких местах в других установленных кодировках символов, в дополнение к их назначениям CJK Unified Ideographs, чтобы сохранить совместимость между Unicode и этими кодировками.
За подробностями обращайтесь сюда, а расширения приведены в других ответах.
Ответ 4
Unicode версия 11.0.0
В Unicode сценарии на китайском, японском и корейском (CJK) имеют общую основу, известную как символы CJK.
Эти диапазоны часто содержат неназначенные или зарезервированные кодовые точки (сосут как U + 2E9A, U + 2EF4 - 2EFF),
Китайские символы
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
- В блоке CJK Unified Ideographs я заметил, что во многих ответах используется верхняя граница 9FCC, но U + 9FCD (鿍) действительно является китайским символом. И все символы в этом блоке являются китайскими (также используются на японском, корейском и т.д.).
- Большинство символов в CJK Unified Ideograohs Ext (кроме Ext F, только 17% в Ext F являются китайскими иероглифами), являются традиционными китайскими иероглифами, которые редко используются в Китае.
- Form - это китайская иероглифическая форма нуля, которая все еще используется сегодня
Поэтому диапазон
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Символы CJK, но никогда не используются на китайском языке
Они обыкновенные ханы используются только для совместимости.
Их практически невозможно увидеть в любой китайской книге, статье, письме и т.д.
все символы здесь имеют один соответствующий глиф-идентичный китайский символ. Такие как 金 (U + F90A) и 金 (U + 91D1), они одинаковы в Glyph.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
CJK связанные символы
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
- некоторые блоки, такие как Hangul Compatibility Jamo, оставлены из-за отсутствия отношения к китайскому языку.
- Kangxi Radicals - это не китайские иероглифы, это графическая составляющая китайских символов, они используются специально для выражения радикалов .eg ⼻ (U + 2F3B) и 彳 (U + 5F73), ⻜ (U + 2EDC) и 飞 (U +) 98DE)
Другая распространенная пунктуация появляется на китайском
Это широкий диапазон, некоторые знаки препинания, возможно, никогда не используются, некоторые знаки препинания, такие как ……""
, так часто используются в китайском языке.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Есть также много связанных с китайцами символов, таких как символы гексаграммы Ицзин или Канбун, но это в любом случае не по теме. Я пишу не китайские иероглифы в CJK, чтобы лучше объяснить, что такое китайские иероглифы. И диапазоны выше уже охватывают почти все символы в китайской письменности, кроме математики и других специальных обозначений.
дополнительный
CJK Символы и Пунктуация
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Полуширина и Полноширинные формы
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
обращаться
- https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (на китайском языке обратите внимание на правую боковую панель)
- https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (обратите внимание на нижнюю таблицу)
- http://www.unicode.org
Ответ 5
Коды Unicode блокируют, что остальные ответы, несомненно, охватывают большинство китайских символов Юникода, но также проверяют некоторые из этих других блоков кода.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
Смотрите мое более полное обсуждение здесь. И этот сайт удобен для просмотра Юникода.
Ответ 6
Подводя итог, это звучит так:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]