unicode中的中文编码说明

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

编码表

平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).

平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).

平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).

平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).

平面4 to 13 (40000–DFFFF)尚未使用

平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)

平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)

平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

注意1

现在网上大多数用于判断中文字符的是U+4E00..U+9FA5这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF加上F900-FAFF加上FE30-FE4F。

其中:

2E80-A4CF

包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根

F900-FAFF

中日朝兼容表意文字

FE30-FE4F

中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF || F900-FAFF||FE30-FE4F 注意2

全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

注意3

网上常用的19968-40869,这只是简体汉字的范围。

相关文档
最新文档