Chapter4-汉字编码和输入输出
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字编码和输入输出
17 区 1 2 3 4 5 6 7 8 9 0 薄 雹保 堡 饱 宝 抱 报 暴 1 豹 鲍 爆 杯 碑 悲 卑 北 辈背 2 贝 钡 倍 狈 备 惫 焙 被 奔苯 3 本 笨 崩 绷 甭 泵 蹦 迸 逼鼻 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙毖 5 币 庇 痹 闭 敝 弊 必 辟 壁臂 6 避 陛 鞭 边 编 贬 扁 便 变卞 7 辨 辩 辫 遍 标 彪 膘 表 鳖憋 8 别 瘪 彬 斌 濒 滨 宾 摈 兵冰 9 柄 丙 秉 饼 炳
15
国标、区位、“准国标”、机内码
94:美标中形象码的总数,33--126 汉字区、位码各加上32,就会与美标形象码的 范围重合,称为该字的“国标码”,与其相对应的 两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H
汉字编码和输入输出 7
国标、区位、“准国标” 、机内码
国标:中华人民共和国国家标准信息交换用汉 字编码 国标(GB2312-80)表(基本表)把七千余汉 字、以及标点符号、外文字母等,排成一个94 行、94列的方阵 每一横行叫一个“区”,每个区有九十四个“位” 一个汉字在方阵中的坐标,称为该字的“区位 码” 例如“中”字在方阵中处于第54区第48位, 它的区位码就是5448
9
汉字编码和输入输出
例
01 区 1 2 3 4 5 6 7 8 9 0 、 。 · ˉ ˇ ¨ 〃 々 1 — ~ ‖ … ‘ ’ “ ” 〔 〕 2 〈 〉 《 》 「 」 『 』 〖 〗 3 【 】 ± × ÷ ∶ ∧ ∨ ∑ ∏ 4 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙ 5 ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ 6 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″ 7 ℃ $ ¤ ¢ £ ‰ § № ☆ ★ 8 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ 9 → ← ↑ ↓ 〓 02 区 1 2 3 4 5 6 7 8 9 0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ 1 ⅹ ⒈ ⒉ ⒊ 2 ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ 3 ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ 4 ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀ 5 ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ 6 ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ㈠ 7 ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ 8 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ 9 Ⅹ Ⅺ Ⅻ
汉字编码和输入输出
16
BIG5码
针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用
第一字节 A 1~A 2 非汉字 A3 C6 C 7~C 8 一级汉字 二级汉字 A 4~C 5 C6 C 9~F8 81~A 0 第二字节 40~7E /A 1~FE 40~7E/A 1~E0 A 1~FE 40~7E /A 1~FE 40~7E /A 1~FE 40~7E 40~7E /A 1~FE 40~7E/A 1~D 5
汉字编码和输入输出
87 区 1 2 3 4 5 6 7 8 9 0 鳌 鳍 鳎 鳏 鳐 鳓 鳔 鳕 鳗 1 鳘 鳙 鳜 鳝 鳟 鳢 靼 鞅 鞑 鞒 2 鞔 鞯 鞫 鞣 鞲 鞴 骱 骰 骷 鹘 3 骶 骺 骼 髁 髀 髅 髂 髋 髌 髑 4 魅 魃 魇 魉 魈 魍 魑 飨 餍 餮 5 饕 饔 髟 髡 髦 髯 髫 髻 髭 髹 6 鬈 鬏 鬓 鬟 鬣 麽 麾 縻 麂 麇 7 麈 麋 麒 鏖 麝 麟 黛 黜 黝 黠 8 黟 黢 黩 黧 黥 黪 黯 鼢 鼬 鼯 9 鼹 鼷 鼽 鼾 齄
14
汉字编码和输入输出
例
86 区 1 2 3 4 5 6 7 8 9 0 觥 觫 觯 訾 謦 靓 雩 雳 雯 1 霆 霁 霈 霏 霎 霪 霭 霰 霾 龀 2 龃 龅 龆 龇 龈 龉 龊 龌 黾 鼋 3 鼍 隹 隼 隽 雎 雒 瞿 雠 銎 銮 4 鋈 錾 鍪 鏊 鎏 鐾 鑫 鱿 鲂 鲅 5 鲆 鲇 鲈 稣 鲋 鲎 鲐 鲑 鲒 鲔 6 鲕 鲚 鲛 鲞 鲟 鲠 鲡 鲢 鲣 鲥 7 鲦 鲧 鲨 鲩 鲫 鲭 鲮 鲰 鲱 鲲 8 鲳 鲴 鲵 鲶 鲷 鲺 鲻 鲼 鲽 鳄 9 鳅 鳆 鳇 鳊 鳋
10
汉字编码和输入输出
例
09 区 1 2 3 4 5 6 7 8 9 0 ─ ━ │ ┃ ┄ ┅ 1 ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏ 2 ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ 3 ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ 4 ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭ 5 ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ 6 ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁ 7 ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋ 8 9
汉字编码和输入输出
55 区 1 2 3 4 5 6 7 8 9 0 住 注 祝 驻 抓 爪 拽 专 砖 1 转 撰 赚 篆 桩 庄 装 妆 撞 壮 2 状 椎 锥 追 赘 坠 缀 谆 准 捉 3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊 4 兹 咨 资 姿 滋 淄 孜 紫 仔 籽 5 滓 子 自 渍 字 鬃 棕 踪 宗 综 6 总 纵 邹 走 奏 揍 租 足 卒 族 7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪 8 尊 遵 昨 左 佐 柞 做 作 坐 座 9
汉字编码和输入输出 18
Unicode
英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓 是一个企业联盟集团的名称,由美国的HP、 Microsoft、IBM、Apple等几家知名的大型计 算机企业所组成,成立该集团的宗旨就是要推 进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致 的,并行的
汉字编码和输入输出 3
主要汉字(文字)编码标准与规范
ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode
汉字编码和输入输出 4
汉字的几种通行名称
Hanzi, Hantsu, 汉字 Ideographic character,表意字符,中文 字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan
汉字编码和输入输出
刘秉权
哈工大智能技术与自然语言处理研究室 2006年11月
汉字编码
现状 主要编码标准和规范 国标码 Unicode Windows对Unicode的支持 GB18030
汉字编码和输入输出
2
汉字编码现状及其根源
多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字 简繁体汉字并存 地区、国家间的文化、政治差异增加了汉字统 一编码的难度
汉字编码和输入输出 19
CJK-中日韩统一汉字
把中国、日本与韩国的英文称谓的首字 母用于ISO/IEC 10646中的中、日、韩统 一编码汉字的简称 Unihan CJKV或许更准确,V代表越南
汉字编码和输入输出
20
ISO/IEC 10646 的体系结构
四维的编码空间 总体上分为128个三维组(group), group的值范围是 从00到7F 每一组包含256个平面(plane),每一个平面包含256行 (row),每一行包含256个字位(cell),又称为 “列”,plane、row、cell的值范围都是从00到FF全编码 整个编码字符集的每个字符都是由4个八位序列表 示,(按照组八位、面八位、行八位、列八位的顺序) 可编码空间为:128*256*256*256=32K*64K
汉字编码和输入输出 5
ASCII码
美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规 范编码 包括33个控制码,一个空格码,和94个 形象码 形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等 国际上大部分电脑的通用编码
汉字编码和输入输出 6
文本文件与二进制文件
字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致 文本文件(ASCII Text Files) :美标形象码或空 格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换
汉字编码和输入输出 11
例
16 区 1 2 3 4 5 6 7 8 9 0 啊 阿 埃 挨哎 唉 哀 皑 癌 1 蔼 矮 艾 碍 爱 隘 鞍 氨安 俺 2 按 暗 岸 胺 案 肮 昂 盎凹 敖 3 熬 翱 袄 傲 奥 懊 澳 芭捌 扒 4 叭 吧 笆 八 疤 巴 拔 跋靶 把 5 耙 坝 霸 罢 爸 白 柏 百摆 佰 6 败 拜 稗 斑 班 搬 扳 般颁 板 7 版 扮 拌 伴 瓣 半 办 绊邦 帮 8 梆 榜 膀 绑 棒 磅 蚌 镑傍 谤 9 苞 胞 包 褒 剥
12
例
54 区 1 2 3 4 5 6 7 8 9 0 帧 症 郑 证 芝 枝 支 吱 蜘 1 知 肢 脂 汁 之 织 职 直 植 殖 2 执 值 侄 址 指 止 趾 只 旨 纸 3 志 挚 掷 至 致 置 帜 峙 制 智 4 秩 稚 质 炙 痔 滞 治 窒 中 盅 5 忠 钟 衷 终 种 肿 重 仲 众 舟 6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 9 助 蛀 贮 铸 筑
汉字编码Hale Waihona Puke Baidu输入输出
21
ISO/IEC 10646体系结构图
G ro u p 7 F
P la n e 0 0 o f 7 F
13
例
56 区 1 2 3 4 5 6 7 8 9 0 亍 丌 兀 丐 廿 卅 丕 亘 丞 1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻 2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟 3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍 4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮 5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿 6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐 7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫 8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫 9 佞 佧 攸 佚 佝 57 区 1 2 3 4 5 6 7 8 9 0 佟 佗 伲 伽 佶 佴 侑 侉 侃 1 侏 佾 佻 侪 佼 侬 侔 俦 俨 俪 2 俅 俚 俣 俜 俑 俟 俸 倩 偌 俳 3 倬 倏 倮 倭 俾 倜 倌 倥 倨 偾 4 偃 偕 偈 偎 偬 偻 傥 傧 傩 傺 5 僖 儆 僭 僬 僦 僮 儇 儋 仝 氽 6 佘 佥 俎 龠 汆 籴 兮 巽 黉 馘 7 冁 夔 勹 匍 訇 匐 凫 夙 兕 亠 8 兖 亳 衮 袤 亵 脔 裒 禀 嬴 蠃 9 羸 冫 冱 冽 冼
汉字编码和输入输出 8
区位码表
区位码来源于信息交换用汉字编码字符集(基本集)国家标准 (GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55 区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横 (一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔 相同按第二笔,依次类推。 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首 基本相同,略有改并。部首次序及同部首字按笔划数排列,同笔 划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点 (丶)、折(乙)为序。起笔相同按第二笔,依次类推。 查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是 1610。
汉字编码和输入输出
17
ISO/IEC 10646
一个国际标准编号,国际标准化组织 (ISO)1993年正式颁布 英文全称:Information technology Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术--通用多八位编码 字符集,亦称大字符集 宗旨:全球所有文种统一编码
17 区 1 2 3 4 5 6 7 8 9 0 薄 雹保 堡 饱 宝 抱 报 暴 1 豹 鲍 爆 杯 碑 悲 卑 北 辈背 2 贝 钡 倍 狈 备 惫 焙 被 奔苯 3 本 笨 崩 绷 甭 泵 蹦 迸 逼鼻 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙毖 5 币 庇 痹 闭 敝 弊 必 辟 壁臂 6 避 陛 鞭 边 编 贬 扁 便 变卞 7 辨 辩 辫 遍 标 彪 膘 表 鳖憋 8 别 瘪 彬 斌 濒 滨 宾 摈 兵冰 9 柄 丙 秉 饼 炳
15
国标、区位、“准国标”、机内码
94:美标中形象码的总数,33--126 汉字区、位码各加上32,就会与美标形象码的 范围重合,称为该字的“国标码”,与其相对应的 两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H
汉字编码和输入输出 7
国标、区位、“准国标” 、机内码
国标:中华人民共和国国家标准信息交换用汉 字编码 国标(GB2312-80)表(基本表)把七千余汉 字、以及标点符号、外文字母等,排成一个94 行、94列的方阵 每一横行叫一个“区”,每个区有九十四个“位” 一个汉字在方阵中的坐标,称为该字的“区位 码” 例如“中”字在方阵中处于第54区第48位, 它的区位码就是5448
9
汉字编码和输入输出
例
01 区 1 2 3 4 5 6 7 8 9 0 、 。 · ˉ ˇ ¨ 〃 々 1 — ~ ‖ … ‘ ’ “ ” 〔 〕 2 〈 〉 《 》 「 」 『 』 〖 〗 3 【 】 ± × ÷ ∶ ∧ ∨ ∑ ∏ 4 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙ 5 ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ 6 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″ 7 ℃ $ ¤ ¢ £ ‰ § № ☆ ★ 8 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ 9 → ← ↑ ↓ 〓 02 区 1 2 3 4 5 6 7 8 9 0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ 1 ⅹ ⒈ ⒉ ⒊ 2 ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ 3 ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ 4 ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀ 5 ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ 6 ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ㈠ 7 ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ 8 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ 9 Ⅹ Ⅺ Ⅻ
汉字编码和输入输出
16
BIG5码
针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用
第一字节 A 1~A 2 非汉字 A3 C6 C 7~C 8 一级汉字 二级汉字 A 4~C 5 C6 C 9~F8 81~A 0 第二字节 40~7E /A 1~FE 40~7E/A 1~E0 A 1~FE 40~7E /A 1~FE 40~7E /A 1~FE 40~7E 40~7E /A 1~FE 40~7E/A 1~D 5
汉字编码和输入输出
87 区 1 2 3 4 5 6 7 8 9 0 鳌 鳍 鳎 鳏 鳐 鳓 鳔 鳕 鳗 1 鳘 鳙 鳜 鳝 鳟 鳢 靼 鞅 鞑 鞒 2 鞔 鞯 鞫 鞣 鞲 鞴 骱 骰 骷 鹘 3 骶 骺 骼 髁 髀 髅 髂 髋 髌 髑 4 魅 魃 魇 魉 魈 魍 魑 飨 餍 餮 5 饕 饔 髟 髡 髦 髯 髫 髻 髭 髹 6 鬈 鬏 鬓 鬟 鬣 麽 麾 縻 麂 麇 7 麈 麋 麒 鏖 麝 麟 黛 黜 黝 黠 8 黟 黢 黩 黧 黥 黪 黯 鼢 鼬 鼯 9 鼹 鼷 鼽 鼾 齄
14
汉字编码和输入输出
例
86 区 1 2 3 4 5 6 7 8 9 0 觥 觫 觯 訾 謦 靓 雩 雳 雯 1 霆 霁 霈 霏 霎 霪 霭 霰 霾 龀 2 龃 龅 龆 龇 龈 龉 龊 龌 黾 鼋 3 鼍 隹 隼 隽 雎 雒 瞿 雠 銎 銮 4 鋈 錾 鍪 鏊 鎏 鐾 鑫 鱿 鲂 鲅 5 鲆 鲇 鲈 稣 鲋 鲎 鲐 鲑 鲒 鲔 6 鲕 鲚 鲛 鲞 鲟 鲠 鲡 鲢 鲣 鲥 7 鲦 鲧 鲨 鲩 鲫 鲭 鲮 鲰 鲱 鲲 8 鲳 鲴 鲵 鲶 鲷 鲺 鲻 鲼 鲽 鳄 9 鳅 鳆 鳇 鳊 鳋
10
汉字编码和输入输出
例
09 区 1 2 3 4 5 6 7 8 9 0 ─ ━ │ ┃ ┄ ┅ 1 ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏ 2 ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ 3 ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ 4 ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭ 5 ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ 6 ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁ 7 ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋ 8 9
汉字编码和输入输出
55 区 1 2 3 4 5 6 7 8 9 0 住 注 祝 驻 抓 爪 拽 专 砖 1 转 撰 赚 篆 桩 庄 装 妆 撞 壮 2 状 椎 锥 追 赘 坠 缀 谆 准 捉 3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊 4 兹 咨 资 姿 滋 淄 孜 紫 仔 籽 5 滓 子 自 渍 字 鬃 棕 踪 宗 综 6 总 纵 邹 走 奏 揍 租 足 卒 族 7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪 8 尊 遵 昨 左 佐 柞 做 作 坐 座 9
汉字编码和输入输出 18
Unicode
英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓 是一个企业联盟集团的名称,由美国的HP、 Microsoft、IBM、Apple等几家知名的大型计 算机企业所组成,成立该集团的宗旨就是要推 进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致 的,并行的
汉字编码和输入输出 3
主要汉字(文字)编码标准与规范
ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode
汉字编码和输入输出 4
汉字的几种通行名称
Hanzi, Hantsu, 汉字 Ideographic character,表意字符,中文 字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan
汉字编码和输入输出
刘秉权
哈工大智能技术与自然语言处理研究室 2006年11月
汉字编码
现状 主要编码标准和规范 国标码 Unicode Windows对Unicode的支持 GB18030
汉字编码和输入输出
2
汉字编码现状及其根源
多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字 简繁体汉字并存 地区、国家间的文化、政治差异增加了汉字统 一编码的难度
汉字编码和输入输出 19
CJK-中日韩统一汉字
把中国、日本与韩国的英文称谓的首字 母用于ISO/IEC 10646中的中、日、韩统 一编码汉字的简称 Unihan CJKV或许更准确,V代表越南
汉字编码和输入输出
20
ISO/IEC 10646 的体系结构
四维的编码空间 总体上分为128个三维组(group), group的值范围是 从00到7F 每一组包含256个平面(plane),每一个平面包含256行 (row),每一行包含256个字位(cell),又称为 “列”,plane、row、cell的值范围都是从00到FF全编码 整个编码字符集的每个字符都是由4个八位序列表 示,(按照组八位、面八位、行八位、列八位的顺序) 可编码空间为:128*256*256*256=32K*64K
汉字编码和输入输出 5
ASCII码
美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规 范编码 包括33个控制码,一个空格码,和94个 形象码 形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等 国际上大部分电脑的通用编码
汉字编码和输入输出 6
文本文件与二进制文件
字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致 文本文件(ASCII Text Files) :美标形象码或空 格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换
汉字编码和输入输出 11
例
16 区 1 2 3 4 5 6 7 8 9 0 啊 阿 埃 挨哎 唉 哀 皑 癌 1 蔼 矮 艾 碍 爱 隘 鞍 氨安 俺 2 按 暗 岸 胺 案 肮 昂 盎凹 敖 3 熬 翱 袄 傲 奥 懊 澳 芭捌 扒 4 叭 吧 笆 八 疤 巴 拔 跋靶 把 5 耙 坝 霸 罢 爸 白 柏 百摆 佰 6 败 拜 稗 斑 班 搬 扳 般颁 板 7 版 扮 拌 伴 瓣 半 办 绊邦 帮 8 梆 榜 膀 绑 棒 磅 蚌 镑傍 谤 9 苞 胞 包 褒 剥
12
例
54 区 1 2 3 4 5 6 7 8 9 0 帧 症 郑 证 芝 枝 支 吱 蜘 1 知 肢 脂 汁 之 织 职 直 植 殖 2 执 值 侄 址 指 止 趾 只 旨 纸 3 志 挚 掷 至 致 置 帜 峙 制 智 4 秩 稚 质 炙 痔 滞 治 窒 中 盅 5 忠 钟 衷 终 种 肿 重 仲 众 舟 6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 9 助 蛀 贮 铸 筑
汉字编码Hale Waihona Puke Baidu输入输出
21
ISO/IEC 10646体系结构图
G ro u p 7 F
P la n e 0 0 o f 7 F
13
例
56 区 1 2 3 4 5 6 7 8 9 0 亍 丌 兀 丐 廿 卅 丕 亘 丞 1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻 2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟 3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍 4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮 5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿 6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐 7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫 8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫 9 佞 佧 攸 佚 佝 57 区 1 2 3 4 5 6 7 8 9 0 佟 佗 伲 伽 佶 佴 侑 侉 侃 1 侏 佾 佻 侪 佼 侬 侔 俦 俨 俪 2 俅 俚 俣 俜 俑 俟 俸 倩 偌 俳 3 倬 倏 倮 倭 俾 倜 倌 倥 倨 偾 4 偃 偕 偈 偎 偬 偻 傥 傧 傩 傺 5 僖 儆 僭 僬 僦 僮 儇 儋 仝 氽 6 佘 佥 俎 龠 汆 籴 兮 巽 黉 馘 7 冁 夔 勹 匍 訇 匐 凫 夙 兕 亠 8 兖 亳 衮 袤 亵 脔 裒 禀 嬴 蠃 9 羸 冫 冱 冽 冼
汉字编码和输入输出 8
区位码表
区位码来源于信息交换用汉字编码字符集(基本集)国家标准 (GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55 区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横 (一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔 相同按第二笔,依次类推。 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首 基本相同,略有改并。部首次序及同部首字按笔划数排列,同笔 划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点 (丶)、折(乙)为序。起笔相同按第二笔,依次类推。 查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是 1610。
汉字编码和输入输出
17
ISO/IEC 10646
一个国际标准编号,国际标准化组织 (ISO)1993年正式颁布 英文全称:Information technology Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术--通用多八位编码 字符集,亦称大字符集 宗旨:全球所有文种统一编码