文本与文本处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GBK汉字内码扩充规范(1995):
在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、
冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必
须为“1”:
1 X XX X XX XX X XX X XX X
常用的汉字编码字符集
国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG
5,俗称“大五码”) UCS/Unicode多文种大字符集
Unicode的UTF-8 Unicode的UTF-16
字符集:一组特定字符的集合
不同的字符集包含的字符数目与内容不同,如:
中文字符集、西文字符集、日文字符集等
字符的编码:
字符集中每个字符的二进位表示,称为该字符的编码或代码 (code)
不同的字符其编码各不相同
复习:西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号 以及一些特殊符号所组成
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量 汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码 国家标准。
GB18030实质上是UCS/Unicode字符集的另一种编码方案:
单字节编码(128个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向
美国标准信息交换码(ASCII码):
ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符
0 X XX X XX X 存在问题:
字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
应用:Linux,Web网页,电子邮件
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,···
四字节:非常用CJK汉字
应用:Windows,Mac,Java,···
GB18030汉字编码标准
背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然 覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编 码并不相同
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素,有多个国家和 地区使用(中、日、韩、新、马······)
汉字的特点
数量大;字形复杂,同音字多,异体字多
如何编码?
确定收入多少字、哪些字? 在字符集中如何排列? 使用多少个二进位进行编码?
1 X XX X XX X1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111
(用十六进制表示为C4CF)
GBK汉字内码扩充规范
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、 古典文献研究等应用的需要;与ASCII码不兼容
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息处理是涉及面最广的一种计算机 应用,几乎与任何领域任何人都有关。
传统的文字处理过程
写作写作
编辑
排版
印刷 发行
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
先实现部分字符的编码(近11万个字符)
尽量与已有编码标准兼容
包含有中、日、韩统一整理出来的约7万汉字(称CJK汉字)
允许有若干不同的编码方案, 常用的两种是:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJK汉字 四字节:其他
文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图表 的输入)
文本编辑
(文本处理)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本1)
(2)
(4)
(5)
5.1.1. 字符在计算机中的表示
字符、字符集及其编码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示
为了与ASCII字符相区别,每个字节的最高位均 为“1”
第1字节
第2字节
UCS/Unicode多文种大字符集
背景:为了实现全球数以千计的不同语言文字的统一编码
方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一 编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode
UCS/Unicode的编码方案:
在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、
冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必
须为“1”:
1 X XX X XX XX X XX X XX X
常用的汉字编码字符集
国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG
5,俗称“大五码”) UCS/Unicode多文种大字符集
Unicode的UTF-8 Unicode的UTF-16
字符集:一组特定字符的集合
不同的字符集包含的字符数目与内容不同,如:
中文字符集、西文字符集、日文字符集等
字符的编码:
字符集中每个字符的二进位表示,称为该字符的编码或代码 (code)
不同的字符其编码各不相同
复习:西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号 以及一些特殊符号所组成
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量 汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码 国家标准。
GB18030实质上是UCS/Unicode字符集的另一种编码方案:
单字节编码(128个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向
美国标准信息交换码(ASCII码):
ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符
0 X XX X XX X 存在问题:
字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
应用:Linux,Web网页,电子邮件
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,···
四字节:非常用CJK汉字
应用:Windows,Mac,Java,···
GB18030汉字编码标准
背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然 覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编 码并不相同
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素,有多个国家和 地区使用(中、日、韩、新、马······)
汉字的特点
数量大;字形复杂,同音字多,异体字多
如何编码?
确定收入多少字、哪些字? 在字符集中如何排列? 使用多少个二进位进行编码?
1 X XX X XX X1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111
(用十六进制表示为C4CF)
GBK汉字内码扩充规范
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、 古典文献研究等应用的需要;与ASCII码不兼容
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息处理是涉及面最广的一种计算机 应用,几乎与任何领域任何人都有关。
传统的文字处理过程
写作写作
编辑
排版
印刷 发行
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
先实现部分字符的编码(近11万个字符)
尽量与已有编码标准兼容
包含有中、日、韩统一整理出来的约7万汉字(称CJK汉字)
允许有若干不同的编码方案, 常用的两种是:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJK汉字 四字节:其他
文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图表 的输入)
文本编辑
(文本处理)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本1)
(2)
(4)
(5)
5.1.1. 字符在计算机中的表示
字符、字符集及其编码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示
为了与ASCII字符相区别,每个字节的最高位均 为“1”
第1字节
第2字节
UCS/Unicode多文种大字符集
背景:为了实现全球数以千计的不同语言文字的统一编码
方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一 编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode
UCS/Unicode的编码方案: