文本与文本处理 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

GBK汉字内码扩充规范（1995）：
在GB2312基础上，增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号，如“計算機”、冃、冄、円、
冇等繁体字和生僻字与GB8312保持向下兼容，也使用双字节表示，第1字节最高位必
须为“1”：
1 X XX X XX XX X XX X XX X
常用的汉字编码字符集
国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG
5，俗称“大五码”) UCS/Unicode多文种大字符集
Unicode的UTF-8 Unicode的UTF-16
字符集：一组特定字符的集合
不同的字符集包含的字符数目与内容不同，如：
中文字符集、西文字符集、日文字符集等
字符的编码：
字符集中每个字符的二进位表示，称为该字符的编码或代码 (code)
不同的字符其编码各不相同
复习：西文字符的编码——ASCII码
西文是表音文字(拼音文字)，它由拉丁字母、数字、标点符号以及一些特殊符号所组成
第5章数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现
文字处理是计算机应用的基础
计算机应用＝使用计算机进行信息处理
为了既能与UCS/Unicode编码标准接轨，又能保护我国已有的大量汉字信息资源，我国在2000年和2005年两次发布GB18030汉字编码国家标准。
GB18030实质上是UCS/Unicode字符集的另一种编码方案：
单字节编码（128个）表示ASCII字符双字节编码（23940个）表示汉字，与GBK（以及GB2312）保持向
美国标准信息交换码(ASCII码)：
ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII 字符
0 X XX X XX X 存在问题：
字符集太小（只有128个字符）不同国家和地区使用不同的字符集及其编码，互不兼容
应用：Linux，Web网页，电子邮件
Unicode:UTF-16双字节可变长编码
双字节： ASCII字符、拉丁、希腊、阿拉伯，常用CJK汉字，···
四字节：非常用CJK汉字
应用：Windows，Mac，Java，···
GB18030汉字编码标准
背景：无论是Unicode的UTF-8还是UTF-16，其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字，但它们的编码并不相同
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980
GB2312字符集由三个部分构成：
拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682 个
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
汉字如何编码？
汉字是记录汉语（国语，华语）的文字，属于表意文字，它用符号直接表达词或词素，有多个国家和地区使用（中、日、韩、新、马······）
汉字的特点
数量大；字形复杂，同音字多，异体字多
如何编码？
确定收入多少字、哪些字？在字符集中如何排列？使用多少个二进位进行编码？
1 X XX X XX X1 X XX X XX X
第1字节
第2字节
例如：
“南”字的代码是11000100 11001111
（用十六进制表示为C4CF）
GBK汉字内码扩充规范
GB2312的不足：
汉字字数太少，缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要；与ASCII码不兼容
文字数值
信息的形态有多种语言
音乐图像 ···
其中，文字信息处理是涉及面最广的一种计算机应用，几乎与任何领域任何人都有关。
传统的文字处理过程
写作写作
编辑
排版
印刷发行
计算机文字处理过程
文字信息在计算机中称为“文本”（text），文本是计算机中最常用的一种数字媒体
文本由一系列 “字符”（character）组成，每个字符均使用二进制编码表示
先实现部分字符的编码（近11万个字符）
尽量与已有编码标准兼容
包含有中、日、韩统一整理出来的约7万汉字（称CJK汉字）
允许有若干不同的编码方案, 常用的两种是：
Unicode:UTF-8 单字节可变长编码
单字节：ASCII字符双字节：拉丁、希腊、阿拉伯，··· 三字节：CJK汉字四字节：其他
文本在计算机中的处理过程是：
（3）
文本处理
文本准备
（文字与图表的输入）
文本编辑
（文本处理）
与排版
电子（文本编辑器）格式化的文本存储
文本
电子文本与传输
文本1）
（2）
（4）
（5）
5.1.1. 字符在计算机中的表示
字符、字符集及其编码表
文字的基本元素是字母和符号，统称为“字符” (character)，它包括：字母、数字、标点、符号等
…… ……
（3755个）
区
(按汉语拼音排列)
号 55 56
二级汉字
（3008个）
87
(按偏旁部首排列) （扩充使用）
94
共6763个汉字和 682个符号，每个汉字和符号都有一个确定位置
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示
为了与ASCII字符相区别，每个字节的最高位均为“1”
第1字节
第2字节
UCS/Unicode多文种大字符集
背景：为了实现全球数以千计的不同语言文字的统一编码
方案：ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216＝1,114,112 个) ，称为UCS/Unicode
UCS/Unicode的编码方案：