第5章5.1 文本与文本处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GBK汉字内码扩充规范(1995):
– 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 – 共有21003个汉字和883个图形符号,如“計算機”、冃、 冄、円、冇等繁体字和生僻字 – 与GB8312保持向下兼容,也使用双字节表示,第1字节 最高位必须为“1”:
1
X
X
X
X
X
X
X
X
X
X
X
字形 编码
音形 采用字音及字形两种 粤音输入法 编码 属性作为码元的汉字 (或形音 编码) 编码输入方法
专转本计算机基础辅导
5.1.3 文本的分类
专转本计算机基础辅导
简单文本(纯文本 )
• 没有字体、字号的变化,不能插入图片、表格,也不能建立超 链接,其文件后缀名是 .txt • 由一串用于表达正文内容的字符编码所组成,几乎不包含任何 其他的格式信息和结构信息 文 • 举例: 本 本 书 由 南 京 大 学 出 文 在 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 本 计 版 社 ( P u b l i s h i n g 的 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 算 内 机 H o u s e o f N a n j i n 容 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E 中 的 g U n i v e r s i t y ) 出 版 表 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 示
专转本计算机基础辅导
汉字的区位码、国标码、机内码的关系:
国标码=区位码+2020H
机内码=国标码+8080H
机内码=区位码+A0A0H
汉字机内码双字节,最高位是1; 西文字符机内码单字节,最高位是0。
专转本计算机基础辅导
GBK汉字内码扩充规范
GB2312的不足:
– 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍 整理、古典文献研究等应用的需要;与ASCII码不兼容
标准名 称 字符集
GB2312
6763个汉字 (简体字)
GBK
GB 18030
UCS-2 (Unicode)
21003个汉字 近3万汉字 包含10万多字符, (包括GB2312 (包括GBK汉 其中的汉字与 汉字在内) 字和CJK及其 GB18030相同 扩充中的汉字) 双字节存储和 表示,第1个字 节的最高位必 为“1” 部分双字节、 (1) UTF-8采用单 部分4字节表 字节可变长编码 示,双字节表 示方案与 (2) UTF-16采用双 GBK相同 字节可变长编码
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
87
94
……
……
专转本计算机基础辅导
区位码:GB2312国标字符集构成一个二维平面,它 分成94行、94列,行号称为区号,列号称为位号。 问题:文本中的汉字与西文字符易与单字节的标准 ASCII码混淆不清。 例如:“大”字的区号20,位号83,区位码是20 83, 用2个字节表示为:00010100 01010011(1453H)。
GB2312字符集由三个部分构成:
9 16
位号 1 2 3 ……………… 94 1 字母、数字和各种符号 一级汉字 (3755个) (按汉语拼音排列) 二级汉字 (3008个) (按偏旁部首排列) (扩充使用)
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
区 号 55
56
字符、字符集及其编码表
字符的编码:
专转本计算机基础辅导
一、西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、
标点符号以及一些特殊符号所组成
美国标准信息交换码(ASCII码):
– ASCII字符集包含96个可打印字符和32个控制字符 – 采用7个二进位进行编码
信息的形态有多种
其中,文字信息处理是涉及面最广的一种
计算机应用,几乎与任何领域任何人都有 关。
···
专转本计算机基础辅导
传统的文字处理过程
写作 写作
编辑
印刷
排版
发行
专转本计算机基础辅导

计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是 计算机中最常用的一种数字媒体 文本由一系列 “字符”(character)组成,每个字 符均使用二进制编码表示 文本在计算机中的处理过程是: (3)
编码方 法
双字节存储和 表示,每个字 节的最高位均 为“1”
兼容性
编码保持向下兼容
编码 不兼容!
例: IE浏览网页时文字编码的选择

5.1.2. 文本准备
——文稿如何输入计算机
专转本计算机基础辅导
文字符号输入计算机的方法
字符信息的输入 人工输入 自动识别输入
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,· · · 三字节:CJK汉字 四字节:其他
UCS/Unicode多文种大字符集
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,· · ·
四字节:非常用CJK汉字
专转本计算机基础辅导
文字符号输入计算机的方法
字符信息的输入 人工输入 自动识别输入
键盘输入
联机手写输入
语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
专转本计算机基础辅导
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必
须使用几个键来表示一个汉字,这就称为汉 字的“键盘输入编码”
– 计算机中使用1个字节存储1个ASCII 字符 0
X X X X X X X
存在问题:
– 字符集太小(只有128个字符) – 不同国家和地区使用不同的字符集及其编码,互不兼容
– 东亚地区使用的大字符集无法编码
专转本计算机基础辅导
GB2312汉字编码字符集


1980年颁布《信息交换用汉字编码字符集· 基本集》(我 国第一个国家标准)——GB2312-1980
2
9 9
9
2010年
5
1
1
2
9
专转本计算机基础辅导
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.3 文本的分类
5.1.4 文本编辑、排版与处理
5.1.5 文本的展现
专转本计算机基础辅导
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
文字 数值 语言 音乐 图像
专转本计算机基础辅导
文字符号输入计算机的方法
字符信息的输入
•识别率已达到98% •功能:
– 简、繁体字混合识别 – 中文、西文混合识别 自动识别输入 – 文字、表格混合识别 – 智能校对功能
人工输入
键盘输入
联机手写输入
语音输入
印刷体识别
纸介质 文本
扫描仪
文本的 映象 (image)
OCR
数字 文本
(character),它包括:字母、数字、标点、符号 等 字符集:一组特定字符的集合
– 不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等 – 字符集中每个字符的二进位表示,称为该字符的编码 或代码(code) – 不同的字符其编码各不相同 – 字符集中所有字符的编码的一览表,称为该字符集的 码表
优秀的汉字键盘输入编码应具有的特点:
– 易学习、易记忆 – 效率高(平均击键次数较少) – 重码少 – 容量大(可输入的汉字字数多)
专转本计算机基础辅导
汉字键盘输入方法的比较
类型
数字 编码 字音 编码
原理
举例
优点
缺点
使用一串数字来表示 电报码 汉字 区位码
仅使用10个数 难记忆 字键
把汉语的拼音作为汉 智能ABC 简单易学,适 重码多,需增加选择 字的输入编码 紫光 合于非专业人 操作,不会汉语拼音 微软拼音输入 员 或不知道读音时无法 使用 把汉字的部件或笔画 五笔字形 作为码元,按照汉字 表形码 结构及其切分规则作 郑码 为编码依据,确定每 个汉字的输入代码 重码少、输入 缺乏统一的规范,编 速度较快,适 码规则不易掌握 合于专业录入 员、打字员使 用 同上 同时要掌握音、形两 种取码方法或规则, 对普通用户比较困难
专转本计算机基础辅导
第5章 数字媒体及应用
5.1 文本与文本处理
5.2 图像与图形
5.3 数字声音及应用
5.4 数字视频及应用
专转本计算机基础辅导
本章考题题型分布
年 份 单选 多选 填空 判断 小计
2005年
2006年
1
3
1
1
2
3
1
2
5
9
2007年 2008年
2009年
4 5
5
1 1
1
1 1
1
3 2
• 解决方法:把一个汉字看作两个扩展ASCII码,即每个 汉字的区号和位号必须分别加上32(即 0010 0000),且 使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。 1
X X X X X X X
1
X
X
X
X
X
X
X
第1字节 第2字节 这种高位为 l 的双字节(16位)汉字编码就称为 GB2312汉字的“机内码”,又称内码。例如:“大” 字的内码是:10110100 11110011(B4F3)。
易学习易记忆效率高平均击键次数较少重码少容量大可输入的汉字字数多专转本计算机基础辅导类型原理举例优点缺点数字编码使用一串数字来表示汉字电报码区位码仅使用10个数字键难记忆字音编码把汉语的拼音作为汉字的输入编码智能abc紫光微软拼音输入简单易学适合于非专业人重码多需增加选择操作不会汉语拼音或不知道读音时无法使用字形编码把汉字的部件或笔画作为码元按照汉字结构及其切分规则作为编码依据确定每个汉字的输入代码五笔字形表形码郑码重码少输入速度较快适合于专业录入员打字员使缺乏统一的规范编码规则不易掌握音形编码或形音编码采用字音及字形两种属性作为码元的汉字编码输入方法粤音输入法同上同时要掌握音形两种取码方法或规则对普通用户比较困难专转本计算机基础辅导513专转本计算机基础辅导cae9d3c9c4cfa9b4f3d1a7b3f6b0e6c9e7285075626c697368696e6720486f757365206f66204e616e6a696e6720556e697665727369747929b3f6b0e6没有字体字号的变化不能插入图片表格也不能建立超链接其文件后缀名是
X
X
X
X
第1字节
第2字节
专转本计算机基础辅导

背景:为了实现全球数以千计的不同语言文字的统一编码 方案:ISO将全球所有文字字母和符号集中在一个字符集 中进行统一编码(目前共收集了17x216=1,114,112 个) ,称 为UCS/Unicode UCS/Unicode的编码方案:
– 先实现部分字符的编码(共107,361个字符) – 尽量与已有编码标准兼容 – 其中包含有中、日、韩统一整理出来的近3万汉字(CJK汉字) – 允许有若干不同的编码方案, 例如:
– 单字节编码(128个)表示ASCII字符 – 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下 兼容,GBK不再使用 – 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符

GB18030目前已在我国信息处理产品中强制贯彻执行。
专转本计算机基础辅导
小结:几种汉字编码的对比
应用:Linux,Web网页,电子邮件
应用:Windows,Mac,Java,· · ·
专转本计算机基础辅导

GB18030汉字编码标准
背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字 字符集虽然覆盖了我国已使用多年的GB2312和GBK标准 中的汉字,但它们的编码并不相同 为了既能与UCS/Unicode编码标准接轨,又能保护我国已 有的大量汉字信息资源,我国在2000年和2005年两次发布 GB18030汉字编码国家标准。 GB18030实质上是UCS/Unicode字符集的另一种编码方案:
文本处理 文本准备 (文字与图表 的输入) 文本编辑 与排版 (文本处理软件)

文本存储 文本 电子 (文本编辑器) 格式化的 展现 与传输 文本 电子文本 (存档/通信软件) (文本阅读器)
(1)
(2)
(4)
(5)
专转本计算机基础辅导
5.1.1. 字符在计算机中的表示
专转本计算机基础辅导
文字的基本元素是字母和符号,统称为“字符”
专转本计算机基础辅导
丰富格式文本
• 有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富 格式文本” • 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字 符的属性和格式的设置。 • 举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中
本书由南京大学出版社(Publishing House of Nanjing University)出版
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
专转本计算机基础辅导
文字符号输入计算机的方法
字符信息的输入 人工输入 自动识别输入
键盘输入
联机手写输入
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
专转本计算机基础辅导
文字符号输入计算机的方法
字符信息的输入 人工输入 自动识别输入
键盘输入
联机手写输入
语音输入
•优点: •自然,方便,适合移动计算 •不足: •对说话人、说话方式、说话内容的适应能力要大 大增强 •识别速度和正确性还需大大提高
相关文档
最新文档