文本处理 (1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A: (1000001)2 65 a: (1100001) 97
2
2017/9/29
0:(0110000)2 48
2
A: ASCII码01000001
2017/9/29
3
扩充ASCII字符集
ASCII字符集存在问题:
字符集太小(只有27=128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
2017/9/29
16
输出过程中字形的生成
过程:
先根据字符的字体确定相应的字库(font)
存放汉字字形的信息库,简称字库。不同的字体(黑体、 宋体、隶书)对应不同的字库。 字库包括: 点阵字库:16*16,24*24,32*32 点阵中“1” 对应位置为黑点,“0”对应位置为空白。 轮廓字库:用直线曲线勾画轮廓,并以数学函数来描 述,精度高,字形可任意变化。
2017/9/29
5
汉字的编码
汉字的其它编码方法: GBK:《汉字内码扩展规范》,共有21003个汉字和 883个图像符号,除包含GB2312中的全部汉字和 字符外还扩充了包含繁体字在内的大量汉字和符 号。 UCS/Unicode:国际标准化组织ISO为世界各国的 每种语言中的每个字符设定的统一且唯一的二进 制编码,以满足跨语言、跨平台进行文本转换、 处理的要求 GB18030:既与GB2312和GBK保持兼容,又与 Unicode接轨,扩充了Unicode中的其他字符,共 收录了70244个汉字,是未来的字符集标准。 BIG5:繁体汉字字符集,主要为台湾和香港地区 采用。
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
……
……
2017/9/29
7
区位码、国标码和机内码
国标码:=(区码+32,位码+32)10
或 = (区码+100000,位码+100000)2 例如:“大”的区号是20,位号是83,其区位码就 是0010100 1010011,它的国标码就是0110100 1110011
2017/9/29
20
文本的常见格式
简单文本:通常称为纯文本或ASCII文本,几乎不包含格 式和结构信息,也不能插入图片、表格等,不能建立超链接。 文件后缀名是.txt。文件体积小,通用性好,几乎所有的文 字处理软件都能识别和处理。 丰富格式文本:(Rich Text Format, 一般简称为RTF) 是由微软公司开发的跨平台文档格式。不仅可包含传统的文 字及其格式信息,还可包含图像、图形等多种媒体信息,能 够保存各种格式信息,可以用写字板、Word等创建。大多 数的文字处理软件都能读取和保存。 超文本:超文本中的文字包含有可以链接到其他字段或者文 档的超文本链接,允许从当前阅读位置直接切换到超文本链 接所指向的文字。 超媒体:不仅可以包含文字而且还可以包含图形、图像、动 画、声音和视频片断,这些媒体之间也是用超级链接组织的。
由于计算机的基本存储单位是字节(8个二进制位) , 所以ASCII码的每个字符也占用一个字节的存储单元, 最高位补一个“0”,若要在网络中传输ASCII码,则最 0 X X X X X X X 高位补一个奇偶校验位。
ASCII字符集包含96个可打印字符和32个控制字符,注意 奇偶校验位 几个特殊字符的ASCII码:
2017/9/29 13
文本信息的输入
•识别率已达到98% •功能:
– 简、繁体字混合识别 – 中文、西文混合识别 自动识别输入 – 文字、表格混合识别 – 智能校对功能 语音输入 印刷体识别
字符信息的输入
人工输入
键盘输入
联机手写输入
纸介质 文本
扫描仪
文本的 映象 (image)
OCR
数字 文本
2017/9/29
字符编码
文本是计算机表示文字的一种数字媒体。 文字的基本元素是字母和符号,统称为“字符” (character), 它包括:字母、数字、标点、符号等
字符集(Character Set) :是常用字符的集合,通常与具体的 语言文字对应,由该语言中的所有字符或大部分常用字符构成。
不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等
字符的编码(Encoding) :是字符的二进制表示,制定编码要 先确定字符集,再将字符集中的字符与特定的二进制编码对应起 来
字符集中每个字符的二进位表示,称为该字符的编码或代码 不同的字符集编码各不相同 字符集中所有字符的编码的一览表,称为该字符集的码表
1
2017/9/29
ASCII码——西文字符的编码
一个汉字为两 个字节,且字 节首位均为1
2017/9/29
C B
F
5
1100 1011 1111 0101
9
已知"江苏"两字的区位码为2913 和4353, 其机内码是________ A、 6145、7585 B、 3D2D、4B55 C、 BDAD、CBD5 答案:C D、 4535、535D
机内码:在计算机内部,汉字以两个字节来表示一个
汉字,为和ASCII码区别,其最高位为1。该码称为 GB2312汉字的机内码,又称内码。
1
X X X X X X X
1
XHale Waihona Puke Baidu
X
X
X
X
X
X
第1字节 第2字节 例如: “大”字的内码是10110100 11110011
2017/9/29 8
在中文Windows环境下,设有一串汉字的内码为 CB F5 D0 B4 50 43 CA C7 D6 B8,这段文本 中,含有_____ A 、2个汉字和 1个西文字符 B 、4个汉字和 2个西文字符 C 、8个汉字和 2个西文字符 答案:B D 、4个汉字和 1个西文字符
19
1.已知《GB2312-80》中汉字“国”的区号为25,位号为90, 其 国标码为_________(用十六进制表示),机内码为 _________(用十六进制表示) 2.1000个32*32点阵字库占用存储空_________KB 3.某汉字的区位码是1601,则该汉字的国标码__________H , 机内码为_________H。 4. 汉字“啊”的机内码是B0A1H,对应的区位码 ____________
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
9 16
位号(第二字节) 1 2 3 ……………… 94 1 字母、数字和各种符号 一级汉字 (3755个) (按汉语拼音排列) 二级汉字 (3008个) (按偏旁部首排列) (扩充使用)
区 号 ( 第 一 字 节 )
55 56 87 94
2017/9/29 11
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
2017/9/29 12
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
语音输入
•优点: •自然,方便,适合移动计算 •不足: •对说话人、说话方式、说话内容的适应能力要大 大增强 •识别速度和正确性还需大大提高
2017/9/29 21
西文由拉丁字母、数字、标点符号以及一些特殊符号所组成
目前计算机中使用最广泛的西文字符集及其编码是ASCII码 (American Standard Code for Information Interchange), 美国标准信息交换码
ASCII码中每个字符用7个二进位进行编码1个字节 存储1个ASCII 字符
ISO陆续制定了一批适用于不同地区的扩充ASCII字 符集,每个扩充ASCII字符集分别可以扩充128个字 符,这些扩充字符的编码均是高位为1的8位代码 (十进制数128~255),称为扩展ASCII码。
2017/9/29
4
汉字的编码
汉字在计算机中的存储:汉字字符集及其编码 1981年我国颁布了《信息交换用汉字编码字符集•基 本集》(GB2312—80),选取了6763个常用简体 汉字和682个非汉字字符。
区位码——》国标码——》机内码
国标码 =(区码+32,位码+32) =(区码+00100000,位码+ 00100000 ) 机内码 = 国标码两字节最高位都置1
2017/9/29 10
文本的获取
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
输入码(一个汉字用键盘中若干个键的组合来表示): (1)数字编码, 如电报码、区位码等;(2)字音编码, 如智能ABC,紫光,搜狗 等;(3)字形编码,如五笔字形和表形码等;(4)形音编码,发展趋势:基于 统计和学习功能的以词语(短语)或句子作为输入单位的输入方法
再按照该字符的代码从字库中取出该字符的形状描述信息 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗 体、斜体、下横线)将字形作必要的变换 最后将变换得到的字形放置在页面的指定位置处
2017/9/29
17
轮廓点
点阵 描述
轮廓 描述
直线
二次曲线
2017/9/29
18
2017/9/29
14
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
2017/9/29 15
文本信息的输出
目的:阅读、浏览或打印文本
使用的软件:文本阅读器/文本浏览器
微软的Word 独立的软件:如Adobe公司的Acrobat Reader
2017/9/29 6
GB2312汉字编码字符集
GB2312字符集由三个部分构成
区位码:每个汉字在码表中的位置编码。 字符的代码表为94×94的表,行号(1~94)为区号,列号 (1~94)为位号。 该字符所在的区号(行号)及位号(列号)的 二进制代码(7位区号在左,7位位号在右,共14位)即为区位码。
2
2017/9/29
0:(0110000)2 48
2
A: ASCII码01000001
2017/9/29
3
扩充ASCII字符集
ASCII字符集存在问题:
字符集太小(只有27=128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
2017/9/29
16
输出过程中字形的生成
过程:
先根据字符的字体确定相应的字库(font)
存放汉字字形的信息库,简称字库。不同的字体(黑体、 宋体、隶书)对应不同的字库。 字库包括: 点阵字库:16*16,24*24,32*32 点阵中“1” 对应位置为黑点,“0”对应位置为空白。 轮廓字库:用直线曲线勾画轮廓,并以数学函数来描 述,精度高,字形可任意变化。
2017/9/29
5
汉字的编码
汉字的其它编码方法: GBK:《汉字内码扩展规范》,共有21003个汉字和 883个图像符号,除包含GB2312中的全部汉字和 字符外还扩充了包含繁体字在内的大量汉字和符 号。 UCS/Unicode:国际标准化组织ISO为世界各国的 每种语言中的每个字符设定的统一且唯一的二进 制编码,以满足跨语言、跨平台进行文本转换、 处理的要求 GB18030:既与GB2312和GBK保持兼容,又与 Unicode接轨,扩充了Unicode中的其他字符,共 收录了70244个汉字,是未来的字符集标准。 BIG5:繁体汉字字符集,主要为台湾和香港地区 采用。
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
……
……
2017/9/29
7
区位码、国标码和机内码
国标码:=(区码+32,位码+32)10
或 = (区码+100000,位码+100000)2 例如:“大”的区号是20,位号是83,其区位码就 是0010100 1010011,它的国标码就是0110100 1110011
2017/9/29
20
文本的常见格式
简单文本:通常称为纯文本或ASCII文本,几乎不包含格 式和结构信息,也不能插入图片、表格等,不能建立超链接。 文件后缀名是.txt。文件体积小,通用性好,几乎所有的文 字处理软件都能识别和处理。 丰富格式文本:(Rich Text Format, 一般简称为RTF) 是由微软公司开发的跨平台文档格式。不仅可包含传统的文 字及其格式信息,还可包含图像、图形等多种媒体信息,能 够保存各种格式信息,可以用写字板、Word等创建。大多 数的文字处理软件都能读取和保存。 超文本:超文本中的文字包含有可以链接到其他字段或者文 档的超文本链接,允许从当前阅读位置直接切换到超文本链 接所指向的文字。 超媒体:不仅可以包含文字而且还可以包含图形、图像、动 画、声音和视频片断,这些媒体之间也是用超级链接组织的。
由于计算机的基本存储单位是字节(8个二进制位) , 所以ASCII码的每个字符也占用一个字节的存储单元, 最高位补一个“0”,若要在网络中传输ASCII码,则最 0 X X X X X X X 高位补一个奇偶校验位。
ASCII字符集包含96个可打印字符和32个控制字符,注意 奇偶校验位 几个特殊字符的ASCII码:
2017/9/29 13
文本信息的输入
•识别率已达到98% •功能:
– 简、繁体字混合识别 – 中文、西文混合识别 自动识别输入 – 文字、表格混合识别 – 智能校对功能 语音输入 印刷体识别
字符信息的输入
人工输入
键盘输入
联机手写输入
纸介质 文本
扫描仪
文本的 映象 (image)
OCR
数字 文本
2017/9/29
字符编码
文本是计算机表示文字的一种数字媒体。 文字的基本元素是字母和符号,统称为“字符” (character), 它包括:字母、数字、标点、符号等
字符集(Character Set) :是常用字符的集合,通常与具体的 语言文字对应,由该语言中的所有字符或大部分常用字符构成。
不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等
字符的编码(Encoding) :是字符的二进制表示,制定编码要 先确定字符集,再将字符集中的字符与特定的二进制编码对应起 来
字符集中每个字符的二进位表示,称为该字符的编码或代码 不同的字符集编码各不相同 字符集中所有字符的编码的一览表,称为该字符集的码表
1
2017/9/29
ASCII码——西文字符的编码
一个汉字为两 个字节,且字 节首位均为1
2017/9/29
C B
F
5
1100 1011 1111 0101
9
已知"江苏"两字的区位码为2913 和4353, 其机内码是________ A、 6145、7585 B、 3D2D、4B55 C、 BDAD、CBD5 答案:C D、 4535、535D
机内码:在计算机内部,汉字以两个字节来表示一个
汉字,为和ASCII码区别,其最高位为1。该码称为 GB2312汉字的机内码,又称内码。
1
X X X X X X X
1
XHale Waihona Puke Baidu
X
X
X
X
X
X
第1字节 第2字节 例如: “大”字的内码是10110100 11110011
2017/9/29 8
在中文Windows环境下,设有一串汉字的内码为 CB F5 D0 B4 50 43 CA C7 D6 B8,这段文本 中,含有_____ A 、2个汉字和 1个西文字符 B 、4个汉字和 2个西文字符 C 、8个汉字和 2个西文字符 答案:B D 、4个汉字和 1个西文字符
19
1.已知《GB2312-80》中汉字“国”的区号为25,位号为90, 其 国标码为_________(用十六进制表示),机内码为 _________(用十六进制表示) 2.1000个32*32点阵字库占用存储空_________KB 3.某汉字的区位码是1601,则该汉字的国标码__________H , 机内码为_________H。 4. 汉字“啊”的机内码是B0A1H,对应的区位码 ____________
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
9 16
位号(第二字节) 1 2 3 ……………… 94 1 字母、数字和各种符号 一级汉字 (3755个) (按汉语拼音排列) 二级汉字 (3008个) (按偏旁部首排列) (扩充使用)
区 号 ( 第 一 字 节 )
55 56 87 94
2017/9/29 11
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
2017/9/29 12
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
语音输入
•优点: •自然,方便,适合移动计算 •不足: •对说话人、说话方式、说话内容的适应能力要大 大增强 •识别速度和正确性还需大大提高
2017/9/29 21
西文由拉丁字母、数字、标点符号以及一些特殊符号所组成
目前计算机中使用最广泛的西文字符集及其编码是ASCII码 (American Standard Code for Information Interchange), 美国标准信息交换码
ASCII码中每个字符用7个二进位进行编码1个字节 存储1个ASCII 字符
ISO陆续制定了一批适用于不同地区的扩充ASCII字 符集,每个扩充ASCII字符集分别可以扩充128个字 符,这些扩充字符的编码均是高位为1的8位代码 (十进制数128~255),称为扩展ASCII码。
2017/9/29
4
汉字的编码
汉字在计算机中的存储:汉字字符集及其编码 1981年我国颁布了《信息交换用汉字编码字符集•基 本集》(GB2312—80),选取了6763个常用简体 汉字和682个非汉字字符。
区位码——》国标码——》机内码
国标码 =(区码+32,位码+32) =(区码+00100000,位码+ 00100000 ) 机内码 = 国标码两字节最高位都置1
2017/9/29 10
文本的获取
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
输入码(一个汉字用键盘中若干个键的组合来表示): (1)数字编码, 如电报码、区位码等;(2)字音编码, 如智能ABC,紫光,搜狗 等;(3)字形编码,如五笔字形和表形码等;(4)形音编码,发展趋势:基于 统计和学习功能的以词语(短语)或句子作为输入单位的输入方法
再按照该字符的代码从字库中取出该字符的形状描述信息 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗 体、斜体、下横线)将字形作必要的变换 最后将变换得到的字形放置在页面的指定位置处
2017/9/29
17
轮廓点
点阵 描述
轮廓 描述
直线
二次曲线
2017/9/29
18
2017/9/29
14
文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
2017/9/29 15
文本信息的输出
目的:阅读、浏览或打印文本
使用的软件:文本阅读器/文本浏览器
微软的Word 独立的软件:如Adobe公司的Acrobat Reader
2017/9/29 6
GB2312汉字编码字符集
GB2312字符集由三个部分构成
区位码:每个汉字在码表中的位置编码。 字符的代码表为94×94的表,行号(1~94)为区号,列号 (1~94)为位号。 该字符所在的区号(行号)及位号(列号)的 二进制代码(7位区号在左,7位位号在右,共14位)即为区位码。