课程自学资料20
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
•优点: •自然,方便,适合移动计算
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
GB2312汉字的编码
• 每一个GB2312汉字使用16位(2个字节)表示 • 为了与ASCII字符相区别,每个字节的最高
• GBK汉字内码扩充规范(1995):
– 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 – 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、
円、冇等繁体字和生僻字
– 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必 须为“1”:
1 X XX X XX X X X XX X XX X
5.1.2. 文本准备
——文稿如何输入计算机
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
编码方法
双字节存储和 表示,每个字 节的最高位均 为“1”
双字节存储和表 示,第1个字节 的最高位必为 “1”
部分双字节、 (1) UTF-8采用单字节 部分4字节表示, 可变长编码 双字节表示方 案与GBK相同 (2) UTF-16采用双字
节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!
例: IE浏览网页时文字编码的选择
同时要掌握音、形两种 取码方法或规则,对普 通用户比较困难
5.1.4 文本的编辑与排版
复习:使用Word的操作流程
创建新文档或打开老文档
文稿输入
输入中西文字、符号 和图表
编辑
进行增、删、改操作,保 证文本的正确性
排版
满足清晰、美观、便 于使用等要求
文档存盘、打印或发送
文本编辑(text editing)
• GB18030目前已在我国信息处理产品中强制贯彻执行。
小结:几种汉字编码的对比
标准名称 GB2312
GBK
字符集
6763个汉字(简 21003个汉字
体字)
(包括GB2312
汉字在内)
GB 18030
近3万汉字
(包括GBK汉字 和CJK及其扩 充中的汉字)
UCS-2 (Unicode)
包含10万多字符,其 中的汉字与GB18030 相同
汉字如何编码?
• 汉字是记录汉语(国语,华语)的文字,属于 表意文字,它用符号直接表达词或词素,有多 个国家和地区使用(中、日、韩、新、马······)
• 汉字的特点
– 数量大;字形复杂,同音字多,异体字多
• 如何编码?
– 确定收入多少字、哪些字? – 在字符集中如何排列? – 使用多少个二进位进行编码?
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息处理是涉及面最广的一种计算机 应用,几乎与任何领域任何人都有关。
传统的文字处理过程
写作写作
编辑
排版
印刷 发行
计算机文字处理过程
• 文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
• 文本由一系列 “字符”(character)组成,每个字符均使用二进 制编码表示
悬挂缩进标 记
左缩进标记
首行缩进标记 首行缩进
右缩进标记
右缩进
正文区 左边界
左缩进
正文区 右边界
设置页面的格式
• 页面格式的设置:
– 设置纸张大小和页边距 – 设置每页的行、列数目 – 设置分栏数目与格式 – 设置页码 – 设置页眉和页脚
设置页面的分栏
提高Word操作效率的若干措施
• “所见即所得”(操作效果屏幕立即可见,打印结果与 屏幕所见完全相同)
• 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉 字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家 标准。
• GB18030实质上是UCS/Unicode字符集的另一种编码方案: – 单字节编码(128个)表示ASCII字符 – 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下 兼容,GBK不再使用 – 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符
• 字符集:一组特定字符的集合
– 不同的字符集包含的字符数目与内容不同,如:
中文字符集、西文字符集、日文字符集等
• 字符的编码:
– 字符集中每个字符的二进位表示,称为该字符的编码或代码 (code)
– 不同的字符其编码各不相同 – 字符集中所有字符的编码的一览表,称为该字符集的码表
复习:西文字符的编码——ASCII码
• 目的:确保文本内容正确无误
• 操作:对字、词、句和段落进行添加、删除、 修改等操作
• MS Word的功能:
– 在文本的任何位置都可以插入新的文字 – 从文本的任何位置都可以删除不需要的文字 – 将一段文字从一处移动到另一处 – 将一段文字从一处复制到另一处 – 在文本中自动查找指定的词语 – 用一个词语自动替换文本中指定的词语
纸介质 文本
扫描仪
文本的 映象
(image)
OCR
数字 文本
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
汉字的键盘输入
• 汉字与键盘上的键无法一一对应,因此必须 使用几个键来表示一个汉字,这就称为汉字 的“键盘输入编码” • 优秀的汉字键盘输入编码应具有的特点:
– 易学习、易记忆 – 效率高(平均击键次数较少) – 重码少 – 容量大(可输入的汉字字数多)
汉字键盘输入方法的比较
类型 原理
举例
数字 编码
使用一串数字来表示汉 电报码
字
区位码
字音 编码
把汉语的拼音作为汉字 智能ABC
的输入编码
紫光
微软拼音输入
字形 编码
把汉字的部件或笔画作 五笔字形 为码元,按照汉字结构 表形码
– 先实现部分字符的编码(共107,361个字符)
– 尽量与已有编码标准兼容
– 其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字)
– 允许有若干不同的编码方案, 例如:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符
双字节:拉丁、希腊、阿拉伯,···
三字节:CJK汉字
四字节:其他
位均为“1”
1 X XX X XX X 1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111
(用十六进制表示为C4CF)
GBK汉字内码扩充规范
• GB2312的不足:
– 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、 古典文献研究等应用的需要;与ASCII码不兼容
• 撤销(undo)和恢复(redo)操作 • 格式刷 • 多种视图(大纲视图与大纲编辑) • 自动更正、自动套用格式、自动编号、自动图文集 ······ • 自动保存功能和自动备份功能 • 样式、模板和向导(wizard)功能 • 宏操作(Macro)
•不足: •对说话人、说话方式、说话内容的适应能力要大 大增强 •识别速度和正确性还需大大提高
文字符号输入计算机的方法
键盘输入
人工输入 联机手写输入
字符信息的输入
•识别率已达到98%
•功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别 – 智能校对功能
语音输入 印刷体识别
• 西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号 以及一些特殊符号所组成
• 美国标准信息交换码(ASCII码): – ASCII字符集包含96个可打印字符和32个控制字符 – 采用7个二进位进行编码 – 计算机中使用1个字节存储1个ASCII 字符 0 X XX X XX X
• 存在问题: – 字符集太小(只有128个字符) – 不同国家和地区使用不同的字符集及其编码,互不兼容 – 东亚地区使用的大字符集无法编码
GB2312汉字编码字符集
• 1980年颁布《信息交换用汉字编码字符 集·基本集》——GB2312-1980
• GB2312字符集由三个部分构成:
位号
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现
文字处理是计算机应用的基础
• 计算机应用=使用计算机进行信息处理
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,···
四字节:非常用CJK汉字
应用:Linux,Web网页,电子邮件 应用:Windows,Mac,Java,···
GB18030汉字编码标准
• 背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖 了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不 相同
常用的汉字编码字符集
• 国家标准GB2312-1980 • 汉字扩充规范 GBK • 国家标准GB18030-2005 • 台湾地区的标准汉字字符集CNS 11643 (BIG 5,
俗称“大五码”) • 日本工业标准汉字字符集JIS X 0208-90 • 韩国国家标准汉字字符集KSC 5601-87 • UCS/Unicode多文种大字符集
文本排版(格式化)
• 目的:使文本清晰、美 观、便于阅读
• 操作内容:对文本中的 字符、段落乃至整篇文 章的格式进行设计和调 整,分成3个层次:
– 对字符格式进行设置 – 对段落格式进行设置
– 对文档页面进行格式设 置
设置字符的格式
• 字号(八号 → 初号, 5磅→72磅以上) 1磅相当于1/72英寸
• 字体(宋体、楷体、黑体、仿宋、隶书···)
• 字符的修饰
– 字符的形状(字形):正常、加粗、倾斜、加粗倾斜
– 字形的修饰:下划线、着重号、上下标、删除线···
– 字符的颜色
– 字符的宽度
– 字符的间距
– 字符的效果
• 字符的排列方向
Demo1
设置段落的格式
• 什么是段落?用“回车”相互隔开的一组文字
• 文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图表 的输入)
文本编辑 与排版
(文本处理软件)
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本 展现
(存档/通信软件() 文本阅读器)
(1)
(2)
(4)
பைடு நூலகம்(5)
5.1.1. 字符在计算机中的表示
字符、字符集及其编码表
• 文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等
及其切分规则作为编码 郑码
依据,确定每个汉字的
输入代码
音形 编码 (或形音 编码)
采用字音及字形两种属 粤音输入法 性作为码元的汉字编码 输入方法
优点
仅使用10个数 字键 简单易学,适 合于非专业人 员 重码少、输入 速度较快,适 合于专业录入 员、打字员使 用
同上
缺点 难记忆
重码多,需增加选择操 作,不会汉语拼音或不 知道读音时无法使用 缺乏统一的规范,编码 规则不易掌握
• 段落格式的设置:
– 段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、 右对齐)
– 段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进)
– 段间距和段内行距
– 使用编号和项目符号
– 段落添加边框和底纹
– 首字下沉或悬挂
– 段落与分页的关系
Demo2
控制段落的缩进
• 段落缩进是指段落中的文本到正文区左、右边界的距离, 包括段落左缩进、右缩进和首行缩进。其缩进的距离可 由水平标尺上对应的三个缩进标记来指示
第1字节
第2字节
UCS/Unicode多文种大字符集
• 背景:为了实现全球数以千计的不同语言文字的统一编码
• 方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一 编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode
• UCS/Unicode的编码方案: