第一章 计算机中文信息处理技术概述讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 字形(续)
字根 字根是组成单字的基本结构单元,它本身由笔画 组成。它的基本要求是组字能力强,组成的单字 字形匀称
目前实际常用的字根为100-300个 一般常用的偏旁部首都被选择为字根 字根的划分不是绝对的,目前还没有相关的强制
性标准,只有指导性标准 例如:土 旦 王
2.2 字形(续)
综合 字 频度 的 0.0384 一 0.0125 是 0.0098 在 0.0095 了 0.0082 不 0.0081 和 0.0075 有 0.0069
2.3 字频(续)
字频有明显的局部性 字频统计的结果与字频统计时使用的文本 的性质有关
字频也有一定的时间性 在不同的历史时期同一历史时期的不同阶 段,某些特定字的使用频度可能会出现较 大的波动 例如:镕
2.2 字形(续)
单字 单字分成多种结构类型,大体上可以分为 独体型、上下结构型、左右结构型和内外 结合型四种 如果对单字结构进行更精细的划分,可以 分为如下十二种:
2.2 字形(续)
左右
“朋”
“彻”
上下
“吕”
“意”
全包围 “国” “区”
上开口 “函” “向”
左下开口 “句” “达”
左中右 上中下 右开口 下开口 右上开口
注音字符包括了注音符号和拼音符号。注音符号创 建于五四运动前后,它对汉字注音和推广国语起到 很好的作用。目前台湾地区还在继续使用。汉字注 音法也有多种,包括:威妥玛式方案、国语罗马字 拼音法、北方话拉丁化新文字和《汉语拼音方案》 等。
2.4 字音(续)
《汉语拼音方案》是20世纪50年代制定出 来的一个汉字标音系统。它用26个西文字 母作为拼音字母,用21个声母、35个韵母、 4声调以及1个隔音符来记录汉语和标注汉 字。
2.4 字音
汉字是单音节文字 早期汉字读音标记法:直音、反切和注音字符。
直音法是用一个汉字给另一个汉字注音,例如。 “厶,音司”。
反切法是用两个汉字给另外一个汉字注音,如“鲁, 郎古切”,“浪”是反切上上字,与被注音字“鲁” 的声母相同,“古”是反切下字,与被注音字“鲁” 的韵母和声调相同。
信息的传送把信息通过计算机内部的指令或计算机 之间构成的网络从一地传送到另外一地;
信息的发布就是把信息通过各种表示形式展示出来
1.3 什么是中文信息处理
从广义来说,由我们祖先创立中文开始, 就一直在进行;
从狭义来说,从第一部中文字典产生以来, 就一直在进行中文信息的分析和综合处理
三、 什么是中文信息处理
汉字原来是一种望文生义的文字,汉字的 形与义之间有着千丝万缕的联系
2.5 字义(续)
现在一个汉字并不只是一个字义,据统计,一个 汉字平均约有四个字义。所以,现代汉语中汉字 的表义能力明显下降,尤其是简化汉字 車-车
汉字的字义往往和上下文环境密切相关,由此上 升为语义 跑(跑步)(逃跑)
我国推广应用 自然语言处理是计算机技术发展的必然方向
1.7 中文信息处理的发展
50年代,103、104计算机的俄汉翻译 60年代,汉字电报译码机 70年代,我国才系统地研究中文信息处理 80年代,中文信息处理的基础研究蓬勃发
展 90年代,中文信息处理得到广泛应用 21世纪,中文信息处理存在挑战和机遇
人名、地面用字少 旻(min) 喆(zhe) 赟(yun)
动物名用字多 鹱 鹛 鸸 鼍
ISO10646-2001定义了5万多个汉字
2.1 字汇(续)
䵯䵼䵤䵈䶫 龖龘鼄
2.2 字形
汉字是象形文字,其每个字符都具有特定 的形状和构造,这是其与各种拼音文字的 最大区别
目前对汉字字形的分解方法和分解标准尚 未统一,现在的字形分解方法大体上可以 分为单字、字根、笔画(笔形)和形素四 个层次
中文的计算机化
通过改造我国的文字,使它适合计算机的处 理
1.5 中文信息处理和汉字信息处理
中文包括我国各民族使用的各种文字。 汉字在中文中处于主导地位。 中文信息处理包括汉字信息处理。
1.6 中文信息处理的必要性
人类社会进入了信息社会 信息的量日益膨胀 人工方法处理信息在目前是很困难的 计算机为进行大量的信息处理提高了可能 我国以中文为信息的主要表示形式 计算机必须要能处理中文 计算机的本地化需要中文信息处理技术 只有计算机的本地化,信息的计算机处理才能在
新闻 字 频度 的 0.0375 一 0.0132 了 0.0120 和 0.0086 在 0.0086 人 0.0083 大 0.0083 主 0.0083
科技 字 频度 的 0.0320 一 0.0097 在 0.0092 用 0.0079 有 0.0073 是 0.0070 不 0.0069 中 0.0066
由于一般的人掌握一千多个常用汉字是没有困难 的,所以,出现了用常用字注音的方法,非常实 用。例如: 赟同晕 或 赟同云(阴平)
2.4 字音(续)
在汉语中除了一音多字现象以外,还有一 字多音的现象
就GB2312收录的6763个汉字而言 其中多音字有866个,占12.8%
2.5 字义
字义是汉字属性中最复杂的属性,对字义 很难做客观的量化
……
1.10 国际化和本地化
国家标准和国际标准 不同字符集问题 简繁问题 操作系统问题 如何过渡?
1.11 电子消费设备的中文化
中文嵌入式操作系统 字形、字库 字库压缩 汉字输入
§2 汉字的属性及其特点
字汇 字形 字频 字音 字义 词汇
2.1 字汇
所谓字汇就是指汉字的集合,字汇量与计 算机对文字处理的方式有很大关系
Байду номын сангаас
甲骨文 个
3000余
东汉许慎《说文解字》
9353个
清代张玉书《康熙字典》 个
49030
2.1 字汇(续)
1952年,教育部公布了《常用字表》,其中收录 了汉字2000个(包括500个补充用字);
1955年,中国文字改革委员会公布了《通用字表 (初稿)》,收录汉字5709个;
1965年修订后的《印刷通用汉字字形表》,收录 汉字6196个;
1988年公布的《现代汉语通用字表》收录汉字 7000个;
对300万字语料的检测结果:2500个常用字的覆 盖率为97.97%,1000个常用字的覆盖率为 1.51%,3500字合计覆盖率达到99.48%。
2.1 字汇(续)
什么是信息(续)
Information may be defined as the characteristics of the output of a process, these being informative about the process and the input .
----Robert M. Losee 信息是过程输出的特征,这些特征就是输入和处理过 程中产生的信息。换句话说,信息可以理解为由过程 所生产的特征值或变量。该特征值或变量是代表了输 入和过程的信息。
2.6 词汇(续)
汉语中的词有词根和词缀
词根是指意义实在、在合成内的位置不固定的粘着 语素和自由语素; 自由语素则是指能够独立成词的语素,例如:“水、 木、金、心、火”等。自由语素能够单独成词,也 可以与其他语素组合成词 粘着语素是指不能单独构成词的语素,例如:“民、 伟、丰、型”等。粘着语素必须跟别的语素组成词。
计算机中文信息处理:研究我国语言文字的 信息处理问题的应用技术,是为了使汉语言 文字适应信息社会的需要,在七十年代才发 展起来的多学科交叉的综合性学科,它是一 种以计算机为主要工具,以语言文字为处理 对象的高新技术。
计算机本地化的主要途径
1.4中文信息处理的途径
计算机的中文化
通过改造计算机使它适合中文信息的处理
第一章 中文信息处理概述
§1 绪 言
1.1什么是信息
控制论创始人维纳(Norbert Wiener)认为, 信息既不是物质也不是能量,是人类在适应 外部世界时以及在感知外部世界而作出协调 时与外部环境交换内容的总称。
信息论奠基者香农Clause Shannon认为, 信息就是能够用来消除不确定性的东西,是 一个事件发生概率的对数的负值。该论述第 一次阐明了信息的功能和用途。
汉字的字义还会影响汉字的读音 翟(zhai2)(di2)
2.6词汇
词汇是语言中所有的词和短语的总和。词是由语 素构成,是句子中最小的能够独立运用的语言单 位。
单音节语素在书面上用单个的汉字书写。 古汉语中由一个单音节语素构成的词占绝对优势,
所以书面上基本一个汉字也就是一个词(只有极 少数连绵词例外)。这就形成了汉字连篇书写的 传统。 20世纪20年代开始,文章开始分段,并使用新式 标点符号,不再连篇书写,基本上为按句连写。
1.2 什么是信息处理
信息处理就是对信息的接收、存储、转化、传送 和发布等。
信息的接收包括信息的感知、信息的测量、信息的 识别、信息的获取以及信息的输入等;
信息的存储就是把接收到的信息或转换、传送或发 布中间的信息通过存储设备进行缓冲、保存、备份 等处理;
信息转化就是把信息根据人们的特定需要进行分类、 计算、分析、检索、管理和综合等处理;
1.8 中文信息处理系统的组成
硬件
计算机硬件 字库 输入设备 输出设备
软件
系统软件 应用软件
1.9 中文信息处理的内容
中文信息处理系统 中文应用软件 自然语言理解 机器翻译 自动文摘 文本分类 信息检索、抽取和过滤 基础研究
自然输入 字库 输入法 内码 Internet的本地化 中文嵌入系统 电子照排
词缀是指意义不实在、在合成词内位置固定在前或 后的粘着语素。
例如,“筷子”中的“筷”是词根语素,“子”是 词缀语素。
2.6 词汇(续)
汉语中由一个语素构成的词叫做单纯词,由两个 或两个以上语素构成的词称为合成词。
随着汉字文化和历史的演变,有些字出现 了很多异体字,很多字成为“死字”而不 再使用
2.1 字汇(续)
70年代末,我国专门成立专家组,确定了计算机中 汉字的字符集,其中最常用的是GB2312
一级汉字
3755个
二级汉字
3008个
辅助集包含16000余个汉字
事实证明这个字符集收录的汉字有很多不合理的地 方
编号 1 2 3 4 5 6 7 8
政治 字 频度 的 0.0536 是 0.0165 一 0.0136 在 0.0115 这 0.0109 主 0.0108 不 0.0101 和 0.0098
文化 字 频度 的 0.0324 一 0.0218 了 0.0196 不 0.0165 是 0.0141 说 0.0130 他 0.0130 这 0.0119
2.3 字频
汉字有五、六万个,一般的人仅掌握三千 到五千个常用汉字,不会出现文字交流的 障碍吗?
统计结果表明使用频度最高的 164个汉字占汉字使用频度的50% 1000个汉字占汉字使用频度的90.4% 2500个汉字占汉字使用频度的97.97% ????个汉字占汉字使用频度的99.00%
2.3 字频(续)
笔画(笔形)
齉 爨龘
36画
30画
48画
每一次从落笔到提笔,便构成一个笔画
一个笔画所形成的轨迹就是笔形
2.2 字形(续)
汉字常用的笔形有五种 横、竖、撇、捺、折
各种笔形在汉字中使用的频度为: 横28% 竖18% 撇15% 捺13% 折17% 其他19%
札
2.2 字形(续)
汉字笔画数 最少的仅1画 多的可达30余画 少数可达60画以上 平均每字约11画
2.4 字音(续)
绝大多数的汉字音节由一个辅音音素和一个(或 多个)元音音素构成
现代汉语有417个基本音节 加上阴平、阳平、上声、去声、轻声五个声调,
共有约1330个音节
2.4 字音(续)
六万多个汉字一共1330种读音,所以,汉语中同 音字是很多的
就GB2312收录的6763个汉字而言 没有同音字的读音有25个 如:佛给能您耨暖日森僧贼抓 同音字最多的读音是yi4(55个)