《中文信息处理》复习提纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《中文信息处理》复习提纲第一章汉字信息处理
一、填空:
汉字的属性信息包括字量、字频、字序、字形、字音。
二、现代汉语用字排列的顺序
1、义序法
2、音序法
3、形序法
三、GB2312-80:中国《信息交换用汉字编码字符集·基本集》
四、什么是汉字字形识别输入?
也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统告诉自动输入的手段和根本出路,是汉字中文信息处理的一种好办法。五、自动字形识别输入的类型。
汉字识别的类型主要分三大类:联机手写汉字识别、印刷体汉字识别和手写汉字识别。
1、汉字手写汉字识别,又称实时手写汉字识别,人用笔在图形输入板上写字,机器隔着认。
2、印刷体汉字识别包括单体印刷体汉字识别和多体印刷体汉字识别两小类。
(1)单体印刷体汉字识别是识别印刷在纸上的一种印刷体汉字。
(2)多体印刷体汉字识别是同时识别印刷在纸上的宋、仿宋、楷、黑等多种字体的印刷体汉字。
3、手写汉字识别,又称通用手写汉字识别,是识别人写在至上的规整汉字。一般限制为楷书,笔画数要正确,要写于方格中。
六、汉字识别的基本思想与步骤。
1、汉字识别的基本思想是匹配识别。
2、步骤:
第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中,形成已知的汉字库。
第二步用图形输入板或光电设备(如图文扫描、光导摄像管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。
第三步将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。最后在机器存贮的标准汉字模式表达形式的集合中,找出最接近汉字输入特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。
七、汉字语音识别输入的定义。
汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语言特征,实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。
八、语音识别的类型
1、按使用人分类,有特定人语音识别和非特定人语音识别
(1)特定人语音识别指使用前由使用者对系统进行训练,让系统记住事先选好的字或词的发音特征,识别时由这个使用者将字或词读进系统。
(2)非特定人语音识别是供许多人使用的系统,使用者不用对系统进行训练。系统要能听懂任何人说的话,就必须让系统获取许多人说话的共性特征,并在处理中进行强化,是许多人说的同一语音的特征有极高的稳定性,对不同的语音有极大的区别度。
2、按词汇量分类,有小词汇量语音识别、中词汇量语音识别和大词汇量语音识别。
小词汇量指几十个字或词,中词汇量指几百个字或词,大词汇量指几千甚至上万的字或词。
3、按发音方式分类,有孤立词语音识别和连续语音识别。(1)孤立词语音识别指识别时将字或词孤立地读进系统。(2)连续语言识别指语言识别时将整个句子连续读进系统。要求系统既具备处理连续造成地同化、异位、脱落、换位等音变问题的能力,又具有通过语义、语法知识分析得出正确识别效果的能力。
另外,还有使用环境优劣的区分,也就是指噪声轻重情况。目前噪声下的语音识别还只是在初步研究阶段。通常所说的语音识别都是有较好的使用环境。
九、汉字编码的类型。
拼音编码、字形编码、音形编码。
十、汉字编码的原则
1、社会学原则
汉字编码研究的目的之一时为了信息处理技术的普进,这一普及首先要面向教育。汉字输入系统进入中小学课堂是培养跨世纪人才的根本大计,教学的规范化相应地要求汉字编码研究的规范化。在规范化的前提下,将中小学的“识字、定字、查字、打字”教学统一起来。
汉字是我国悠久历史文化的一个特征,研究汉字的分解原则,必须联系我国社会的文化背景。人们称说汉字的习惯有着深厚的群众基础,之所以能相沿习用,必有其合理的一面。现在,中文信息处理在拆分汉字,设计汉字编码方案时,就要充分考虑到这种文化传统和社会基础。2、汉字学原则
汉字编码作为汉字的计算机语言或代码,必须准确而简洁地反映和体现汉字地特点和规律。在实际过程中,容
易记牢的不是代码,而是字的结构规律,电脑容易识别的不是字的结构规律,而是代码。这两者虽有不同,但应统一。如果认为可以考虑汉字的特点,不遵循汉字的客观规律而任意拆分汉字,进行汉字编码设计,则是极片面的作法。
对于汉字编码来讲,汉字的特点和规律中,尤其要考虑现代汉字的构形特点和规律,所以汉字的分解一定要以形为主,兼顾音义,二要以现代字形为主,兼顾历史。
3、工程学原则
汉字编码是一项涉及多种因素的复杂工作,所以,应将汉字编码当作一项系统工程来抓。首先,要根据批率统计来确定字根的数量。其次要正确处理字根和偏旁部首的关系。
十一、汉字输出方式有显示、打印、语音合成和通信传输4种。
十二、建立《汉字义类信息库》的基本思想。
1、以目前现代汉语及汉语信息处理研究的权威理论及成果为指导,博采众长,描述“国标GB-2312”的6763个常用汉字语音、义项、同音、同形、语义类、词性、成词与否等信息,建立信息库。
2、人机两用的全新研究理念。
《汉字义类信息库》的建立不仅要满足人的学习、研究汉字的某些需要,而且要满足计算机进行汉字、汉语信息处理的某些需要,因此汉字义类信息库的建立不仅要适合于人读,而且要适合于机读,在信息库的收字立条、结构的设计、属性的确定、属性的描述及信息的存储等方面充分考虑到“人机”两用的特点。
3、以“字位”为描述的基点。
“字位”的概念是仿语音学的“音位”,词汇语义学的“义位”而确立的,是指特定的形、特定的义相结合的形音义一体化的汉字。
第二章汉语词语的信息处理
一、每个词语在一定语料中出现的次数叫做这个词的频度。每个词的频度与总频度和之比,叫频率。
二、词频统计的意义。
词频统计对语言教学、语言信息处理、语言工程都具有重要意义。
(1)是语言教学中的语文编制的基本依据。
(2)在语言信息处理中为词语的分级,词表、词库的建立提供一个基本依据。
(3)为一定的语言工程奠定初步的基础。
三、词表一般分为通用词表和专业词表。
四、汉语统计的三大难题
1、字形信息与语音信息有不同处理技术要求。
2、词的划分问题。
3、如何区分同音词。
五、名词解释:
1、电子词典:全称《现代汉语语法信息词典》,是供计算机使用的,与供人使用的词典相比较,收词原则应有所区别:该词典又是一部面向中文信息处理各个领域的通用性词典,它不依赖于任何特定的语言处理模型及算法。
2、汉语自动分词:自动分词是从汉语信息处理需要出发,按照特定的规范,由计算机将输入的文本(一个句子、一篇文章、一部著作)按分词单位进行划分,并打上分词标记的过程。
3、最大概率法:是基于统计的分词方法,其基本思路为一个字串有多种切分方式,即对应于多个词串时,可以通过计算从中挑选出一个概率最大的词串作为切分结果。六、电子词典的类型。
从用途分:标注词典、知识词典、综合词典。
从内容分:语法词典、语义词典、百科知识词典。
七、自动分词的方法:
1、机械匹配法;
2、基于统计方法;
3、基于理解方法。
八、分词规范体现的原则。
语义原则、语法原则、语音原则(实用原则、数字原则)
九、汉语切分的错误:1、交集型歧义。2、组合型奇异。
3、未登录词语――新词语。
十、自动分词方法
1、最大匹配法:MM法。机械匹配法中最基本类型。(例:研究生‘命‘本质)
2、逆向最大匹配法:RMM法。(例:研究‘生命‘本质)十一、词性标注的意义。
1、确定词的语法功能,为句法分析打基础。
2、便于在词性标注语料库中检索句法结构。
3、为同音字标注、多音字标注和词义标注提供支持。
十二、词性标注的方法(了解)
词性标注的基本方法有两种。一种是基于规则的方法,其特点是定型描述上下文条件。给出确定性的标注结果。另一种是基于统计的方法,其特点是定量描述上下文条件,所给出的标注结果是概率意义上的最优,是不确定的。
另有基于规则与基于统计相结合的方法。
十三、语料库的定义
语料库,英文为Corpus,就是指存储语言材料的仓库。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。
十四、语料库语言学的理论意义
1、语料库方法将改编传统研究方法。
2、语料库语言学的产生将改变语言研究的观念――由理性主义转向经验主义。
3、语料库语言学的兴起,使得词库在整个语法理论中的