中文信息处理重点题目及解答

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文信息处理

①信息:是物质世界存在的形式、状态及各种关系,是与物质、能量共同构成世界的三大要素之一。具有主观和客观双重属性。中文信息,是特指以汉语言文字为载体形式的信息。从宏观角度看,一类是自然性信息,一类是社会性信息。

②信息处理:就是用计算机对各种信息符号进行输入、转换、存储、传输、分类、排序、统计、分析、重组等加工过程。

③中文信息处理:是利用计算机对中文(包括口语和书面语)进行输入、转换、传输、存储、分析、加工的科学。中文信息处理技术已到社会生活的各个方面,汉字/汉语信息处理。

④代码:汉字的代码有:汉字输入码、汉字内部码、汉字交换码、汉字地址码、汉字字形码和汉字控制功能码。从汉字代码的角度看,一个汉字信息处理系统,就是一个进行汉字代码转换的过程。中文代码包括内部码和外部码两大类,内部码是中文在计算机系统内部进行处理和传输的代码,外部码作为人机接口由用户给计算机输入信息时使用的代码。

*中文计算机操作系统使用的代码系列一共三种,七位代码系列,八位代码系列和双八位代码系列。中文信息内部处理代码包括存储码、运算码、传输码。

(是程序员用开发工具所支持的语言写出来的源文件,是一组由字符、符号或信号码元以离散形式表示信息的明确的规则体系。)

⑤编码:是以固定的顺序排列字符,并以此做记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。

A.计算机通讯技术领域对所处理信息的字符集序号序列的排序原则和代码赋值方式,也是“机内码”的编码。

B.专指计算机键盘输入汉字的代码设计与实现,简称外码或人机界面编码。

汉字编码:广义的汉字编码就是汉字排检法,即确定一个排序规则使全部汉字成为有序的集合,以便能按照排序规则检索到所需要的汉字。狭义的汉字编码特指采用通用键盘上的字母数字为汉字编制代码,以便实现汉字的计算机输入。

*静态编码:指把汉字作为等概率的离散字符进行的编码,不考虑汉字的使用频率。

动态编码:是根据汉字的使用频率进行信息编码,如传输码、处理吗都采用动态编码。

⑥字符集:字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集。计算机对字母和符号采用国际上通用的ASCII码来编码,标准的ASCII码用7位二进制数编码,字符存放时采用一个字节,规定最高位为0,这样可以表示128个字符。

⑦汉字三种类型输入法:

A.键盘输入方法使用已有西文键盘,通过编码输入。分整字输入方法和编码输入方法。

B.非键盘输入方式:如识别输入,包括汉字识别输入和语音识别输入。

C.数字键盘编码输入。

汉字输入计算机的途径:A.通过计算机的键盘人工输入B.计算机自动识别

汉字的自动识别级汉语的语音自动识别

⑧汉字属性:是汉字作为记录汉语的书写符号所具有的形、音、义等属性。其研究和属性库的建立,具有特别重要的理论意义和实践意义。汉字的信息属性是汉字作为信息载体所具有的所有属性,包括传统的形音义,频率、分布、构词等。对汉字属性的传统认识是针对形音义三要素,现代对汉字信息属性认识有字量、字形、字音、字序四种。

⑨汉字属性库:

从关系数据库的结构出发,任何一个层级的分类都可作为数据结构中的一个属性项,所有的

属性项都可以依次排列在一个列表中,分别按照一定的规则命名进行统一的管理。

⑩电子出版(物):基于电、磁、光载体形式的电子出版物,又叫电子读物,就是充分利用计算机数字化图文处理功能,把图文声像等多媒体信息有机的组织起来,从根本上改变了几千年来的传统的文本载体形式,组成一个立体化的“机读“信息集合体。

特点:容量大、成本低、便于复制、阅读方式灵活、便于保存。

⑪网络出版:是以国际互联网为信息载体和传播工具,以网上电子交易为主要结算方式,通过远程在线浏览或下载到终端客户存储器方式,完成数字化电子读物的出版及销售。

特点:信息化载体、数字化交易、超时空流通、成本最小化、资源效益最大化。

⑬语料库:是作为信息载体的大量语言资料的集合,可以提供足够多的资料和例证,满足语言研究的需要。现代意义上的语料库即指又大规模电子文件组建的计算机语料库。

分类:根据语料的媒体形式/语料的年代背景/语料的语种数量和来源/专业特点和抽样方式。中文语料库可分为四类:生语料库,熟语料库,平行语料库,学习者语料库。

◆GBK编码:是中国大陆制订的、等同于UCS的新的中文编码扩展国家规范,为立足于GB2312——80同时支持ISO10640国际标准公布的过渡性标准,全称为《汉字内码扩展规范》,简称GBK。

该编码规范兼容GB2312,共收录了21886个字符,包括汉字21003个、其他字符883个。另外提供了1894个造字码位,简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就是采用的GBK,通过GBK与UCS之间一一对应的码表与底层字库联系。

英文名是:Chinese Internal Code Specification中文名是:汉字内码扩展规范1.0版

它是双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容。

范围:8140~FEFE(剔除xx7F)共23940个码位,所收录的21003个汉字,包括了ISO/IEC 10646-1中的全部中日韩汉字。

(Windows 95\98简体中文版带有GBK.txt文件,内含全部GBK字符。目前计算机系统中的宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字体支持显示这个字符集。微软拼音输入法2003、全拼、紫光拼音等输入法,能够录入如“镕炁夬喆姤赟 昳堃慜靕臹”等GBK简繁体汉字。)

◆CJK编码:中国受ISO和IEC的委托成立ACCC,联合多国中文信息处理专家共同研制ISO10646CJK的国际标准汉字字符集。《CJK统一汉字编码字符集》基本兼容了中国、日本、韩国各自的汉字字符集和扩展字符集,是三国四方电脑用字符集的“并集”。

(ISO 国际标准化组织IEC 国际电工委员会ACCC 中文代码国际联合会)

◆基本字符集:根据GB2311扩充而来的汉字交换码标准,全称是《国家标准信息处理交换用汉字编码字符集·基本集》(GB2312—80),简称为《基本集》,是中文信息处理的一个重要的基础标准。规定了汉字信息交换用的基本图形字符及其二进制代码的编码表示,广泛地适用于一般的汉字处理、汉字通信等信息系统之间的信息交换。

相关文档
最新文档