中文信息处理基础Chapter_03_Character
中文信息处理课件
THANK YOU
汇报人:
基于知识图谱的方法:通过构建知识图谱,分析文本中的实体和关系,进行情感分类
中文情感分析技术应用场景
电商评论情感分析:帮助商家了解消费者对产品的评价和满意度
社交媒体情感分析:帮助企业了解消费者对品牌的态度和口碑
客户服务情感分析:帮助企业了解客户对服务的满意度和需求 情感机器人:通过情感分析技术,让机器人更好地理解和回应人类的情 感需求
义的词组
常见的中文分 词方法有基于 词典的分词、 基于统计的分 词和基于深度
学习的分词
中文分词技术 在搜索引擎、 机器翻译、情 感分析等领域 有着广泛的应
用
中文分词算法分类
基于词典的分词算法
基于统计的分词算法
基于规则的分词算法
基于深度学习的分词算 法
中文分词技术应用场景
搜索引擎:提高搜索结果的准确性和效率 自然语言处理:用于文本分析、情感分析、机器翻译等 社交媒体:用于文本分析、情感分析、用户画像等 电子商务:用于商品推荐、用户行为分析等
05
中文句法分析技术
中文句法分析技术简介
什么是中文句法分析:对中文 句子进行结构分析,提取句子 中的语法成分和结构关系
句法分析的方法:基于规则的 句法分析、基于统计的句法分 析、基于深度学习的句法分析
添加标题
添加标题
添加标题
添加标题
句法分析的作用:帮助理解句 子的含义,提高自然语言处理 系统的性能
句法分析的应用:机器翻译、 信息检索、问答系统、情感分 析等
中文句法分析算法分类
基于规则的句法分析算法:通过定义规则来识别句子结构 基于统计的句法分析算法:通过统计方法学习句子结构 基于深度学习的句法分析算法:使用深度学习技术识别句子结构 基于语法树的句法分析算法:通过构建语法树来识别句子结构
中文信息处理
中文信息处理技术浅谈摘要:随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。
广泛的应用对中文信息处理技术也提出了较高的要求。
本文从主流技术、新技术展望等,对中文信息处理技术进行了初步探索。
关键词:中文信息处理N元模型语音识别词性标注中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。
中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。
其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言:但一般都是指汉语。
“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。
所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。
一、中文信息处理的特点及难点中文信息处理在许多方面有自己的特点。
1、汉字的特殊性西方语言只有几十个字母。
而汉字由于数量大且字形复杂,也给计算机处理带来了困难。
汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。
根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
2、书面汉语的特殊性书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。
汉字信息处理
(一)汉字的笔画
(1)汉字笔画数统计: 所谓笔画,就是用笔写字时,笔头在纸上所画的线 条。每写一个汉字,笔头一般要在纸上起落若干 次,在每个起笔、落笔的过程中,不管笔头在纸上 所走的路线是横的还是竖的,是长的还是短的,是 直的还是弯的,统称为一画。 根据上述定义,笔画数统计结果如下:
两种以 上名称 的部件
有:
(4)汉字部件名称的规范
规范部件的名称对提高语文识字教学、中文信 息处理的语音输入以及口语通讯等方面的效率有密 切关系。
旁、边:在左右结构和左右包孕结构的合体字中, 左边的部位定名为旁,右边的部位定名为边。如杜 字就可分解称说为木字旁、土字边。
头、底:在上下结构和上下包孕结构的合体字中, 上边的部位定名为头,下边的部位定名为底。如宝 字,就可称说为宝盖头儿、玉字底。
3
A.简化 字和被简 化的繁体 字以及未 简化的汉 字集 (16339)的 笔画数统 计结果:
B.简化 字和未简 化的汉字 集(11834) 的笔画数 统计结果:
从上述统计可以看出: 简化字和被简化的繁体字以及未简化的汉字集 (16339):8画至15画的字书较多,其中12画的字数最 多。16339个汉字的平均笔画数为12.7061画。
(一)汉字字形识别输入
1.什么是汉字字形识别输入? 也称汉字自动识别。即利用光学扫描方法将汉
字的图形信息直接输入计算机,也就是用计算机自 动辨别印刷或书写在纸(或其他介质)上的汉字。
2.汉字字形识别输入的类型:
①联机手写汉字的识别。 ②印刷体汉字的识别。 ③手写汉字的识别。
3.汉字自动识别的优点
Ø首先是实现了汉字的高速自动输入,大大减轻了 人的脑力和体力劳动强度。 Ø其次是突破了人工输入的速度局限性,彻底解决 了汉字信息处理系统中手工输入效率低的问题。 Ø再次是为办公自动化和下一代印刷技术的文字信 息自动输入打下了基础。 Ø最后它有助于汉字文本高倍压缩存贮和传输。
中文信息处理ChineseInformationProcessing
中文信息处理--绪论
9
汉字键盘输入技术
汉字键盘输入技术是一种通过键盘使汉字进入计 算机的技术
汉字编码
采用四位十进制数把常用的汉字用“0”—”9”十个数字 按照次序进行编码
四角码(字形码)
用“0”—”9”十个数字键对汉字的四个角的形状进行编码
机内码
用2字节、3字节、4字节来表示一个汉字的机器内部码
2019/12/14
中文信息处理--绪论
28
中文信息处理的发展
字、词等表层处理为特征的初级阶段
北京大学开发的华光排版系统被评为1985年中国十大 科技成就之一,并荣获中国发明协会发明奖
“六五”期间(1981-1985),北京航空学院主持,中国 人民大学等十几个院校,研究机构参加的“现代汉语 词频统计”工程是这一阶段代表性的重大科研成果, 这是国内首次使用计算机进行大规模语料(2000万字)的 词频统计研究的大型语言工程
2019/12/14
《计算机科学技术百科全书》 清华大学出版社,2019
中文信息处理--绪论
8
计算机中文信息处理主要研究对象
汉字键盘输入技术 汉字输出技术 软件汉化技术 汉字字形识别技术 汉语语音识别技术 激光照排技术 中文平台 文本分类 信息检索
2019/12/14
2019/12/14
中文信息处理--绪论
12
汉字字形识别技术
汉字识别技术是利用计算机技术对汉字静态图形 和动态汉字信息进行特征提取,与预先存储在计 算机内的标准汉字特征信息进行匹配,并选择符 合特征的汉字作为所需识别的汉字内码
联机识别 脱机识别
汉字字形识别过程
汉字识别前处理 汉字分类和判别 汉字识别后处理
中文信息处理技术原理与应用
实时监测和分析网络上的舆情信息,包括新闻报道、社交媒体讨论等,为政府和企业提供决策支持。
教育领域应用:智能批改、作文辅导等
智能批改
利用自然语言处理技术对学生的作文进行自动批改,包括语法错误检查、篇章结构分析、 内容评价等。
作文辅导
通过分析大量优秀作文和写作技巧,为学生提供个性化的写作指导和建议,提高学生写 作水平。
关系抽取与事件检测
关系抽取定义
事件检测定义
从文本中识别出实体之间的关 系,如人物之间的亲属关系、 公司之间的合作关系等。
从文本中识别出事件及其参与 者,如地震事件中的时间、地 点、震级等信息。
关系抽取与事件检 测方法
基于模板的方法、基于特征的方 法、深度学习方法等,其中深度 学习方法如卷积神经网络 (CNN)、循环神经网络 (RNN)及其变体在关系抽取 和事件检测中得到了广泛应用。
识别那些未在词典中出现的词语, 提高中文信息处理的准确性和适 应性。
句法分析与语义理解
句法分析
研究句子中词语之间的结构关系,建立词语之间的依 存关系或短语结构等。
语义理解
分析句子中词语、短语和句子本身的含义,以及它们 之间的语义关系。
信息抽取
从文本中抽取出关键信息,如实体、事件、关系等, 并以结构化的形式进行表示。
07 挑战与展望
当前中文信息处理技术面临的挑战
语义理解难题
中文表达丰富多样,一词多义、歧义现象普遍,给机器理解带来很 大挑战。
缺乏大规模高质量语料库
相对于英文等语言,中文语料库规模和质量有待提高,制约了中文 信息处理技术的发展。
跨领域、跨语言应用不足
目前中文信息处理技术主要集中在新闻、社交媒体等领域,跨领域、 跨语言应用相对较少。
《中文信息处理技术》教学大纲
《中文信息处理技术》教学大纲一、基本信息二、教学目标及任务教学目标:本课程为高年级选修课,作用是使学生在学习完信息检索系统相关知识后进一步加深对中文信息处理技术的了解,提高信息处理技术的知识水平。
通过本课程的学习,学生应对作为大字符集自然语言的汉语在计算机处理过程中的方方面面有深入的认识,对相关系统的应用能熟练掌握,并有能力开发与之相关的应用系统。
教学任务:具体完成以下教学任务:1.中文信息处理技术中的一些基础理论和基础知识。
包括中文信息处理的相关概念、现代汉语的语言学特征、汉字信息在计算机内部的表示、汉字字符编码字符集。
2.中文信息处理技术中的基本I/O技术以及相关的字形技术。
包括汉字输入技术、汉字字形生成与输出技术。
3.中文信息处理技术中的自然语言处理技术。
包括汉语分词技术、中文信息检索、中文信息抽取、中文文本信息的分类与聚类。
三、学时分配四、教学内容及教学要求第一章汉字信息在计算机内部的表示第一节字符信息在计算机内的处理1.数值数据与非数值数据2.非数值数据处理的主要内容3.字符信息的代码体系4.英文字符在计算机中的表示第二节汉字代码体系1.汉字交换码2.汉字机内码3.汉字输入码4.汉字字形码5.汉字区位码第三节汉字字符编码标准集1.GB2312-802.Big53.ISO/IEC 106464.Unicode第四节汉字编码字符集的转换1.简繁体的转换2.汉字在网络上的传输与转换第五节汉字字形和字形库1.汉字字形概述2.点阵字形描述技术3.矢量轮廓字形描述技术4.曲线轮廓字形描述技术5.其它字形描述技术第六节汉字输入技术1.汉字键盘输入2.汉字字形识别3.汉字语音识别第七节汉字排序1.汉字字典序2.机内码序列3.汉字字典序的实现上机习题:编写程序,实现不同编码集之间的转换。
本章重点、难点:汉字编码体系及相互之间的对应关系。
本章教学要求:了解各种汉字字符编码集及转换算法,理解字符编码体系的组成与作用及汉字输入输出技术,掌握汉字编码体系的各种功能、实现方法、生成过程。
中文信息处理技术原理与应用(全套课件305P)
12
汉字编码的种类与中文信息处理过程中 汉字编码的变换
汉字键盘码 汉字交换码 汉字内部码 汉字字形码 汉字地址码 汉字控制码
13
汉字键盘码
利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。 若是用各种汉字编码方案产生的汉字键盘码,由于所用的码元数较少, 每个汉字一般平均须击键3.5—4次以上,所得键盘码的码长度就大, 而且一般情况下,不同汉字的键盘码是不定长的,信息冗余度也大, 更有必要把它们压缩和译码,变换成二字节的汉字信息交换码,以便 进入计算机系统。
14
汉字交换码
是一种用于系统间或计算机通信用的汉字信息交换码,它是中文信息 处理技术的基础标准,有关它的来源及其和ASCII码的关系已在前面 提及。 另外它也可采用近年来开始流行的Unicode(即通用单一编码或国际 通用码)代码。关于Unicode与Unicode汉字代码将在1.5节详细介绍。
6
英文信息的处理
英文信息处理技术中,要考虑以下各种字母、数字和一些必须用的符号,它们是: A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 0,1,2,…,9,共10个阿拉伯数字。 +,﹣,×,=,>,<, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 用于计算机动作控制的控制符号,共34个。 以上共计128个字母、数字、符号的总和,统称为字符。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。这是一种用七位 二进制数表示的代码。七位二进制数共可作出128种编码(27=128),正好分配给总数 为128个字符)。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了 个别货币符号有了改动外,其余内容完全相同。
最新第四章汉字信息处理基础知识
3、汉字字模库
无点位:用“0”表 示 有点位:用“1”表 示
字模:描述一个汉字点阵信息的 若干个二进制代码串
3、汉字字模库
(1)汉字输出主要是指汉字字形的输出。输出方式有两 种:显示和打印。 (2)不论哪一种输出方式,都是把一个汉字看成一个二 维图形,并把笔划离散化,用一个点阵来表示一个汉字。 (3)描述一个汉字点阵信息的二进制代码串称为汉字的 “字模”。所有汉字和各种符号的点阵信息就组成汉字 的“字模库”(简称字库)。显然,要实现近 8000 个 常用汉字和符号的显示和打印,字库要占很庞大的存储 空间。例如16×16点阵的汉字库(包括一级和二级汉字) 就需要约 240KB 的存储空间。24×24 点阵的汉字库需 580KB,精密字库所需的存储空间更大。
字模库
每个字模都要占用许多字节存储空间,字模点阵的点数越多,占用的 存储空间就越大,但字形就越精美。
点阵类型 简易型
点阵参数 (行× 列) 16×16
占的字节数 32 B
普及型
提高型
24×24
32×32
72 B
128B
(4)字库可以存放在磁盘(软盘或硬盘)上,称为软字库。每次开机时, 将字库从磁盘调入计算机的内存(RAM)中 ,供显示用。另一种方法是把 字库装在可擦除只读存储器 (EPROM) 或只读存储器 (Mask-ROM)里,这 就是所谓硬字库,俗称“汉卡”。把汉卡插到微机扩充槽内,作为机器的 一个扩充 ROM存储区使用。
Word2003的退出
方法一:单击Word操作环境中“文件”菜单 里 的“退出”命令 方法二:单击Word窗口的“关闭”按钮。
注意:在单击“关闭”或“退出”按钮后,如果 没有将编辑的文档存盘,系统会弹出 一个对话框, 询问是否对当前文档存盘,当回答“是”或者“否” 后,才关闭文档退出WORD编辑 状态,回到桌面。
计算机应用基础第三章汉字处理与输入法
(1) 打开/关闭 单击输入法状态窗口中的软键盘切换按钮. (2)选择软键盘 右击输入法状态窗口中的软键盘按钮,可选 择不同的软键盘.
第三章 汉字处理与输入法
四,外码窗口和候选窗口(略)
选定一种输入法,并打入第一个外码,外码 窗口和候选窗口弹出如下:
第三章 汉字处理与输入法
1,外码窗口 显示输入的外码,同时可以进行编辑,几个 通用的编辑键为: Backspace:删除一个外码 Esc: 2,候选窗口 显示重码的字,词,可用鼠标,键盘进行选 择(建议用键盘选择). 取消所有外码
Ctrl+Shift键在英文及中文输入法之间进行切换.
3,定义默认的输入法 在"键盘属性"对话框的"输入法设置区域" 选项卡下,选取某个输入法,单击"设置为默认值" 按钮,并确定.
第三章 汉字处理与输入法
三,输入法状态窗口 选择某种输入法,出现相应输入法状态窗口(该 窗口可由输入法状态图符菜单控制):
第三章 汉字处理与输入法
五,输入法状态图符(略)
1,输入法已打开
2,输入法已关闭
二者可以通过输入法状态 图符菜单(见右)来控制. 3,图符菜单的其他操作
第三章 汉字处理与输入法
六,目前常用的输入法(略) 1,智能ABC输入法 包括全拼,简拼,混拼及双打输入方式,并且具 有自动记忆,自动分词和构词等智能功能. (1)全拼输入规则 按规范的汉语拼音输入,输入过程和书写汉语拼 音的过程完全一致. (2)简拼规则 取各个音节的第一个字母(声母)组成,对于包 含 zh,ch,sh(知,吃,诗)的音节,也可以取前两 个字母组成.
第三章 汉字处理与输入法
【方法二】(安装系统外汉字输入法) 运行相应汉字输入法的安装程序.如智能陈桥 的"智能陈桥.exe"或王码五笔字型的"setup.exe" 3,输入法的删除
读下面文章.回答下题中文信息处理...
读下⾯⽂章,回答下题 中⽂信息处理,是⽤计算机对中⽂(包括⼝语和书⾯语)进⾏转换、传输、存贮、分析等加⼯的科学。
中⽂信息处理是⼀门与语⾔学、计算机科学、⼼理学、数学、控制论、信息论、声学、⾃动化技术等等多种学科相联系的边缘性学科。
随着科学技术的发展,中⽂信息处理技术已经渗透到社会⽣活的各个层⾯,它包括汉字信息处理和汉语信息处理两个⽅⾯。
汉字信息处理是中⽂信息处理的关键和基础,其难点是汉字编码问题。
汉字编码的设计,应当从系统的⾓度出发,根据不同⽤户(专业录⼊员、⼀般⽤户等)的需要制定出不同的技术标准,如:输⼊速度、存储空间、处理效率以及掌握输⼊⽅法所需的训练时间等。
并且,应由国家统⼀评选出⼏种标准的编码⽅案,以实现汉字编码⽅案的标准化。
⽬前,我国已研制出了数百种汉字编码⽅案,其中部分⽅案已通过上机实验,或已被采⽤。
除此之外,还研制出了各种汉字输⼊键盘、汉字字库、仿真汉字终端、汉字打印机。
汉字的内码有效地解决了中西⽂兼容的问题;计算机激光汉字照排系统已研制成功;同时,⼿写体和印刷体汉字识别的研究⼯作已取得了⼀定成绩。
汉语信息处理是汉字信息处理的进⼀步发展,它要在汉字输⼊的基础上,研究汉语的词汇、句法、语义、语境的⾃动处理问题,是中⽂信息处理的⾼级阶段。
⽬前,汉语信息处理在机器翻译、汉语的⼈机对话和中⽂情报检索等⽅⾯,已经取得了⼀定的成果。
机器翻译⽬前已经研制出英汉、俄汉、法汉、⽇汉和汉外等系统,其中有的系统已经迈向了实⽤化和商品化的道路。
现在我国已经出现了不少研究情报检索系统的单位,并取得了⼀定的成果。
情报检索的关键是情报检索语⾔的建⽴,词的切分问题也将直接影响情报检索系统的⼯作;⽬前,中⽂情报检索系统已经实⽤化。
⾄于汉语的⼈机对话,⽬前还只限于书⾯部分,有关汉语语⾳的⼈机对话系统的研究还处于实验阶段,有的学者正在设计中⽂听写机,以实现汉语⼝语的⾃动听写。
汉语信息处理,还包括⾔语设计、计算机辅助语⾔教学(编制各种语⾔教学软件)、语⾳识别、各种⾔语合成编辑照排系统、⽅⾔研究、修辞学研究(⽤系统的⽅法研究风格特征,并进⾏风格⽐较等)、索引、词表和词典的编制⼯作等。
《中文信息处理》复习提纲
《中文信息处理》复习提纲第一章汉字信息处理一、填空:汉字的属性信息包括字量、字频、字序、字形、字音。
二、现代汉语用字排列的顺序1、义序法2、音序法3、形序法三、GB2312-80:中国《信息交换用汉字编码字符集·基本集》四、什么是汉字字形识别输入?也称汉字自动识别。
即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。
它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统告诉自动输入的手段和根本出路,是汉字中文信息处理的一种好办法。
五、自动字形识别输入的类型。
汉字识别的类型主要分三大类:联机手写汉字识别、印刷体汉字识别和手写汉字识别。
1、汉字手写汉字识别,又称实时手写汉字识别,人用笔在图形输入板上写字,机器隔着认。
2、印刷体汉字识别包括单体印刷体汉字识别和多体印刷体汉字识别两小类。
(1)单体印刷体汉字识别是识别印刷在纸上的一种印刷体汉字。
(2)多体印刷体汉字识别是同时识别印刷在纸上的宋、仿宋、楷、黑等多种字体的印刷体汉字。
3、手写汉字识别,又称通用手写汉字识别,是识别人写在至上的规整汉字。
一般限制为楷书,笔画数要正确,要写于方格中。
六、汉字识别的基本思想与步骤。
1、汉字识别的基本思想是匹配识别。
2、步骤:第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中,形成已知的汉字库。
第二步用图形输入板或光电设备(如图文扫描、光导摄像管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。
第三步将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。
最后在机器存贮的标准汉字模式表达形式的集合中,找出最接近汉字输入特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。
七、汉字语音识别输入的定义。
中文信息处理 教学大纲
课程名称:中文信息处理课程类别:专业课程授课对象:计算机科学与技术专业学分:3学分指定教材:朱巧明等,《中文信息处理技术教程》,清华大学出版社,2005年一、教学目的:本课程的教学目的是使学生掌握中文信息处理的基本原理,熟悉基本“字符”层面和基于“内容”层面的研究内容、方法、技术和手段。
熟练理解并掌握计算机对中文的输入、存储、输出和应用处理的过程,学习基本的机器学习理论与方法。
本课程对计算机科学与技术的学生有着承前启后的作用,综合结合运用前导课程,又为毕业设计和将来研究生学习或工作奠定扎实基础。
本课程的直接前导课程有《C语言程序设计》、《面向对象程序设计》、《数据结构》和《操作系统》。
二、教学任务:本课程主要教学任务如下:1了解中文信息处理与信息处理的关系,主要研究内容与对象,目前主流的研究技术、手段与方法;2掌握中文信息处理中的汉字代码体系,熟悉主要的中文字符编码与集合,熟悉因特网上的汉字交换码以及编码与解码技术;3深刻理解中文操作系统和中文平台的地位,掌握汉字输入码、机内码、地址码、字形码、地址码、交换码之间的关系;了解主流的中文操作系统的发展趋势4学习汉字编码的方法,理解中文输入的原理,掌握Windows上汉字键盘输入系统的实现方法,了解Linux中文输入的实现机制。
5学习目前主要的三种汉字字形技术,重点掌握点阵字库的原理,压缩方法,以及显示技术。
6理解汉字显示和打印的工作原理以及工作过程。
7理解中文分词的意义,地位、以及主要应用,掌握交集型歧义和组合型歧义的区别,了解基本的解决歧义的方法,能够实现一种中文自动分词算法。
8对中文信息检索、分类、抽取等有较深刻的认识,了解需要解决的问题,以及主流的技术方法。
了解基本的机器学习理论,以及常用的数学模型。
三、教学内容第一讲中文信息处理概论(一)1. 教学内容●什么是信息●信息处理●中文信息处理●中文信息处理发展简史●语料库●互联网与中文信息处理2. 教学要点通过本讲的学习,让学生理解信息处理和中文信息处理的概念,理解中文信息主意研究对象和研究意义,熟悉中文信息处理的发展历史,并了解中文信息处理的国际化趋势。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BIG5 码
BIG-5 码是通行于台湾、香港地区的一个繁体字编码方 案,俗称“大五码”。 Big-5 是一个双字节编码方案,其第一字节在 A0~FE A0 FE 之间,第二字节在 40~7E 和 A1~FE 之间。因此,其 第一字节的最高位是 1,第二字节的最高位则可能是 1, 也可能是 0。
14
GB码区位示例(续)
56 区 1 2 3 4 5 6 7 8 9 0 亍 丌 兀 丐 廿 卅 丕 亘 丞 1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻 2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟 3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍 4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮 5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿 6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐 7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫 8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫 9 佞 佧 攸 佚 佝 57 区 1 2 3 4 5 6 7 8 9 0 佟 佗 伲 伽 佶 佴 侑 侉 侃 1 侏 佾 佻 侪 佼 侬 侔 俦 俨 俪 2 俅 俚 俣 俜 俑 俟 俸 倩 偌 俳 3 倬 倏 倮 倭 俾 倜 倌 倥 倨 偾 4 偃 偕 偈 偎 偬 偻 傥 傧 傩 傺 5 僖 儆 僭 僬 僦 僮 儇 儋 仝 氽 6 佘 佥 俎 龠 汆 籴 兮 巽 黉 馘 7 冁 夔 勹 匍 訇 匐 凫 夙 兕 亠 8 兖 亳 衮 袤 亵 脔 裒 禀 嬴 蠃 9 羸 冫 冱 冽 冼
17
GBK 码
GBK码是GB-2312的扩展 GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准。 ISO 10646 是国际标准化组织 ISO 公布的一个编码标准, 即 Universal Multilpe-Octet Coded Character Set(简称 UCS),大陆译为《通用多八位编码字符集》,台湾译 为《广用多八位元编码字元集》,它与 Unicode 组织的 Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部 分《体系结构与基本多文种平面》。我国 1993 年以 GB 13000.1 国家标准的形式予以认可(即 GB 13000.1 等同 于 ISO 10646.1)。
13
GB码区位示例(续)
54 区 1 2 3 4 5 6 7 8 9 0 帧 症 郑 证 芝 枝 支 吱 蜘 1 知 肢 脂 汁 之 织 职 直 植 殖 2 执 值 侄 址 指 止 趾 只 旨 纸 3 志 挚 掷 至 致 置 帜 峙 制 智 4 秩 稚 质 炙 痔 滞 治 窒 中 盅 5 忠 钟 衷 终 种 肿 重 仲 众 舟 6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 9 助 蛀 贮 铸 筑 55 区 1 2 3 4 5 6 7 8 9 0 住 注 祝 驻 抓 爪 拽 专 砖 1 转 撰 赚 篆 桩 庄 装 妆 撞 壮 2 状 椎 锥 追 赘 坠 缀 谆 准 捉 3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊 4 兹 咨 资 姿 滋 淄 孜 紫 仔 籽 5 滓 子 自 渍 字 鬃 棕 踪 宗 综 6 总 纵 邹 走 奏 揍 租 足 卒 族 7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪 8 尊 遵 昨 左 佐 柞 做 作 坐 座 9
22
Big-5码字符分布
1. 符号 408 个,A140~A3FE(实际止于 A3BF,末尾有空白位置)。 2. 汉字 13053 个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部 首排列。其中: a. 常用字 5401 个,编码位置为 A440~C67E。包括台湾教育部颁布的《常 用国字标准字体表》中的全部汉字 4808 个,台湾国中国小教科书常用字 587 个,异体字 6 个。 b. 次常用字 7652 个,编码位置为 C940~F9FE(实际止于 F9D5,末尾有空 白位置)。包括台湾教育部《次常用国字标准字体表》的全部汉字 6341 个, 《罕用国字标准字体表》中使用频率较高的字 1311 个。 其余的 A040~A0FE、C6A1~C8FE、FA40~FEFE 为空白区域。一些空 白位置,经常被用于用户造字区,而且多存放香港常用字和粤语方言字。
1
0
0
0
0
0010011100010000 内存存储形式
二进制形式
2^13 + 2^10 +2^9 +2^8 +2^4 = 8192 + 1024 + 512 + 256 + 16
8
二 计算机中中文字符的表示
汉字是一个大字符集
GB2312 GBK Big5 Unicode
《说文解字》(东汉)收录9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)收录超过5.6万字
18
GBK码(续)
ISO 10646 是一个包括世界上各种语言的书面形式以及 附加符号的编码体系。其中的汉字部分称为“CJK 统一 汉字”(C 指中国,J 指日本,K 指朝鲜)。 CJK的中国部分,包括了源自中国大陆的 GB 2312、GB 12345、《现代汉语通用字表》等法定标准的汉字和符 号,以及源自台湾的 CNS 11643 标准中第 1、2 字面 (基本等同于 BIG-5 编码)、第 14 字面的汉字和符号。
9
GB码简介
国标码(GB)是指1981年我国公布的国家标准《信息交 换用汉字编码字符集-基本集》,包含: 简化汉字,符号,字母,日文假名,共7445个字符; 其中包含了6763个汉字,并分作两级: 一级为常用字,3755个,按照拼音排序 二级为次常用字,3008个,按照部首排序。
10
GB码的编码空间
20
GBK码的字符分布
1. 汉字区。包括: a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。 b. GB 13000.1 扩充汉字区。包括: (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。 (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。 2. 图形符号区。包括: a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个 小写罗马数字和 GB 12345 增补的符号。计符号 717 个。 b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○” 排列在此区。计符号 166 个。 3. 用户自定义区:分为(1)(2)(3)三个小区。 (1) AAA1-AFFE,码位 564 个。 (2) F8A1-FEFE,码位 658 个。 (3) A140-A7A0,码位 672 个。 第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。
3
ASCII码表(二进制)
4
ASCII码表基本集(2,10,8,16进制)
5
ASCII码表的扩展集
6
ASCII码表基本集+扩展集(16进制)
Microsoft Windows
IBM PC DOS
7
ASCII码表示 vs. 二进制表示
文本存储形式 ASCII形式
0011000100110000001100000011000000110000 int型数 10000的表示
19
GBK码的编码空间
GBK 采用双字节表示,总体编码范围为 8140-FEFE, 首字节在 81-FE 之间,尾字节在 40-FE 之间,其中 xx7F 为空。总计 23940 个码位,共收入 21886 个汉字和图形 符号,其中汉字(包括部首和构件)21003 个,图形符 号 883 个。 GB的编码范围:A1A0 – F7FE 首字节:A1-F7,尾字节:A0-FE
11
GB码区位示例
01区
78位
GB码区位示例(续)
16 区 1 2 3 4 5 6 7 8 9 啊 阿 埃 挨 哎 唉 哀 皑 癌 0 1 蔼 矮 艾 碍 爱 隘 鞍 氨 安 俺 2 按 暗 岸 胺 案 肮 昂 盎 凹 敖 3 熬 翱 袄 傲 奥 懊 澳 芭 捌 扒 4 叭 吧 笆 八 疤 巴 拔 跋 靶 把 5 耙 坝 霸 罢 爸 白 柏 百 摆 佰 6 败 拜 稗 斑 班 搬 扳 般 颁 板 7 版 扮 拌 伴 瓣 半 办 绊 邦 帮 8 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤 9 苞 胞 包 褒 剥 17 区 1 2 3 4 5 6 7 8 9 0 薄 雹 保 堡 饱 宝 抱 报 暴 1 豹 鲍 爆 杯 碑 悲 卑 北 辈 背 2 贝 钡 倍 狈 备 惫 焙 被 奔 苯 3 本 笨 崩 绷 甭 泵 蹦 迸 逼 鼻 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙 毖 5 币 庇 痹 闭 敝 弊 必 辟 壁 臂 6 避 陛 鞭 边 编 贬 扁 便 变 卞 7 辨 辩 辫 遍 标 彪 膘 表 鳖 憋 8 别 瘪 彬 斌 濒 滨 宾 摈 兵 冰 9 柄 丙 秉 饼 炳
16
GB码的机内表示
• 汉字GB码要和ASCII码一同使用会有冲突问题 GB: 01-03 字符:。 ASCII:01 控制符SOH 03 控制符ETX • GB 内码区别于 ASCII码,每个字节的最高位设置为1 • 已知一个字的区位码,将区码和位码分别加A0就得到汉字机内编码 (A0H = 101000002 = 16010) • 例入:汉字“爱” 的GB码区号是16,位号是14,机内表示是: B0-AE(16进制)或 176-174(10进制)