中文信息处理ChineseInformationProcessingppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
矢量字库
采用矢量的方法,对每个汉字信息用一组矢量进行 描述
2020年1月21日2时28分
中文信息处理--绪论
11
软件汉化技术
软件汉化是把西文软件直接改造成中文软 件的一种技术
西文操作系统汉化成中文操作系统
内核汉化 外挂汉化
西文应用软件经过汉化后能够具备处理中文的 能力
界面的汉化 应用程序中中文的通行
中文信息处理--绪论
9
汉字键盘输入技术
汉字键盘输入技术是一种通过键盘使汉字进入计 算机的技术
汉字编码
采用四位十进制数把常用的汉字用“0”—”9”十个数字 按照次序进行编码
四角码(字形码)
用“0”—”9”十个数字键对汉字的四个角的形状进行编码
机内码
用2字节、3字节、4字节来表示一个汉字的机器内部码
中文信息处理 Chinese Information Processing
张宇
哈尔滨工业大学计算机科学与技术学院 zhangyu@ir.hit.edu.cn
主要教材
朱巧明,李培峰,吴娴,朱晓旭等编著。中 文信息处理技术教程,清华大学出版社。 2005年9月第一版
Christopher D.Manning,Hinrich Schutze。 统计自然语言处理基础,电子工业出版社。 2005年1月第一次印刷
《计算机科学技术百科全书》 清华大学出版社,1998
2020年1月21日2时28分
中文信息处理--绪论
8
计算机中文信息处理主要研究对象
汉字键盘输入技术 汉字输出技术 软件汉化技术 汉字字形识别技术 汉语语音识别技术 激光照排技术 中文平台 文本分类 信息检索
2020年1月21日2时28分
国际标准化组织(ISO)、Unicode联盟以及IEEE下属 的专门委员会研究制订的字符编码标准
2020年1月21日2时28分
中文信息处理--绪论
10
汉字输出技术
汉字输出是指把存储在计算机内的汉字字 形信息转换成符合显示或打印需要的形式, 并送输出设备输出
汉字字库
点阵字库
GB5199.1-2001和GB5007-2001是典型的16点阵和 24点阵字库
2020年1月21日2时28分
中文信息处理--绪论
13
汉语语音识别技术
汉语语音识别技术是自然语言处理的一个 重要组成部分,包括语音的识别、处理、 合成等
语音识别的过程
语音识别单元的选取 特征参数提取技术 模式匹配及模型训练技术
2020年1月21日2时28分
中文信息处理--绪论
14
汉化平台:西文系统上外挂一层软件,使系统 可以接收和输出汉字
API平台:操作系统提供有关中文信息处理所 需要的一套API接口
中文平台:在API平台上再增加一些典型的与 中文信息处理有关的应用软件工具或产品
2020年1月21日2时28分
中文信息处理--绪论
16
文本分类
文本分类是一种确定文章所属类别的情报 分析方法
激光照排技术
激光照排,即电子排版系统
1946年,美国人发明了手动光学照相排版机 20世纪60年代,德国人制造了阴极射线管式照
排 1975年,英国人开始了激光照排的研究 1974年8月,国家设立了748工程
2020年1月21日2时28分
中文信息处理--绪论
15
中文平台
中文平台是指处理中文信息的软件系统的 集合,包括支持中文的系统软件、支撑软 件和应用软件
2020年1月21日2时28分
中文信息处理--绪论
2
2020年1月21日2时28分
中文信息处理--绪论
3
主要内容
信息处理 中文信息处理 计算机中文信息处理主要研究对象 现代汉语的特点 中文信息处理的发展 中文信息处理技术发展问题的探讨
2020年1月21日2时28分
中文信息处理--绪论
信息的转化:把信息根据人们的特定需要进行分类、 计算、分析、检索、管理和综合等处理;
信息的传送:把信息通过计算机内部的指令或者计算 机之间构成的网络从一地传送到另外一地;
信息的发布:把信息通过各种表示形式展示出来。
2020年1月21日2时28分
中文信息处理--绪论
7
中文信息处理
中文信息处理是用计算机对汉语的音、形、 义等语言文字信息进行的加工和操作,包括 对字、词、短语、句、篇章的输入、输出、 识别、转换、压缩、存储、检索、分析、理 解和生成等各方面的处理技术。
按照信息的保密程度
公开信息 一般保密信息 绝密信息
2020年1月21日2时28分
中文信息处理--绪论
6
信息处理
信息处理就是对信息的接收、存储、转化、传送 和发布
信息的接收:包括信息的感知、信息的测量、信息的 识别、信息的获取以及信息的输入等;
信息的存储:把接收到的信息或转换、传送或发布中 间的信息通过存储设备进行缓冲、保存、备份等处理;
4
信息
控制论创始人(维纳 Norbert Wiener)
信息既不是物质也不是能量,是人类在适应外部世界 时以及在感知外部世界时而作出协调时与外部环境交 换内容的总和。
信息论奠基者(香农 Clause Shannon)
信息就是能够用来消除不确定性的东西,是一个事件 发生概率的对数的负值
基于词的归类技术 基于知识的归类技术 基于信息的归类技术
2020年1月21日2时28分
2020年1月21日2时28分
中文信息处理--绪论
12
汉字字形识别技术
汉字识别技术是利用计算机技术对汉字静态图形 和动态汉字信息进行特征提取,与预先存储在计 算机内的标准汉字特征信息进行匹配,并选择符 合特征的汉字作为所需识别的汉字内码
联机识别 脱机识别
汉字字形识别过程
பைடு நூலகம்汉字识别前处理 汉字分类和判别 汉字识别后处理
Robert M. Losee
信息可以被定义为一个处理过程的特征,这些特征就 是输入和处理过程中产生的信息
2020年1月21日2时28分
中文信息处理--绪论
5
信息的分类
按照计算机处理的信息形式
文本信息 多媒体信息 超媒体信息
按照信息的结构化程度
结构化信息 半结构化信息 非结构化信息
采用矢量的方法,对每个汉字信息用一组矢量进行 描述
2020年1月21日2时28分
中文信息处理--绪论
11
软件汉化技术
软件汉化是把西文软件直接改造成中文软 件的一种技术
西文操作系统汉化成中文操作系统
内核汉化 外挂汉化
西文应用软件经过汉化后能够具备处理中文的 能力
界面的汉化 应用程序中中文的通行
中文信息处理--绪论
9
汉字键盘输入技术
汉字键盘输入技术是一种通过键盘使汉字进入计 算机的技术
汉字编码
采用四位十进制数把常用的汉字用“0”—”9”十个数字 按照次序进行编码
四角码(字形码)
用“0”—”9”十个数字键对汉字的四个角的形状进行编码
机内码
用2字节、3字节、4字节来表示一个汉字的机器内部码
中文信息处理 Chinese Information Processing
张宇
哈尔滨工业大学计算机科学与技术学院 zhangyu@ir.hit.edu.cn
主要教材
朱巧明,李培峰,吴娴,朱晓旭等编著。中 文信息处理技术教程,清华大学出版社。 2005年9月第一版
Christopher D.Manning,Hinrich Schutze。 统计自然语言处理基础,电子工业出版社。 2005年1月第一次印刷
《计算机科学技术百科全书》 清华大学出版社,1998
2020年1月21日2时28分
中文信息处理--绪论
8
计算机中文信息处理主要研究对象
汉字键盘输入技术 汉字输出技术 软件汉化技术 汉字字形识别技术 汉语语音识别技术 激光照排技术 中文平台 文本分类 信息检索
2020年1月21日2时28分
国际标准化组织(ISO)、Unicode联盟以及IEEE下属 的专门委员会研究制订的字符编码标准
2020年1月21日2时28分
中文信息处理--绪论
10
汉字输出技术
汉字输出是指把存储在计算机内的汉字字 形信息转换成符合显示或打印需要的形式, 并送输出设备输出
汉字字库
点阵字库
GB5199.1-2001和GB5007-2001是典型的16点阵和 24点阵字库
2020年1月21日2时28分
中文信息处理--绪论
13
汉语语音识别技术
汉语语音识别技术是自然语言处理的一个 重要组成部分,包括语音的识别、处理、 合成等
语音识别的过程
语音识别单元的选取 特征参数提取技术 模式匹配及模型训练技术
2020年1月21日2时28分
中文信息处理--绪论
14
汉化平台:西文系统上外挂一层软件,使系统 可以接收和输出汉字
API平台:操作系统提供有关中文信息处理所 需要的一套API接口
中文平台:在API平台上再增加一些典型的与 中文信息处理有关的应用软件工具或产品
2020年1月21日2时28分
中文信息处理--绪论
16
文本分类
文本分类是一种确定文章所属类别的情报 分析方法
激光照排技术
激光照排,即电子排版系统
1946年,美国人发明了手动光学照相排版机 20世纪60年代,德国人制造了阴极射线管式照
排 1975年,英国人开始了激光照排的研究 1974年8月,国家设立了748工程
2020年1月21日2时28分
中文信息处理--绪论
15
中文平台
中文平台是指处理中文信息的软件系统的 集合,包括支持中文的系统软件、支撑软 件和应用软件
2020年1月21日2时28分
中文信息处理--绪论
2
2020年1月21日2时28分
中文信息处理--绪论
3
主要内容
信息处理 中文信息处理 计算机中文信息处理主要研究对象 现代汉语的特点 中文信息处理的发展 中文信息处理技术发展问题的探讨
2020年1月21日2时28分
中文信息处理--绪论
信息的转化:把信息根据人们的特定需要进行分类、 计算、分析、检索、管理和综合等处理;
信息的传送:把信息通过计算机内部的指令或者计算 机之间构成的网络从一地传送到另外一地;
信息的发布:把信息通过各种表示形式展示出来。
2020年1月21日2时28分
中文信息处理--绪论
7
中文信息处理
中文信息处理是用计算机对汉语的音、形、 义等语言文字信息进行的加工和操作,包括 对字、词、短语、句、篇章的输入、输出、 识别、转换、压缩、存储、检索、分析、理 解和生成等各方面的处理技术。
按照信息的保密程度
公开信息 一般保密信息 绝密信息
2020年1月21日2时28分
中文信息处理--绪论
6
信息处理
信息处理就是对信息的接收、存储、转化、传送 和发布
信息的接收:包括信息的感知、信息的测量、信息的 识别、信息的获取以及信息的输入等;
信息的存储:把接收到的信息或转换、传送或发布中 间的信息通过存储设备进行缓冲、保存、备份等处理;
4
信息
控制论创始人(维纳 Norbert Wiener)
信息既不是物质也不是能量,是人类在适应外部世界 时以及在感知外部世界时而作出协调时与外部环境交 换内容的总和。
信息论奠基者(香农 Clause Shannon)
信息就是能够用来消除不确定性的东西,是一个事件 发生概率的对数的负值
基于词的归类技术 基于知识的归类技术 基于信息的归类技术
2020年1月21日2时28分
2020年1月21日2时28分
中文信息处理--绪论
12
汉字字形识别技术
汉字识别技术是利用计算机技术对汉字静态图形 和动态汉字信息进行特征提取,与预先存储在计 算机内的标准汉字特征信息进行匹配,并选择符 合特征的汉字作为所需识别的汉字内码
联机识别 脱机识别
汉字字形识别过程
பைடு நூலகம்汉字识别前处理 汉字分类和判别 汉字识别后处理
Robert M. Losee
信息可以被定义为一个处理过程的特征,这些特征就 是输入和处理过程中产生的信息
2020年1月21日2时28分
中文信息处理--绪论
5
信息的分类
按照计算机处理的信息形式
文本信息 多媒体信息 超媒体信息
按照信息的结构化程度
结构化信息 半结构化信息 非结构化信息