中文信息处理技术原理与应用(6)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
liba2002@sohu.com
12
基于语义的汉语自然理解系统
概念实际上是一种深层语义,语义只限于语言 学范畴内的东西,是不能独立于语种的,但是 概念不受语种的限制,是在整个知识领域中定 义的,它不单是更深层次的语义,而且可以将 信息交互中的语言放到更大的范围内去理解。 典型示例:中国科学院声学研究所研究员黄曾 阳先生提出的HNC理论及其应用情况。 HNC是“Hierarchical Network of Concepts(概 念层次网络)”的简称,它以概念化、层次化、 网络化的语义表达为基础,因此称它为概念层 次网络理论。
liba2002@sohu.com
7
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
基于语法的汉语自然理解系统
汉语理解系统的组成 一.文本的输入 二.文本预处理 三.计算机自动分词 四.词法分析
liba2002@sohu.com
8
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@sohu.com
10
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语理解研究的应用前景
既是新一代计算机的核心课题,又是知识产业的三大 突破口之一 专家系统、数据库、CAD、CAI、MIS、OA系统,无一不 需要用自然语言做人机界面 具有篇章理解和篇章生成能力的自然语言理解系统可 用于专家系统、知识工程、自动机器翻译、情报检索、 自动文摘、注释和编辑出版、CAI,办公室自动化、语 言材料自动统计等领域 从知识产业的角度理解,自然语言软件具有相当重要 的地位
liba2002@sohu.com
9
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
基于语义的汉语自然理解系统
有关汉语自然理解系统的方法问题或主 流技术的讨论,可以说是众说纷纭。 黄昌宁教授(现任微软亚洲研究院高级 研究员兼博士后工作站负责人)提出了 有关语料库方法和统计语言模型的观点。
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
语言
词汇
语法
词
熟语
词法
句法
词素
构形法
构词法
词组 构词法
造句法
图6-1 语言的构成
liba2002@sohu.com
1
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
自然语言理解国外研究现状
机器翻译是自然语言理解最早的研究领域。40年代末 期,人们期望能够用计算机翻译剧增的科技资料。美 苏两国在1949年开始俄-英和英-俄文字的机器翻译研 究。 70年代初期,对语言理解对话系统的研究取得进展。 代表性的有伍兹(Woods)的LUNAR系统、威诺甘德 (Winogand)的SHRDLU系统和香克(Schank)的 MARGIE系统等是语言理解对话系统的典型实例。 到了80年代出现有突破性的进展。大约从1983年开始, 国外自然语言软件进入了商品市场,标志着进入了一 个新的起点,语言产业作为一种新的产业在世界上崛 起。
liba2002@sohu.com
3
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
直到1978年,中国国内才开始起步研究汉语理解,而 且当时只有少数大学或研究所的少数人员在研究经费 匮乏、研究设备短缺的困难条件下进行分散式研究 八十年代中、后期情况有所好转。1984年成立了中国 人工智能学会自然语言理解学会,中国中文信息学会 自然语言处理专委会和计算语言学专委会也相继成立 了。在国际上新一代计算机激烈竞争影响下,自然语 言理解研究在中国也得到了应有的重视 90年代后期,随着Internet网络技术的普及和发展,中 文信息处理技术开始渐渐复苏,并推动汉字信息处理 及汉语理解技术的更快发展。 在自然语言理解的理论研究方面,也取得了不少的成 果,初步形成了我国当前NLC方面的一些流派,并有自 己的一套理论、模型和系统。
liba2002@sohu.com
2
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语自然语言理解与生成国内现状
五十年代中期,已开展俄文对中文的翻译工作,六十 年代中期中断,其成果也是很初级的。 八十年代初中科院计算所,北京语言学院研究所刘涌 泉,刘倬等研究员开始研究中英文翻译系统。在国内 第一次商品化的中英文翻译软件是由电子部中国软件 总公司的董振东教授研发的“译星”系统,该系统以 句译为主,水平在当时算是高的 九十年代中期,由中科院陈肇雄,黄河燕等研究员开 发的翻译软件曾经在国内名噪一时,他们的翻译软件 可以是句译,也可以扩大到成段或成篇的翻译。其句 译的软件由香港一家公司支持配备了硬件,生产出批 量上市的“快译通”产品,受到中学生、一些涉外公 司企业雇员的欢迎。
liba2002@sohu.com
5
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语理解与生成的难点与问题
汉语量词特别丰富 汉语是词根语,采用连续书写形式,词与词之 间没有自然界限,计算机理解汉语时要多一个 步骤:自动分词。 大多数汉语词本身不能明显地表达语法意义, 句法主要靠虚词和语序。 汉语的名词修饰名词十分自由,有时加“的”, 有时不加“的”, 连动式、兼语式是汉语的二种特殊形式的句型, 印欧语或日语无直接对应句型
liba2002@sohu.com
6
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语理解与生成的难点与问题
汉语的构词法和造句法结构方式基本相同,且 理论上汉语的结构可作任意扩展,结构与结构 的组合很灵活,相互之间又缺乏明显的形式标 记,使计算机分析时困难增多 汉语句子间界限不清,句中无主谓一致关系, 而且缺略现象比较严重 语义和语用在表意文字汉语里有时比句法占有 更重要的地位,但目前汉语理解时如何利用语 义和语用这个问题尚未解决 汉语理解还必须面对汉语语言学研究落后这一 现实
liba2002@sohu.com
4
中文信息处理技术——原理与应用 中Hale Waihona Puke Baidu信息处理技术——原理与应用
汉语理解与生成的难点与问题
采用目前的这种计算机体系结构来实现自然语 言理解,汉语比英语具有更大的一个困难是: 英语是形合(merplotactic)语言,造句要求词的 形态变化符合规则,注重句法平面。汉语是意 合(semotactic)的语言,造句要求词的意义搭配 符合情理,注重语义平面。 用计算机对汉语进行理解和生成,面对的困难 和问题要比印欧语系的英语、俄语等多一些。 除了自然语言理解研究面对的共性问题外,汉 语理解和生成还有其他方面的的困难和问题。
liba2002@sohu.com
11
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
发展策略
增加对汉语理解研究的投资 从系统工程的观点来考虑,应统一规划集中力量研究开发 一部能够为各类汉语处理系统服务的现代汉语机器词典和 一个大型的现代汉语语料库系统 加强汉语理解研究攻关的组织和管理工作,尽可能联合国 内在自然语言理解研究方面取得一定成果的单位进行攻关, 特别要注意将计算机界和语言学界两股力量拧成一股力量 注意汉语理解研究要做到系统性、工程性、集成性,又要 注意其基础性和前瞻性 扩大与其他国家的技术交流,学习与借鉴别人的优秀成果 抓住Internet网络应用发展的机遇,推动汉语理解技术和 产业的进一步发展
12
基于语义的汉语自然理解系统
概念实际上是一种深层语义,语义只限于语言 学范畴内的东西,是不能独立于语种的,但是 概念不受语种的限制,是在整个知识领域中定 义的,它不单是更深层次的语义,而且可以将 信息交互中的语言放到更大的范围内去理解。 典型示例:中国科学院声学研究所研究员黄曾 阳先生提出的HNC理论及其应用情况。 HNC是“Hierarchical Network of Concepts(概 念层次网络)”的简称,它以概念化、层次化、 网络化的语义表达为基础,因此称它为概念层 次网络理论。
liba2002@sohu.com
7
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
基于语法的汉语自然理解系统
汉语理解系统的组成 一.文本的输入 二.文本预处理 三.计算机自动分词 四.词法分析
liba2002@sohu.com
8
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@sohu.com
10
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语理解研究的应用前景
既是新一代计算机的核心课题,又是知识产业的三大 突破口之一 专家系统、数据库、CAD、CAI、MIS、OA系统,无一不 需要用自然语言做人机界面 具有篇章理解和篇章生成能力的自然语言理解系统可 用于专家系统、知识工程、自动机器翻译、情报检索、 自动文摘、注释和编辑出版、CAI,办公室自动化、语 言材料自动统计等领域 从知识产业的角度理解,自然语言软件具有相当重要 的地位
liba2002@sohu.com
9
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
基于语义的汉语自然理解系统
有关汉语自然理解系统的方法问题或主 流技术的讨论,可以说是众说纷纭。 黄昌宁教授(现任微软亚洲研究院高级 研究员兼博士后工作站负责人)提出了 有关语料库方法和统计语言模型的观点。
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
语言
词汇
语法
词
熟语
词法
句法
词素
构形法
构词法
词组 构词法
造句法
图6-1 语言的构成
liba2002@sohu.com
1
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
自然语言理解国外研究现状
机器翻译是自然语言理解最早的研究领域。40年代末 期,人们期望能够用计算机翻译剧增的科技资料。美 苏两国在1949年开始俄-英和英-俄文字的机器翻译研 究。 70年代初期,对语言理解对话系统的研究取得进展。 代表性的有伍兹(Woods)的LUNAR系统、威诺甘德 (Winogand)的SHRDLU系统和香克(Schank)的 MARGIE系统等是语言理解对话系统的典型实例。 到了80年代出现有突破性的进展。大约从1983年开始, 国外自然语言软件进入了商品市场,标志着进入了一 个新的起点,语言产业作为一种新的产业在世界上崛 起。
liba2002@sohu.com
3
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
直到1978年,中国国内才开始起步研究汉语理解,而 且当时只有少数大学或研究所的少数人员在研究经费 匮乏、研究设备短缺的困难条件下进行分散式研究 八十年代中、后期情况有所好转。1984年成立了中国 人工智能学会自然语言理解学会,中国中文信息学会 自然语言处理专委会和计算语言学专委会也相继成立 了。在国际上新一代计算机激烈竞争影响下,自然语 言理解研究在中国也得到了应有的重视 90年代后期,随着Internet网络技术的普及和发展,中 文信息处理技术开始渐渐复苏,并推动汉字信息处理 及汉语理解技术的更快发展。 在自然语言理解的理论研究方面,也取得了不少的成 果,初步形成了我国当前NLC方面的一些流派,并有自 己的一套理论、模型和系统。
liba2002@sohu.com
2
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语自然语言理解与生成国内现状
五十年代中期,已开展俄文对中文的翻译工作,六十 年代中期中断,其成果也是很初级的。 八十年代初中科院计算所,北京语言学院研究所刘涌 泉,刘倬等研究员开始研究中英文翻译系统。在国内 第一次商品化的中英文翻译软件是由电子部中国软件 总公司的董振东教授研发的“译星”系统,该系统以 句译为主,水平在当时算是高的 九十年代中期,由中科院陈肇雄,黄河燕等研究员开 发的翻译软件曾经在国内名噪一时,他们的翻译软件 可以是句译,也可以扩大到成段或成篇的翻译。其句 译的软件由香港一家公司支持配备了硬件,生产出批 量上市的“快译通”产品,受到中学生、一些涉外公 司企业雇员的欢迎。
liba2002@sohu.com
5
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语理解与生成的难点与问题
汉语量词特别丰富 汉语是词根语,采用连续书写形式,词与词之 间没有自然界限,计算机理解汉语时要多一个 步骤:自动分词。 大多数汉语词本身不能明显地表达语法意义, 句法主要靠虚词和语序。 汉语的名词修饰名词十分自由,有时加“的”, 有时不加“的”, 连动式、兼语式是汉语的二种特殊形式的句型, 印欧语或日语无直接对应句型
liba2002@sohu.com
6
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉语理解与生成的难点与问题
汉语的构词法和造句法结构方式基本相同,且 理论上汉语的结构可作任意扩展,结构与结构 的组合很灵活,相互之间又缺乏明显的形式标 记,使计算机分析时困难增多 汉语句子间界限不清,句中无主谓一致关系, 而且缺略现象比较严重 语义和语用在表意文字汉语里有时比句法占有 更重要的地位,但目前汉语理解时如何利用语 义和语用这个问题尚未解决 汉语理解还必须面对汉语语言学研究落后这一 现实
liba2002@sohu.com
4
中文信息处理技术——原理与应用 中Hale Waihona Puke Baidu信息处理技术——原理与应用
汉语理解与生成的难点与问题
采用目前的这种计算机体系结构来实现自然语 言理解,汉语比英语具有更大的一个困难是: 英语是形合(merplotactic)语言,造句要求词的 形态变化符合规则,注重句法平面。汉语是意 合(semotactic)的语言,造句要求词的意义搭配 符合情理,注重语义平面。 用计算机对汉语进行理解和生成,面对的困难 和问题要比印欧语系的英语、俄语等多一些。 除了自然语言理解研究面对的共性问题外,汉 语理解和生成还有其他方面的的困难和问题。
liba2002@sohu.com
11
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
发展策略
增加对汉语理解研究的投资 从系统工程的观点来考虑,应统一规划集中力量研究开发 一部能够为各类汉语处理系统服务的现代汉语机器词典和 一个大型的现代汉语语料库系统 加强汉语理解研究攻关的组织和管理工作,尽可能联合国 内在自然语言理解研究方面取得一定成果的单位进行攻关, 特别要注意将计算机界和语言学界两股力量拧成一股力量 注意汉语理解研究要做到系统性、工程性、集成性,又要 注意其基础性和前瞻性 扩大与其他国家的技术交流,学习与借鉴别人的优秀成果 抓住Internet网络应用发展的机遇,推动汉语理解技术和 产业的进一步发展