第10讲自然语言理解.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
– 以句法-语义分析为主流的中期历史(1970-1980年代) • 句法分析 – 识别构成句子的各个成分以及它们之间的相互关系, 例如确定每个动词的主语和宾语,以及每个修饰性的 词或短语所修饰的成分。 – 分析结果一般是句子的一棵分析树。 • 语义分析 – 根据输入句子的句法结构和句中每个实词的词义推导 出能反映这个句子意义的某种形式化表示。 – 结果可以是逻辑表达式、语义网络或其它一些复杂的 数据结构。
– 等等…
20
指代和省略中的歧义
– 指代歧义:指代词(如我、你、他等)和代词词组(如“这 一点”,“那件事”等)所指的事件可能存在歧义。 • 例:老师给大家讲了一个动人的故事,这使大家很激动。 – 省略歧义:自然语言中,经常有省略,该省略的不省略反而 显得罗嗦,但有时也会由此产生歧义。 • 例:他说(得/他)不清楚。
13
第三节 汉语的特点 及汉语理解面临的困难
汉语不利于机器理解的几个特点
– 汉语在构词方法上主要是词根复合法,而不是词缀派生法, 缺乏形态标记,主要以虚词和语序表示各种语法关系。 – 词类与句法成分之间不存在一一对应的关系,如谓语可由名 词、动词或形容词充当,而形容词又可作谓语、定语和状语 等。 – 汉语语法有重“意合”,轻形式,以意驭形的特点,使得句 法分析和语义分析往往不能相对独立,只有二者同时或交叉 进行才能取得好的效果。
7
– 以走向实用化和工程化为特征的近期历史(1980-以后) • 一批商品化的自然语言人-机接口和机器翻译系统出现在市 场上。 • 1990年8月,13届国际计算语言学大会,首次提出了处理 大规模真实文本的战略目标。 • 语料库语言学兴起,它顺应了大规模真实文本处理的需求, 提出了以计算机语料库为基础的语言学研究及自然语言处 理新思路。
第10讲 自然语言理解
自然语言与自然语言理解
自然语言理解的层次模型
汉语的特点及汉语理解面临的困难 自然语言理解的应用
第一节 自然语言与自然语言理解
自然语言:是指人类种族集团的本族语言,是我们日
常使用的语言
– 八大语系 • 汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语 系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语 系。 – 5600多种不同的语言和方言 – 使用人口最多的语言有汉语、英语、俄语、日语、法语和德 语等。 – 自然语言是相对于人工语言(程序设计语言)而言的。 – 语言是思维的载体,是人际交流的重要工具。
11
– 分词层 • 把彼此间没有符号隔开的文字流(书面语)或语音流(口 语)在规则 R1 的作用下,变换为一个个词组成的序列 (词串),而词串的正确性受上一层制约条件的限制 • 如:“自然 | 语言 | 理解 | 是 | 人工智能 | 领域 | 的 | 重要 | 分支” – 短语层 • 把词串中彼此孤立的词在规则 R2 的作用下,组成一个个 词组,并得到词组的内部结构(词与词之间的关系,如主 谓结构、动宾结构、偏正结构等)
14
– 在汉语中,不仅主宾语可以省略,谓语动词可以省略,甚至 定语和定语中心词也可以省略,因而汉语的理解特别强调对 语境知识的利用。 – 汉语各个分析层面上的歧义现象非常严重。 • 语音识别时的同音字 • 句子的歧义切分 • 词法分析时的多义词和兼类词 • 句法分析时的同形异构 • 语义分析时的语义组合层次歧义和语义组合关系歧义
17
词切分中的歧义
– 固有歧义:根据不同语境所出现的分词歧义 • 例:(1)物理学是一门基础科学。 物理学起来很难。 • 例:(2)将来的上海将有严重的污染。 他将来上海。
– 组合歧义:本身并不组成一个词,在不同语境下,产生不同 的组合切分 • 例:他的确切地址在这儿。 这块肉的确切得不错。
18
8
– 汉语机器理解研究的发展 • 1956年开始俄汉机译系统的研究,1959年完成,采用的技 术主要是词对词翻译和模式匹配。 • 1978年后开始了真正意义上的汉语理解研究,经过二十几 年的发展,在汉语的句法和语义分析、各级语言单位的语 义表示与获取、歧义消解等方面都取得了进展,并建立了 一批实验系统,其中一些系统已经实用化、商品化。 • 目前国内开展此项研究的单位 – 北京大学(俞士汶) – 清华大学(黄昌宁、周明) – 东北大学(姚天顺) – 山西大学(刘开瑛、郭炳炎) – 哈工大(王开铸) – 微软中国研究院
16
– 歧义切分 • 如:唐代杜牧“清明”诗——七绝
清明时节雨纷纷,路上行人欲断魂; 借问酒家何处有,牧童遥指杏花村。 改写为词:
清明时节雨, 纷纷路上行人, 欲断魂。 借问酒家何处? 有牧童, 遥指杏花村。
改写为剧本:
[清明时节][雨纷纷] [路上] 行人[欲断魂]:借问酒家何处有? 牧童[遥指]:杏花村!
25
自动文摘
– 就是利用计算机自动地从原始文献中提取文摘。 – 文摘是准确全面地反映某一文献中心内容的简洁连贯的短文。 – 自动文摘的主要方法: • 自动摘录:计算词频和句子的权重,确定权重最高的若干 句子作为文摘内容,并按顺序输出。(最简单) • 基于理解的自动文摘:利用语言学知识获取语言结构,利 用领域知识进行判断、推理,得到文摘的意义表示,最后 从意义表示中生成摘要。(理想情况) • 信息抽取: – (1)定义文摘框架,它以空槽的形式提出应从原文中 获取的各项内容。 – (2)利用特征词从文本中抽取相关的短语或句子填充 文摘框架。 – 信息抽取与基于理解的自动文摘相比只对有用的文本 片段进行有限深度的分析,其效率和灵活性显著提高。
4
– 计算机理解自然语言是极其困难的,因为不仅要有相应的语 言学知识,而且还要有领域知识和上下文信息 • 困难主要体现在各级语言单位与其语义之间的映射关系多 种多样 – 一对一、多对一、一对多、多对多
– 如果计算机能够理解自然语言,人-机间的信息交流将能够以 人们熟悉的本族语进行。
– 创造和使用自然语言是人类高度智能的表现,对自然语言理 解的研究有助于揭开人类智能的奥秘,深化我们对语言能力 和思维本质的认识。
5
自然语言理解研究的发展
– 以关键字匹配为主流的早期历史(1950-1960年代) • 五六十年代开发的自然语言理解系统主要依靠关键字匹配 技术来识别输入句子的意义,而不是真正意义上的理解。 • 系统中事先存放了大量包含关键字的模式,每个模式都和 一个解释相对应。 • 待理解句子输入系统,系统将句子与模式逐个匹配,一旦 匹配成功便立刻得到对应的解释。 • 如:人-机接口系统(列车数据库查询系统) – 模式:<车次>经过<处所>吗? – 解释:询问<车次>是否经过<处所>,执行查询指令, 如 SQL 语句 – 问题:571次经过金华吗?
15
语音识别的困难
– 同音字
• 如:
《施氏食狮史》(赵元任) 石室诗士施氏嗜狮,誓食十狮,氏时时适市视狮。十时, 氏适市,适十狮适市。是时,氏视是十狮。恃十石矢势,使 是十狮逝世,氏拾是十狮尸适石室。石室湿,使侍试拭石室。 石室拭。氏始试食是十狮尸。食时,始识是十狮尸实石十狮 尸。是时,氏始识是实事实。试释是事。
2
自然语言理解(计算语言学)是人工智能领域的重要
分支,也是一个极其活跃的研究领域
– 什么是“理解”? • 从微观上来说,理解是指从自然语言到机器内部表示之间 的一种映射 • 从宏观上讲,理解是指能够完成我们所希望的一些功能 – 自然语言理解分为两个方面:书面语理解和口语理解
– 书面语理解 • 将文字输入计算机 • 计算机识别和理解文字、词、短语、句子、段落和篇章 • 按指定的目标作出相应的回答或反映
26
分析理解过程
摘要生成过程
原文分析 (抽取信息)
综合评判与识别 (选出关键信息)
浓缩 (信息压缩)
摘要生成 (信息表示)
原文
版面信息提取 词频统计 关键词识别 句法分析 语义分析 篇章结构分析
版面信息 词频信息 关键词信息 句法信息 语义信息 概念统计信息 句间关系 篇章结构
抽象 概括 集成
自然 语言 生成
词的歧义
– 词性歧义:一个词有多种词性(兼类) • 例:汉语学习十分重要。(名词) 他们努力学习汉语。(动词) – 词义歧义:一个词有多种词义 • 例:红花。(红颜色的) 红军。(革命的)
结构歧义
– 即词组成词组乃至句子时,由于其组成的词或词组间可能存 在不同的语法或语义关系而出现的(潜在)歧义现象。
10
F1
F2
F3
F4
文字流 语音流
分 词
短 语
语 句
段 落
篇 章
理解结果 (篇 章 语 义 的 机 内 表 示)
R1
R2
R3
R4
R5
(自然语言理解的层次模型) – Ri 是第 i 层的规则系统 – Fi 是第 i+1 层对第 i 层的制约条件 – 此模型分为五个层次 – 分词层、短语层、语句层、段落层、篇章层
21
第四节 自然语言理解的应用
自然语言人机接口
– 例:数据库汉语查询接口WTCDIS(北京信息工程学院软件 研究中心) – 用自然语言查询学生信息 • (1)请给出来自湖北的学生名单。(祈使句) • (2)哪些学生来自湖北?(疑问句) • (3)请问来自湖北的学生有哪些?(祈使疑问句) • (4)来自湖北的学生名单。(省略句) • (5)找出所有这样的学生:他们来自湖北。(复合句) – 一次查询处理的系统流程见下图:
9
第二节 自然语言理解的层次模型
自然语言语言单位的构成是分层次的
– 对于汉语,分为以下几层: • 字、词、短语、句、段落、篇章 – 自然语言理解应遵循单向依赖关系 • 任一较大语言单位的理解,必须在较小语言单位理解的基 础上进行 • 较小语言单位的理解,必须在较大语言单位制约条件的限 制下获得 – 自然语言理解应分层次,层层推进
12
– 语句层 • 在规则 R3 的作用下,对语句进行句法分析和语义分析, 得到语句的分析树和语句的语义表示 – 段落层 • 考察语句之间的关系,在规则 R4 的作用下,将语句序列 组合成若干个段落 • 注意自然段和意义段的区别 – 篇章层 • 考察段落之间的关系,在规则 R5 的作用下,得到整个篇 章的结构表示和机内语义表示
19
– (1)“VP+的+是+NP”型歧义结构 • 例:“反对的是少数人”
– (2)“N1+N2+N3”型歧义结构 • 例:“北欧语言研究会”
– (3)“ADJ+N1+N2”型歧义结构 • 例:“小学生词典” – (4)“VP+N1+的+N2”型歧义结构 • 例:“咬死了猎人的狗” – (5)“VP+ADJ+的+N”型歧义结构 • 例:“喜欢干净的小孩”
3
– 口语理解 • 用口语对计算机讲话 • 计算机识别和理解语音输入,把语音流变换为文字流 • 然后按书面语理解 • 最后利用语音合成将回答转换成声音输出
– 美国认知心理学家 G.M.Ulson 提出判别计算机是否理解自然 语言的四条标准: • 问答:能够回答与输入语言材料有关的问题 • 文摘:能够对所给的语言材料进行文摘 • 释义:能用不同的词语复述所给的语言材料 • 翻译:具有将语言材料转译成另一种语言的能力 – 计算机只要达到了以上标准的一条,就可以说它能够 理解自然语言
22Leabharlann (查询处理流程图)23
机器翻译与机助翻译
机器内部表示
原文输入
原文分析 .词法分析 .语法分析 .语义分析
译文综合 .成分调整 .修辞加工 .查目标语 言词典
译文输出
词典
(机器翻译示意图)
24
– 机器翻译的困难: • 词的多义性:源语言可能一词多义,而目的语言要表达这 些不同的含义需要使用不同的词汇。 • 文法的多义性:对源语言中合乎文法规则但有多义的句子, 其每一可能的意思均可在目标语言中用不同的文法结构来 表达。 • 头语重复引用:源语言中的一个代词可指多个事物,但在 目的语言中要有不同的代词,正确地选用代词需要了解其 确切的指代对象。 • 成语:必须识别源语言中的成语,它们不能直接按字面意 思翻译成目的语言。
摘要
(一个自动文摘系统的框图)
文本信息的中间表示
27
Web上的智能搜索引擎
查询分析 查询表达 信息检索
用户接口
知识库
文档表示
相关信息输出
文档分析 文档索引库 词切分
格式过滤
ROBOT
WWW
(搜索引擎结构框图)