自然语言理解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上下文无 关文法 句子 变换规则 句子
例
名词短语1
动词短语
名词短语2
动词被动语态
介词短语
冠词
名词
动词
名词短语2 专用名词
专用名词 助动词 动词的过去分词 介词
名词短语1
冠词 Jack is
名词 professor
The professor trains
Jack
trained
by
the
自顶向下的分析方法
句法分析
语义分析
语用分析
词法分析
• 词法分析 主要任务是要找出词汇的各个词素,从中获得语言学信息 ,并确定单词的词义。以英语为例,其词法分析的基本算法如下:
repeat look for word in dictionary if not found then modify the word
until word is found or no further modification possible
• 语言虽然表示成一连串的文字符号或者一串声音 流,但其内部事实上是一个层次化的结构,从语 言的构成中就可以清楚的看到这种层次性。 • 用文字表达的句子: 词素 词或词形 词组或句子
• 用声音表达的句子: 音素 音节 音词 音句
语音分析 词法分析 五 个 层 次 :
在有声语言中,最小可独立的 声音单元是音素,音素是一个 或一组音,它可与其他音素相 区别。语音分析则是根据音位 规则,从语音流中区分出一个 个独立的音素,再根据音位形 态规则找出一个个音节及其对 应的词素或词。
例 利用上述上下文无关文法,给出如下语句的分析树。 The professor trains Jack. 解:
语句 句子 名词短语 冠词 名词 动词短语 动词 终标符
名词短语 专用名词
The professor trains
Jack
.
句法规则的表示方法——变换文法
上下文无关文法反映的仅是一个句子本身的层次结构和生成过程,而自 然语言是上下文有关的。为此,乔姆斯基又提出了变换文法 (Transformational Grammar)。该文法认为,句子的结构有深层和表层两个 层次。 例如: She read me a story 和 A story was read to me 的表层结构不一样,但它们的深层结构则是一样的。再如,主动句和被动句 也只是表层结构不同,其深层结构则是相同的。 在变换文法中,句子深层结构和表层结构之间的变换是通过变换规则实 句子 现的。 句子
大规模真实文本处理时期
• 20世纪80年代以后。 • 机器学习研究又十分活跃,并出现了许多具有较 高水平的实用化系统。 • 其中比较著名的有美国的METAL和LOGOS,日本的 PIVOT和HICAT,法国的ARIANE以及德国的SUSY等 系统;这些系统是自然语言理解研究的重要成果, 表明自然语言理解在理论上和应用上取得了突破 性进展。
其中,word是一个变量,其初始值就是当前词。
例:用上述算法分析catches。 解:其分析过程如下: catches catche catch 词典中查不到 修改1:去掉s 修改2:去掉e
可以看出,在修改2时就查到了catch。
句法分析
• 句法分析 是对句子和短语的结构进行分析。句法 分析的最大单位就是一个句子。分析的目的就是 找出词、短语等的相互关系以及各自在句子中的 作用等,并以一种层次结构来加以表达。这种层 次结构可以是句子的成分关系,也可是语法功能 关系。
发展时期
• 20世纪60年代和70年代,对自然语言理解对话系 统的研究取得进展。 • 60年代:拉法勒(B.Raphael)在麻省理工学院完 成的信息检索系统SIR;韦森鲍姆在麻省理工学院 的ELIZA。 • 70年代:伍兹(Woods)的LUNAR系统、威诺甘德 (Winogand)的SHRDLU系统和香克(Schank)的 MARGIE系统等。
• I need some help; that much seems certain.(我 需要帮助,这是肯定的。 )
• Perhaps I could learn to get along with my mother. (也许我可以学会如何和 我母亲相处。) • My mother takes care of me.(我母亲照顾我。) • My father.(我父亲。) • You are like my father in some ways.(你在某些方 面像我父亲。) • ……
自然语言理解
(Natural Language Understanding——NLU)
报告人:ln
用户: • Men are all alike.(男人 都一样。) • They’re always bugging us about something or other.(他们总是用这样 或者那样的事情来麻烦我 们。) • Well, my boyfriend made me come here.(我男朋 友要我来这。)
提出问题:
• 什么是自然语言和自然语言理解? • 自然语言理解与人类的哪些智能有关?
• 自然语言理解研究是如何发展的?
• 目前自然语言理解有哪些成果?
Outline
1
自然语言理解概述 自然语言理解的发展
2 3
4
自然语言理解的层次
自然语言理解的应用
自然语言理解概述
• 自然语言:是指人类语言集团的本族语言,如汉 语、英语等,它是相对于人造语言而言的,如C语 言、Java语言等。 • 自然语言的两种形式:书面语和口语 ——文本和语音
名词短语1 动词 动词短语 名词短语2 动词被动语态 介词短语
名词短语2
动词
动词的过去分词
介词
名词短语1
把主动句变换为被动句的变换规则
利用变换文法,将前述主动句变为被动句。 解:其变换过程是:先从非终极符“句子”开始产生一个主动句: The professor trains Jack 然后再应用变换规则把它变为被动句 : Jack is trained by the professor
自顶向下分析: 从起始符开始应用文法规则,一层一层地向下产生分析树 的各个分支,直至生成与输入语句相匹配的完整的句子结构为止。
例如: 采用自顶向下分析方法对语句: The professor trains Jack . 语句 进行分析的过程是: 首先从起始符“语句”开始,正向运用规则: 句子 终标符 语句 → 句子 终标符 动词短语 名词短语 把分析树的根节点“语句”替换为它的两个子节 点“句子”和“终标符”。 名词短语 然后再对新生成的节点“句子”使用规则: 冠词 名词 动词 句子 → 名词短语 动词短语 将其替换为两个子节点“名词短语”与“动词短 专用名词 语”。 . Jack 对于“名词短语”,有两条规则可用,若按 The professor trains 规则的排列顺序,则选用 名词短语 → 冠词 名词 将“名词短语”被替换为“冠词”和“名词”, 生成两个新节点。对“冠词”使用规则: 冠词 → The 对名词使用规则: 名词 → professor
自底向上分析法
自底向上分析,是以输入语句的单词为基础,首先按重写规则的箭头指 向,反方向使用那些最具体的重写规则,把单词归并成较大的结构成分,如 短语等,然后对这些成分继续逆向使用规则,直到分析树的根节点为止。 例如 语句 The professor trains Jack 逆向使用具体规则后,可得到下图所示的 部分分析树。
句子结构的表示
• 一个句子是由各种不同的句子成分组成的。这些成分可以 是单词、词组或从句。句子成分还可以按其作用分为主语 、谓语、宾语、宾语补语、定语、状语、表语等。
如对句子: He wrote a book 可用树形结构来表示
句子 主语 动词 He wrote a 谓语 宾语 book
一个句子又是由若干个词类构成的,如名词、动词、代词、形 容词等。若从句子的词类来考虑,一个句子也可用一棵树来表 示,这种树称为句子的分析树。
句子
代词
动词 He wrote
动词短语 名词短语 a book
句法规则的表示方法——上下文无关法
上下文无关文法(Context-free Grammars)是乔姆斯基提出的一种对自 然语言语法知识进行形式化描述的方法。在这种文法中,语法知识是 用重写规则表示的。作为例子,下面给出了一个英语的很小的子集。 语句 → 句子 终标符 句子 → 名词短语 动词短语 动词短语 → 动词 名词短语 名词短语 → 冠词 名词 名词短语 → 专用名词 冠词 → the 名词 → professor 动词 → trains 专用名词 → Jack 终标符 →. . 这就是一个英语子集的上下文无关文法 在该文法中,“语句”是一个特殊的非终极符,称为起始符。
自然语言理解的发展
• 计算机的出现使得自然语言理解研究成为可能, 随着计算机技术和人工智能总体技术的发展,自 然语言理解不断取得进展。 –萌芽时期 –发展时期 –大规模真实文本处理时期
萌芽时期
• 20世纪40年代和50年代初期 • 机器翻译是自然语言理解最早的研究领域 • 美苏两国在1949年开始俄-英和英-俄文字的机器 翻译研究。由于早期研究中理论和技术的局限, 所开发的机译系统的技术水平较低,不能满足实 际应用的要求。 • 在这一时期,乔姆斯基(N.Chomsky)提出了形式 语言和形式文法的概念,他把自然语言和程序设 计语言放到相同的层面,用统一的数学方法来解 释和定义。促进进了程序设计语言的的发展,产 生了BASIC、FOTRAN、ADA等大量语言。
• 自然语言理解是研究如何让电脑读懂人类语言的 一门技术,是自然语言处理技术中最困难的一项。 • 人工智能中一个长期努力的目标就是开发出可以 理解并产生人类语言的程序。
• 自然语言理解是语言学、逻辑学、生理学、心理 学、计算机科学和数学等相关学科发展和结合而 形成的一门交叉学科;它能够理解口头语言或书 面语言。语言交流是一种基于知识的通信。
未来
• 80年代以来提出和进行的智能计算机研究,也对 自然语言理解提出了新的要求: • 要求设计出更为友好的人机界面,使自然语言、 文字、图象和声音等信号都能直接输入计算机。 • 要求计算机能以自然语言与人进行对话交流,就 需要计算机具有自然语言能力,尤其是口语理解 和生成能力。
自然语言理解的层次
• Tell me more about your family.(告诉我更多你家 里的情况。)
• Who else in your family takes care of you?(你家 里还有谁照顾你?) • Your father?(你父亲。) • What resemblance do you see?(你看到了有什 么形似之处?) • ……
ELIZA: • In what way?(在哪方面 ?) • Can you think of a specific example?(你能 想到一个特定的例子么? )
• Your boy friend made you come here.(你男朋友要 你来这。)
• He says I’m depressed much of the time.(他他 说我大部分时间都情绪低 落。) • It’s true, I am unhappy.( 真的,我不快乐)
• I am sorry to hear your are depressed.(我很遗 憾听你说情绪低落。)
• Do you think coming here will help you not to be unhappy?(你认为来这我 能帮助你快乐起来么?) • What would it mean to you if you got some help? (如果你得到某种帮助, 那意味着什么呢?)
• 从微观上讲,自然语言理解是指从自然语言到机 器(计算机系统)内部之间的一种映射。 • 从宏观上看,自然语言理解是指机器能够执行人 类所期望的某些语言功能。这些功能包括:
–回答问题:计算机能正确的回答用自然语言输入的有 关问题; –文摘生成:机器能产生输入文本的摘要; –释义:机器能用不同的词语和句型来复述输入的自然 语言信息; –翻译:机器能把一种语言翻译成另一种语言。
例
名词短语1
动词短语
名词短语2
动词被动语态
介词短语
冠词
名词
动词
名词短语2 专用名词
专用名词 助动词 动词的过去分词 介词
名词短语1
冠词 Jack is
名词 professor
The professor trains
Jack
trained
by
the
自顶向下的分析方法
句法分析
语义分析
语用分析
词法分析
• 词法分析 主要任务是要找出词汇的各个词素,从中获得语言学信息 ,并确定单词的词义。以英语为例,其词法分析的基本算法如下:
repeat look for word in dictionary if not found then modify the word
until word is found or no further modification possible
• 语言虽然表示成一连串的文字符号或者一串声音 流,但其内部事实上是一个层次化的结构,从语 言的构成中就可以清楚的看到这种层次性。 • 用文字表达的句子: 词素 词或词形 词组或句子
• 用声音表达的句子: 音素 音节 音词 音句
语音分析 词法分析 五 个 层 次 :
在有声语言中,最小可独立的 声音单元是音素,音素是一个 或一组音,它可与其他音素相 区别。语音分析则是根据音位 规则,从语音流中区分出一个 个独立的音素,再根据音位形 态规则找出一个个音节及其对 应的词素或词。
例 利用上述上下文无关文法,给出如下语句的分析树。 The professor trains Jack. 解:
语句 句子 名词短语 冠词 名词 动词短语 动词 终标符
名词短语 专用名词
The professor trains
Jack
.
句法规则的表示方法——变换文法
上下文无关文法反映的仅是一个句子本身的层次结构和生成过程,而自 然语言是上下文有关的。为此,乔姆斯基又提出了变换文法 (Transformational Grammar)。该文法认为,句子的结构有深层和表层两个 层次。 例如: She read me a story 和 A story was read to me 的表层结构不一样,但它们的深层结构则是一样的。再如,主动句和被动句 也只是表层结构不同,其深层结构则是相同的。 在变换文法中,句子深层结构和表层结构之间的变换是通过变换规则实 句子 现的。 句子
大规模真实文本处理时期
• 20世纪80年代以后。 • 机器学习研究又十分活跃,并出现了许多具有较 高水平的实用化系统。 • 其中比较著名的有美国的METAL和LOGOS,日本的 PIVOT和HICAT,法国的ARIANE以及德国的SUSY等 系统;这些系统是自然语言理解研究的重要成果, 表明自然语言理解在理论上和应用上取得了突破 性进展。
其中,word是一个变量,其初始值就是当前词。
例:用上述算法分析catches。 解:其分析过程如下: catches catche catch 词典中查不到 修改1:去掉s 修改2:去掉e
可以看出,在修改2时就查到了catch。
句法分析
• 句法分析 是对句子和短语的结构进行分析。句法 分析的最大单位就是一个句子。分析的目的就是 找出词、短语等的相互关系以及各自在句子中的 作用等,并以一种层次结构来加以表达。这种层 次结构可以是句子的成分关系,也可是语法功能 关系。
发展时期
• 20世纪60年代和70年代,对自然语言理解对话系 统的研究取得进展。 • 60年代:拉法勒(B.Raphael)在麻省理工学院完 成的信息检索系统SIR;韦森鲍姆在麻省理工学院 的ELIZA。 • 70年代:伍兹(Woods)的LUNAR系统、威诺甘德 (Winogand)的SHRDLU系统和香克(Schank)的 MARGIE系统等。
• I need some help; that much seems certain.(我 需要帮助,这是肯定的。 )
• Perhaps I could learn to get along with my mother. (也许我可以学会如何和 我母亲相处。) • My mother takes care of me.(我母亲照顾我。) • My father.(我父亲。) • You are like my father in some ways.(你在某些方 面像我父亲。) • ……
自然语言理解
(Natural Language Understanding——NLU)
报告人:ln
用户: • Men are all alike.(男人 都一样。) • They’re always bugging us about something or other.(他们总是用这样 或者那样的事情来麻烦我 们。) • Well, my boyfriend made me come here.(我男朋 友要我来这。)
提出问题:
• 什么是自然语言和自然语言理解? • 自然语言理解与人类的哪些智能有关?
• 自然语言理解研究是如何发展的?
• 目前自然语言理解有哪些成果?
Outline
1
自然语言理解概述 自然语言理解的发展
2 3
4
自然语言理解的层次
自然语言理解的应用
自然语言理解概述
• 自然语言:是指人类语言集团的本族语言,如汉 语、英语等,它是相对于人造语言而言的,如C语 言、Java语言等。 • 自然语言的两种形式:书面语和口语 ——文本和语音
名词短语1 动词 动词短语 名词短语2 动词被动语态 介词短语
名词短语2
动词
动词的过去分词
介词
名词短语1
把主动句变换为被动句的变换规则
利用变换文法,将前述主动句变为被动句。 解:其变换过程是:先从非终极符“句子”开始产生一个主动句: The professor trains Jack 然后再应用变换规则把它变为被动句 : Jack is trained by the professor
自顶向下分析: 从起始符开始应用文法规则,一层一层地向下产生分析树 的各个分支,直至生成与输入语句相匹配的完整的句子结构为止。
例如: 采用自顶向下分析方法对语句: The professor trains Jack . 语句 进行分析的过程是: 首先从起始符“语句”开始,正向运用规则: 句子 终标符 语句 → 句子 终标符 动词短语 名词短语 把分析树的根节点“语句”替换为它的两个子节 点“句子”和“终标符”。 名词短语 然后再对新生成的节点“句子”使用规则: 冠词 名词 动词 句子 → 名词短语 动词短语 将其替换为两个子节点“名词短语”与“动词短 专用名词 语”。 . Jack 对于“名词短语”,有两条规则可用,若按 The professor trains 规则的排列顺序,则选用 名词短语 → 冠词 名词 将“名词短语”被替换为“冠词”和“名词”, 生成两个新节点。对“冠词”使用规则: 冠词 → The 对名词使用规则: 名词 → professor
自底向上分析法
自底向上分析,是以输入语句的单词为基础,首先按重写规则的箭头指 向,反方向使用那些最具体的重写规则,把单词归并成较大的结构成分,如 短语等,然后对这些成分继续逆向使用规则,直到分析树的根节点为止。 例如 语句 The professor trains Jack 逆向使用具体规则后,可得到下图所示的 部分分析树。
句子结构的表示
• 一个句子是由各种不同的句子成分组成的。这些成分可以 是单词、词组或从句。句子成分还可以按其作用分为主语 、谓语、宾语、宾语补语、定语、状语、表语等。
如对句子: He wrote a book 可用树形结构来表示
句子 主语 动词 He wrote a 谓语 宾语 book
一个句子又是由若干个词类构成的,如名词、动词、代词、形 容词等。若从句子的词类来考虑,一个句子也可用一棵树来表 示,这种树称为句子的分析树。
句子
代词
动词 He wrote
动词短语 名词短语 a book
句法规则的表示方法——上下文无关法
上下文无关文法(Context-free Grammars)是乔姆斯基提出的一种对自 然语言语法知识进行形式化描述的方法。在这种文法中,语法知识是 用重写规则表示的。作为例子,下面给出了一个英语的很小的子集。 语句 → 句子 终标符 句子 → 名词短语 动词短语 动词短语 → 动词 名词短语 名词短语 → 冠词 名词 名词短语 → 专用名词 冠词 → the 名词 → professor 动词 → trains 专用名词 → Jack 终标符 →. . 这就是一个英语子集的上下文无关文法 在该文法中,“语句”是一个特殊的非终极符,称为起始符。
自然语言理解的发展
• 计算机的出现使得自然语言理解研究成为可能, 随着计算机技术和人工智能总体技术的发展,自 然语言理解不断取得进展。 –萌芽时期 –发展时期 –大规模真实文本处理时期
萌芽时期
• 20世纪40年代和50年代初期 • 机器翻译是自然语言理解最早的研究领域 • 美苏两国在1949年开始俄-英和英-俄文字的机器 翻译研究。由于早期研究中理论和技术的局限, 所开发的机译系统的技术水平较低,不能满足实 际应用的要求。 • 在这一时期,乔姆斯基(N.Chomsky)提出了形式 语言和形式文法的概念,他把自然语言和程序设 计语言放到相同的层面,用统一的数学方法来解 释和定义。促进进了程序设计语言的的发展,产 生了BASIC、FOTRAN、ADA等大量语言。
• 自然语言理解是研究如何让电脑读懂人类语言的 一门技术,是自然语言处理技术中最困难的一项。 • 人工智能中一个长期努力的目标就是开发出可以 理解并产生人类语言的程序。
• 自然语言理解是语言学、逻辑学、生理学、心理 学、计算机科学和数学等相关学科发展和结合而 形成的一门交叉学科;它能够理解口头语言或书 面语言。语言交流是一种基于知识的通信。
未来
• 80年代以来提出和进行的智能计算机研究,也对 自然语言理解提出了新的要求: • 要求设计出更为友好的人机界面,使自然语言、 文字、图象和声音等信号都能直接输入计算机。 • 要求计算机能以自然语言与人进行对话交流,就 需要计算机具有自然语言能力,尤其是口语理解 和生成能力。
自然语言理解的层次
• Tell me more about your family.(告诉我更多你家 里的情况。)
• Who else in your family takes care of you?(你家 里还有谁照顾你?) • Your father?(你父亲。) • What resemblance do you see?(你看到了有什 么形似之处?) • ……
ELIZA: • In what way?(在哪方面 ?) • Can you think of a specific example?(你能 想到一个特定的例子么? )
• Your boy friend made you come here.(你男朋友要 你来这。)
• He says I’m depressed much of the time.(他他 说我大部分时间都情绪低 落。) • It’s true, I am unhappy.( 真的,我不快乐)
• I am sorry to hear your are depressed.(我很遗 憾听你说情绪低落。)
• Do you think coming here will help you not to be unhappy?(你认为来这我 能帮助你快乐起来么?) • What would it mean to you if you got some help? (如果你得到某种帮助, 那意味着什么呢?)
• 从微观上讲,自然语言理解是指从自然语言到机 器(计算机系统)内部之间的一种映射。 • 从宏观上看,自然语言理解是指机器能够执行人 类所期望的某些语言功能。这些功能包括:
–回答问题:计算机能正确的回答用自然语言输入的有 关问题; –文摘生成:机器能产生输入文本的摘要; –释义:机器能用不同的词语和句型来复述输入的自然 语言信息; –翻译:机器能把一种语言翻译成另一种语言。