第三章-自然语言的处理PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⇒ 08年7月一万亿个网页,每天数十亿增加 ⇒ 获得的信息只有1%被有效利用
9
“框”计算
“框计算”是2009年8月 18日,百度董事长兼首席 执行官李彦宏在2009百度 技术创新大会上所提出的 全新技术概念。用户只要 在“百度框”中输入服务 需求,系统就能明确识别 这种需求,并将该需求分 配给最优的内容资源或应 用提供商处理,最终精准 高效地返回给用户相匹配 的结果。这种高度智能的 互联网需求交互模式,以 及“最简单可依赖”的信 息交互实现机制与过程, 称之为“框计算”。
——冯志伟《自然语言的计算机处理》
NLP是用计算机通过可计算的方法对自然语言的 各级语言单位(字、词、语句、篇章等)进行转 换、传输、存储、分析等加工处理的理论和方法。
4
其它名称 自然语言理解(Natural Language Understanding) 计算语言学(Computational Linguistics) 现代语言学的一大分支,它是用计算机理 解、生成和处理自然语言,即它的研究范 围不仅涵盖语言信息的处理,还包括语言 的理解和生成。
大规模语料可用,计算机性能大幅提高 互联网的迅速发展为NLP提供了实验数据来源和新的应
用场景
8
3.2 自然语言处理技术可以为我们 做什么?
1、信息检索 http://www.google.com.hk
• 微软:106,000,000条(8年前2,060,000 条) 微软,亚洲研究院:1,060,000条 微软,亚洲研究院,研究方向:116,000条 微软,亚洲研究院,自然语言处理:38,900 条
5
研究语言的目的
研究语言的目的
➢为语言构造出足够精细的计算模型,以便能够写出 由计算机程序来完成的涉及自然语言的各种任务。
计算模型的用途
➢作为科学研究的目的-可以探索语言交流的本质; ➢作为实用的目的-能够实现有效的人机通信。
终极目标
➢能够给出一些模型,这些模型在完成阅读、写作、 听、说等任务时能够接近人的行为。
第3章 自然语言的处理
1
3.1 基本概念
2
信息的主要载体-语言 语言的两种形式-文字和声音
文字和声音作为语言的两个不同形式的载体,所 承载的信息占整个信息组成的90%以上。
如何让计算机实现人们希望实现的语言处理功能? 如何让计算机真正实现海量的语言信息的自动处 理和有效利用?
3
自然语言处理(Natural Language Processing,简 称NLP)是利用计算机为工具,对人类特有的书 面形式和口头形式的自然语言的信息进行各种类 型处理和加工的技术。
24
研究的层次 ——语用学:研究在不同上下文中的语句的应用, 以及上下文对语句理解所产生的影响。
为什么要说这句话? (1)火,火! (2)A: 看看鱼怎么样了?
B: 我刚才翻了一下。
6
不关注与所使用的特定媒介相关的 问题,例如手写输入、键盘输入或语音 输入的问题。
关注在词语识别完成后理解和使用 语言的过程。
7
NLP的历史
20世纪50年代起步
提出机器翻译等重要问题
50年代-60年代采用模式匹配法和文法分析方法
对基于理解和基于统计方法的讨论 60年代后期衰落
70-80年代采用了面向受限域的深入理解方法 80年代后期至今统计方法占据主流
18
信息过滤,信息安全 文摘生成 问答系统,人机交互 语言教学 文字输入,文字编辑与排版 语音翻译 网络内容管理与知识发现 ……
19
1.3 关于“理解”的理解
他说:“她这个人真有意思(funny)”。她说: “他这个人怪有意思的(funny)”。于是人们以为他 们有了意思(wish),并让他向她意思意思(express)。 他火了:“我根本没有那个意思(thought)”!她也 生气了:“你们这么说是什么意思(intention)”?事 后有人说:“真有意思(funny)”。也有人说:“真 没意思(nonsense)”。
22
1.4 自然语言理解研究的基本问题
研究的层次 ——语法学:研究语句的组成结构,包括词和短语
在语句中的作用等。 为什么一句话可以这么说也可以那么说?
23
研究的层次 ——语义学:研究如何从一个语句中推导词的意义, 以及这些词在该语句中句法结构中的作用来推导出 该语句的意义。
这句话说了什么? (1) 今天中午我吃食堂。 (2) 这个人真牛。 (3) 这个人眼下没些什么,那个人嘴不太好。
10
2、借助于语言信息处理的web智能
http://duilian.msra.cn/
11
12
微软亚洲研究院——人立方
13
输入“王菲”得到的人物关系图
14
3、机器翻译
http://www.systranet.com
Ex-1: The spirit is willing, but the flesh is weak. (心有余,而力不足。) 译:精神是愿意的, 但骨肉是微弱的。(Systran,现在已经能
——冯志伟
16
5、复杂的检索任务
如“给我找出所有有关在1986年到1990年之间曾经 尝试而最终失败且金额超过1亿美元的融资收买的 文章。”
处理方法: 1、对数据库的每篇文章建立一种表示形式 2、这种表示形式能用于后续的推理
17
ห้องสมุดไป่ตู้
6、语音识别
输入:美欧贸易摩擦升级 识别结果:美欧贸易摩擦生机 输入:新技术的发展日新月异 识别结果:新纪录的发展日新月异
够正确翻译)
Ex-2:
15
4、自动问答系统
在网络上输入“问句”,自动给出精确地答案。 自动问答系统的结构 三个模块:
提问处理模块(Question-Processing); 文献处理模块(Document-Processing); 答案的提取和构造模块(Answer Extraction and Formulation)。
——《生活报》1994. 11. 13. 第六版
20
人脑对语言的理解是一个复杂的思维过程。 自然语言理解技术同多个学科有着千丝万缕的关系。
语言学:研究语言本身的结构 语言心理学:研究人类生成和理解语言的过程 逻辑学: 计算机科学 人工智能 数学与统计学 ……
21
图灵测试
一种测试机器是不是具备人类智能的方法。
9
“框”计算
“框计算”是2009年8月 18日,百度董事长兼首席 执行官李彦宏在2009百度 技术创新大会上所提出的 全新技术概念。用户只要 在“百度框”中输入服务 需求,系统就能明确识别 这种需求,并将该需求分 配给最优的内容资源或应 用提供商处理,最终精准 高效地返回给用户相匹配 的结果。这种高度智能的 互联网需求交互模式,以 及“最简单可依赖”的信 息交互实现机制与过程, 称之为“框计算”。
——冯志伟《自然语言的计算机处理》
NLP是用计算机通过可计算的方法对自然语言的 各级语言单位(字、词、语句、篇章等)进行转 换、传输、存储、分析等加工处理的理论和方法。
4
其它名称 自然语言理解(Natural Language Understanding) 计算语言学(Computational Linguistics) 现代语言学的一大分支,它是用计算机理 解、生成和处理自然语言,即它的研究范 围不仅涵盖语言信息的处理,还包括语言 的理解和生成。
大规模语料可用,计算机性能大幅提高 互联网的迅速发展为NLP提供了实验数据来源和新的应
用场景
8
3.2 自然语言处理技术可以为我们 做什么?
1、信息检索 http://www.google.com.hk
• 微软:106,000,000条(8年前2,060,000 条) 微软,亚洲研究院:1,060,000条 微软,亚洲研究院,研究方向:116,000条 微软,亚洲研究院,自然语言处理:38,900 条
5
研究语言的目的
研究语言的目的
➢为语言构造出足够精细的计算模型,以便能够写出 由计算机程序来完成的涉及自然语言的各种任务。
计算模型的用途
➢作为科学研究的目的-可以探索语言交流的本质; ➢作为实用的目的-能够实现有效的人机通信。
终极目标
➢能够给出一些模型,这些模型在完成阅读、写作、 听、说等任务时能够接近人的行为。
第3章 自然语言的处理
1
3.1 基本概念
2
信息的主要载体-语言 语言的两种形式-文字和声音
文字和声音作为语言的两个不同形式的载体,所 承载的信息占整个信息组成的90%以上。
如何让计算机实现人们希望实现的语言处理功能? 如何让计算机真正实现海量的语言信息的自动处 理和有效利用?
3
自然语言处理(Natural Language Processing,简 称NLP)是利用计算机为工具,对人类特有的书 面形式和口头形式的自然语言的信息进行各种类 型处理和加工的技术。
24
研究的层次 ——语用学:研究在不同上下文中的语句的应用, 以及上下文对语句理解所产生的影响。
为什么要说这句话? (1)火,火! (2)A: 看看鱼怎么样了?
B: 我刚才翻了一下。
6
不关注与所使用的特定媒介相关的 问题,例如手写输入、键盘输入或语音 输入的问题。
关注在词语识别完成后理解和使用 语言的过程。
7
NLP的历史
20世纪50年代起步
提出机器翻译等重要问题
50年代-60年代采用模式匹配法和文法分析方法
对基于理解和基于统计方法的讨论 60年代后期衰落
70-80年代采用了面向受限域的深入理解方法 80年代后期至今统计方法占据主流
18
信息过滤,信息安全 文摘生成 问答系统,人机交互 语言教学 文字输入,文字编辑与排版 语音翻译 网络内容管理与知识发现 ……
19
1.3 关于“理解”的理解
他说:“她这个人真有意思(funny)”。她说: “他这个人怪有意思的(funny)”。于是人们以为他 们有了意思(wish),并让他向她意思意思(express)。 他火了:“我根本没有那个意思(thought)”!她也 生气了:“你们这么说是什么意思(intention)”?事 后有人说:“真有意思(funny)”。也有人说:“真 没意思(nonsense)”。
22
1.4 自然语言理解研究的基本问题
研究的层次 ——语法学:研究语句的组成结构,包括词和短语
在语句中的作用等。 为什么一句话可以这么说也可以那么说?
23
研究的层次 ——语义学:研究如何从一个语句中推导词的意义, 以及这些词在该语句中句法结构中的作用来推导出 该语句的意义。
这句话说了什么? (1) 今天中午我吃食堂。 (2) 这个人真牛。 (3) 这个人眼下没些什么,那个人嘴不太好。
10
2、借助于语言信息处理的web智能
http://duilian.msra.cn/
11
12
微软亚洲研究院——人立方
13
输入“王菲”得到的人物关系图
14
3、机器翻译
http://www.systranet.com
Ex-1: The spirit is willing, but the flesh is weak. (心有余,而力不足。) 译:精神是愿意的, 但骨肉是微弱的。(Systran,现在已经能
——冯志伟
16
5、复杂的检索任务
如“给我找出所有有关在1986年到1990年之间曾经 尝试而最终失败且金额超过1亿美元的融资收买的 文章。”
处理方法: 1、对数据库的每篇文章建立一种表示形式 2、这种表示形式能用于后续的推理
17
ห้องสมุดไป่ตู้
6、语音识别
输入:美欧贸易摩擦升级 识别结果:美欧贸易摩擦生机 输入:新技术的发展日新月异 识别结果:新纪录的发展日新月异
够正确翻译)
Ex-2:
15
4、自动问答系统
在网络上输入“问句”,自动给出精确地答案。 自动问答系统的结构 三个模块:
提问处理模块(Question-Processing); 文献处理模块(Document-Processing); 答案的提取和构造模块(Answer Extraction and Formulation)。
——《生活报》1994. 11. 13. 第六版
20
人脑对语言的理解是一个复杂的思维过程。 自然语言理解技术同多个学科有着千丝万缕的关系。
语言学:研究语言本身的结构 语言心理学:研究人类生成和理解语言的过程 逻辑学: 计算机科学 人工智能 数学与统计学 ……
21
图灵测试
一种测试机器是不是具备人类智能的方法。