第八章 自然语言处理教案资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一次科学实验
巴别塔
据《圣经》创世记第11章记载,是当时人类联合起来 兴建,希望能通往天堂的高塔。为了阻止人类的计划, 上帝让人类说不同的语言,使人类相互之间不能沟通, 计划因此失败,人类自此各散东西。
内容提纲
8.1 自然语言处理概述 8.2 自然语言处理的基本技术 8.3 自然语言处理技术路线 8.4 实例与系统演示
研究中文信息所承载中国文化元素的获取、传承和呈 现等方法;
构建大规模中文文本语义体系和语料库,开发相应软 件系统原型。
文本校对
正确的用法 执著 思维 唯一 唯心 磨炼 历事练心 做主 做一位智者 叫做
语言学是研究语言规律的科学
网络语言
“昨晚,我的JJ带着他的青蛙BF到我家来 吃饭。在饭桌上,JJ的BF一个劲儿地对 我妈妈PMP,说她年轻的时候一定是个 漂亮MM,那酱紫真是好BT,7456……”
JJ : 姐姐
酱紫:这样子
BF : boy friend
青蛙BF:长相不好的男朋友
PMP:拍马屁
MM:妹妹
自然语言处理的研究目标
弱人工智能目标:建立一个足够精确的语言数学 模型使计算机通过编程来完成自然语言的相关任 务。如:听、读、写、说,释义,翻译,回答问 题等;
强人工智能目标:让用户能通过自然语言与计算 机自由对话;
NLP研究内容
[应用系统] 数字图书馆、电子商务、 电子政务、远程教育、语言学习
BT:变态
7456:气死我了
语言的构成
语言
词汇
词
熟语
词法
语法
句法
词素
构形法
构词法 词组构造法 法
造句法
自然语言处理的层次
语音分析:从语音流中区分出一个一个声音 单元----音素
词法分析:从句子中切分出单词、找出词汇 的各个词素,确定单词的词性、词义等。
句法分析:对句子和短语的结构进行分析, 找出词、短语等的相互关系及在句子中的作 用等。
[应用技术研究] 自动问答、机器翻译、信息检索、 文本挖掘、自动校对、信息抽取
[基础研究] 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等
[资源建设] 语料库资源建设 语言学知识库建设
软件企业 NLP研究者 语言学家
NLP 的应用
NLP应用前景
据统计,日常工作中80%的信息来源于语言,处 理文本的需求在不断增长
自然语言理解的困难
自然语言具有多样性(不同语种、不同地域、不同
人群)
自然语言具有进化性 自然语言的模糊性 自然语言的歧义性
处理歧义问题是NLP的核心问题。自然语言处 理过程就是各种歧义现象的消解过程。
机器能够理解人的语言吗?
很难!
什么是理解? 结构主义:机器的理解机制与人相同(白盒) 问题:人类语言理解机理尚未清楚 功能主义:机器的表现与人相同即可(黑盒) 图灵测试 如果通过自然语言的问答,一个人无法识别 和他对话的是人还是机器,那么就应该承认 机器具有智能
文本是人类知识最大的存储源,并且文本的数量 在不停地增长
电子邮件、新闻、网页、科技论文、 用户抱怨信Βιβλιοθήκη Baidu
NLP典型应用
智能搜索引擎、自动问答、信息获取、语义网 语音识别,文字识别、输入法 机器翻译,自动文摘,跨语言检索 文本分类、文本聚类、文本分析(结构、内容、
情感)、文本挖掘(主题跟踪:人物跟踪,企业 跟踪)、文本过滤
语义分析:识别一句话所表达的实际意义。
语用分析:研究语言所在的外界环境对语言 使用所产生的影响。
语义与语用
同一词语在不同的“语境”中具有不同 “语义”
例如:中国奥运史上十大女杰的精彩“转身”
病毒
计算机领域:计算机病毒 医学领域:生物学病毒
自然语言处理的概念
自然语言处理( Natural Language Processing,NLP ) 也称自然语言理解或计算语言学; 主要研究如何让机器进行自然语言信息处理,即人 类语言活动中,信息成分的发现、提取、存储、加 工与传输。 NLP是计算机科学、语言学、人工智能与数学等学 科的交叉学科和边缘学科。
8.1自然语言处理概述
基本语言学知识 自然语言处理概念 自然语言理解 研究目标 研究内容 NLP应用 发展历史
自然语言的概念
什么是自然语言
语言是人类交际的工具,是人类思维的载体
人造语言:编程语言,包括C++, BASIC等
世界语 自然语言:
形式:口语、书面语、手语 语种:汉语、英语、日语、法语…
计算语言学是从计算角度处理语言 将人们对语言的结构规律的认识用精确的、形式化 的、可计算的方式(计算模型)加以表示。
中文信息处理
中文信息处理的研究内容是利用计算机对汉语的音、 形、义等语言文字信息进行的加工和操作,包括:对 字、词、短语、句、篇章的输入、输出、识别、转换、 压缩、存储、检索、分析、理解和生成等各方面的处 理技术。
理解自然语言的准则
给计算机输入一段自然语言文本,如果计算机能 问答(question-answering)-机器能正确地回答输入 文本中的有关问题; 文摘生成(summarizing)-机器有能力产生输入文本 的 摘要; 复述(paraphrase)-机器用不同的词语和语句复述输入 文本; 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言(目标语言)
2013年973重点支持方向
互联网环境中文信息处理与深度计算的基本理论与方 法
研究互联网规模中文深度计算的理论与模型,包括中 文信息表示理论与模型、句子与篇章的结构分析和语 义理解等方法;
研究言语多通道感知机理,包括多言语识别、翻译、 合成与融合、开放式多类型语言知识大规模获取与组 织等方法;
第八章 自然语言处理
古埃及关于语言起源的故事
希腊史学家希罗多图斯的<史记> 载有一段埃及的故事:
古埃及的一位国王曾为探究人类最初的语言词汇到底 是什么而采取出人意料的办法。有一次,一个孩子降 生,他就下令让一个牧人把孩子放到荒郊野外,命令 他不许和孩子说任何话,还要一边放羊,一边照顾这 个孩子,等这个孩子说第一个词时马上来报告。一年 多以后,孩子说出第一个词汇bekos。国王立即召集 学者研究这个词的出处,后来发现是弗吉里亚语中面 包的意思,国王就认为人类最早开始说的词就是面包。
巴别塔
据《圣经》创世记第11章记载,是当时人类联合起来 兴建,希望能通往天堂的高塔。为了阻止人类的计划, 上帝让人类说不同的语言,使人类相互之间不能沟通, 计划因此失败,人类自此各散东西。
内容提纲
8.1 自然语言处理概述 8.2 自然语言处理的基本技术 8.3 自然语言处理技术路线 8.4 实例与系统演示
研究中文信息所承载中国文化元素的获取、传承和呈 现等方法;
构建大规模中文文本语义体系和语料库,开发相应软 件系统原型。
文本校对
正确的用法 执著 思维 唯一 唯心 磨炼 历事练心 做主 做一位智者 叫做
语言学是研究语言规律的科学
网络语言
“昨晚,我的JJ带着他的青蛙BF到我家来 吃饭。在饭桌上,JJ的BF一个劲儿地对 我妈妈PMP,说她年轻的时候一定是个 漂亮MM,那酱紫真是好BT,7456……”
JJ : 姐姐
酱紫:这样子
BF : boy friend
青蛙BF:长相不好的男朋友
PMP:拍马屁
MM:妹妹
自然语言处理的研究目标
弱人工智能目标:建立一个足够精确的语言数学 模型使计算机通过编程来完成自然语言的相关任 务。如:听、读、写、说,释义,翻译,回答问 题等;
强人工智能目标:让用户能通过自然语言与计算 机自由对话;
NLP研究内容
[应用系统] 数字图书馆、电子商务、 电子政务、远程教育、语言学习
BT:变态
7456:气死我了
语言的构成
语言
词汇
词
熟语
词法
语法
句法
词素
构形法
构词法 词组构造法 法
造句法
自然语言处理的层次
语音分析:从语音流中区分出一个一个声音 单元----音素
词法分析:从句子中切分出单词、找出词汇 的各个词素,确定单词的词性、词义等。
句法分析:对句子和短语的结构进行分析, 找出词、短语等的相互关系及在句子中的作 用等。
[应用技术研究] 自动问答、机器翻译、信息检索、 文本挖掘、自动校对、信息抽取
[基础研究] 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等
[资源建设] 语料库资源建设 语言学知识库建设
软件企业 NLP研究者 语言学家
NLP 的应用
NLP应用前景
据统计,日常工作中80%的信息来源于语言,处 理文本的需求在不断增长
自然语言理解的困难
自然语言具有多样性(不同语种、不同地域、不同
人群)
自然语言具有进化性 自然语言的模糊性 自然语言的歧义性
处理歧义问题是NLP的核心问题。自然语言处 理过程就是各种歧义现象的消解过程。
机器能够理解人的语言吗?
很难!
什么是理解? 结构主义:机器的理解机制与人相同(白盒) 问题:人类语言理解机理尚未清楚 功能主义:机器的表现与人相同即可(黑盒) 图灵测试 如果通过自然语言的问答,一个人无法识别 和他对话的是人还是机器,那么就应该承认 机器具有智能
文本是人类知识最大的存储源,并且文本的数量 在不停地增长
电子邮件、新闻、网页、科技论文、 用户抱怨信Βιβλιοθήκη Baidu
NLP典型应用
智能搜索引擎、自动问答、信息获取、语义网 语音识别,文字识别、输入法 机器翻译,自动文摘,跨语言检索 文本分类、文本聚类、文本分析(结构、内容、
情感)、文本挖掘(主题跟踪:人物跟踪,企业 跟踪)、文本过滤
语义分析:识别一句话所表达的实际意义。
语用分析:研究语言所在的外界环境对语言 使用所产生的影响。
语义与语用
同一词语在不同的“语境”中具有不同 “语义”
例如:中国奥运史上十大女杰的精彩“转身”
病毒
计算机领域:计算机病毒 医学领域:生物学病毒
自然语言处理的概念
自然语言处理( Natural Language Processing,NLP ) 也称自然语言理解或计算语言学; 主要研究如何让机器进行自然语言信息处理,即人 类语言活动中,信息成分的发现、提取、存储、加 工与传输。 NLP是计算机科学、语言学、人工智能与数学等学 科的交叉学科和边缘学科。
8.1自然语言处理概述
基本语言学知识 自然语言处理概念 自然语言理解 研究目标 研究内容 NLP应用 发展历史
自然语言的概念
什么是自然语言
语言是人类交际的工具,是人类思维的载体
人造语言:编程语言,包括C++, BASIC等
世界语 自然语言:
形式:口语、书面语、手语 语种:汉语、英语、日语、法语…
计算语言学是从计算角度处理语言 将人们对语言的结构规律的认识用精确的、形式化 的、可计算的方式(计算模型)加以表示。
中文信息处理
中文信息处理的研究内容是利用计算机对汉语的音、 形、义等语言文字信息进行的加工和操作,包括:对 字、词、短语、句、篇章的输入、输出、识别、转换、 压缩、存储、检索、分析、理解和生成等各方面的处 理技术。
理解自然语言的准则
给计算机输入一段自然语言文本,如果计算机能 问答(question-answering)-机器能正确地回答输入 文本中的有关问题; 文摘生成(summarizing)-机器有能力产生输入文本 的 摘要; 复述(paraphrase)-机器用不同的词语和语句复述输入 文本; 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言(目标语言)
2013年973重点支持方向
互联网环境中文信息处理与深度计算的基本理论与方 法
研究互联网规模中文深度计算的理论与模型,包括中 文信息表示理论与模型、句子与篇章的结构分析和语 义理解等方法;
研究言语多通道感知机理,包括多言语识别、翻译、 合成与融合、开放式多类型语言知识大规模获取与组 织等方法;
第八章 自然语言处理
古埃及关于语言起源的故事
希腊史学家希罗多图斯的<史记> 载有一段埃及的故事:
古埃及的一位国王曾为探究人类最初的语言词汇到底 是什么而采取出人意料的办法。有一次,一个孩子降 生,他就下令让一个牧人把孩子放到荒郊野外,命令 他不许和孩子说任何话,还要一边放羊,一边照顾这 个孩子,等这个孩子说第一个词时马上来报告。一年 多以后,孩子说出第一个词汇bekos。国王立即召集 学者研究这个词的出处,后来发现是弗吉里亚语中面 包的意思,国王就认为人类最早开始说的词就是面包。