自然语言理解NLP
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Dialog
Where is Citizen Kane playing in SF? Castro Theatre at 7:30. Do you want a ticket?
Information extraction (IE)
You’re invited to our dinner party, Friday May 27 at 8:30
3.情感分析(Sentiment Analysis,SA):又称倾向 性分析和意见挖掘,它是对带有情感色彩的主观性文 本进行分析、处理、归纳和推理的过程,如从大量网 页文本中分析用户对“数码相机”的“变焦、价格、 大小、重量、闪光、易用性”等属性的情感倾向; 4.机器翻译(Machine Translation,MT):将文本从 一种语言转成另一种语言,如中英机器翻译。
包括查询资料、解答问题、摘录文献、汇编资料以 及一切有关自然语言信息的加工处理。 例如,如果有一台机器既能理解中文又能理解英文 ,那么,这台机器就可以为人类充当翻译;如果电 视能理解中文,那么,用户就可以不用按钮,而是 通过说话来遥控电视
语言究竟是怎样组织起来传输信息的?人又是怎样 从一连串的语言符号中获取信息的?
Economy is good
Named entity recognition (NER)
PERSON ORG LOC
Machine translation (MT)
第13届上海国际电影节开幕… The 13th Shanghai International Film Festival…
Einstein met with UN officials in Princeton
3. 程序结束(理解完): 所有词,经过句法和语义分 析,最终生成一个词,即:生成一个事件。
4. 理解的意义: 在合并过程中,根据词义搭配,生 成相应的内容,数学中主要是运算关系。 例如:延长线段AB至D;
给出关系命令:AB+BD=AD
给出绘图命令:沿AB方向,延长线段AB至点D。
Βιβλιοθήκη Baidu
4.自然语言理解的研究层次
NLP技术有非常广泛的应用。但是针对一定应用,具 有相当自然语言处理能力的实用系统已经出现,有些 已商品化,甚至开始产业化。 例如: 各种数据库和专家系统的自然语言接口 各种机器翻译系统 全文信息检索系统 自动文摘系统等
5.NLP的发展现状
making good progress
Sentiment analysis
ADJ ADJ NOUN VERB
Colorless green ideas sleep furiously.
Parsing
I can see Alcatraz from the window!
Summarization
The Dow Jones is up The S&P500 jumped Housing prices rose
Paraphrase
XYZ acquired ABC yesterday ABC has been taken over by XYZ
Word sense disambiguation (WSD)
I need new batteries for my mouse.
Part-of-speech (POS) tagging
用户生成内容中存在大量口语化、成语、方言等非
标准的语言描述
分词问题
新词不断产生 基本常识与上下文知识 各式各样的实体词
如何解决?
掌握较多的语言学知识,构建知识库资源,并找到一 种融合各种知识、资源的方法,目前使用较多是概率 模型(probabilistic model)或称为统计模型( statistical model),其建模过程基于大规模真实语料 库,从中获取各级语言单位上的统计信息,并且,依 据较低级语言单位上的统计信息,运行相关的统计、
2.自然语言的特点
由词构成,中文构词以两个为主。 有一定结构,如:主谓宾,特殊句型。 由“名词块”与“动词块”组成。 有复杂性:本身复杂、缺省、习惯用语 允许歧义,上下文排除 非歧义的句子含义也较多(有多个结果,有些在某 领域有用)。
3.自然语言理解过程
1. 拆分过程: 词法分析。 2. 合并过程: 句法及语义分析,每一次语义分析, 涉及若干个词,一般是(动词-名词)对,符合语义 (一个简单句算分析成功),若干词生成一个事件, 事件转换为名词,参与新的合并。 例句: 2加3等于5。 2加3是简单句;生成2+3 2+3是新名词, 2+3等于5又是简单句; 生成 2+3 = 5
still really hard
Question answering (QA)
Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness?
mostly solved
Spam detection
Let’s go to Agra!
Buy V1AGRA …
Best roast chicken in San Francisco! The waiter ignored us for 20 minutes.
✓ ✗
ADV
Coreference resolution
Carter told Mubarak he shouldn’t run again.
Party May 27 add
基本解决:词性标注、命名实体识别、Spam识别
取得长足进展:情感分析Sentiment analysis、共指消 解Coreference resolution、词义消歧Word sense disambiguation 、句法分析Parsing、机器翻译Machine translation (MT )、信息抽取Information extraction (IE)
挑战:自动问答、复述、文摘、会话机器人
6.NLP主要难点——歧义问题
1.词法分析歧义:
分词: 例如:“严守一把手机关了” 可能的分词结果: “严守一/ 把/ 手机/ 关/ 了” “严守/ 一把手/ 机关/ 了”
词性标注: 例如“计划”在不同上下文中有不同的词性: “我/ 计划/考/ 研/” “我/ 完成/ 了/ 计划/”
语用学:
语法学:
语义学:
形态学:
5.相关技术与应用
1.信息抽取(Information Extraction,IE):其目的 是将非结构化或半结构化的自然语言描述文本转化结 构化的数据。 例如:自动根据邮件内容生成Calendar; 2.自动问答(Question Answering,QA):它是一套 可以理解复杂问题,并以充分的准确度、可信度和速 度给出答案的计算系统,以IBM‘s Waston为代表;
4.NLP应用中的歧义音字转换:
例如:拼音串 “ji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu” (机器翻译及其应用激起了人们极其浓厚的兴趣)
中的“ji qi”如何转换成正确的词条
为什么自然语言理解如此困难?
自然语言理解
1.自然语言理解概述 2.自然语言的特点 3.自然语言理解过程 4.自然语言理解的研究层次 5.相关技术与应用 6.NLP主要难点——歧义问题
1.自然语言理解概述
自然语言理解NLP(NLP,Nature Language Processing):(或者更一般地称为自然语言处理 )俗称“人机对话”,是一种使机器能理解人类语 言(像中文、英文等人类语言称为自然语言)的技 术。 是计算机科学领域与人工智能领域中的一个重要方 向。它研究能实现人与计算机之间用自然语言进行 有效通信的各种理论和方法。
推理等技术计算较高级语言单位上的统计信息。
2.语法分析歧义:
“那只狼咬死了猎人的狗” “咬死了猎人的狗失踪了”
3.语义分析歧义:
机器翻译句子 “At last, a computer that understands you like your mother” 可以有多种含义,如下: “计算机会像你的母亲那样很好的理解你(的语言) ” “计算机理解你喜欢你的母亲” “计算机会像很好的理解你的母亲那样理解你”