自然语言理解语义分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引用《统计自然语言处理基础》中的两句话来解答这个问题:
•语义可以分成两部分:研究单个词的语义(即词义)以及单个词的含义是怎么联合起来组成句子(或者更大的单位)的含义
•语义研究的是:词语的含义、结构和说话的方式。
以上是书本中的定义,语义分析是一个非常宽泛的概念,任何对语言的理解都可以归纳为语义分析的范畴,笼统地谈语义是一个非常宽泛的概念。所以应该结合具体任务来看看什么是语义分析,以及语义分析的结果是什么。
从分析粒度上可以分成:词语级的语义分析,句子级的语义分析,以及篇章级别的语义分析。词语级的语义分析
词语级别的语义分析的主要研究词语的含义,常见的任务有:词语消歧、词表示、同义词或上下位词的挖掘。
•词语消歧:一词多义是许多语言的固有属性。以“苹果”为例,可以指水果,又可以指美国的科技公司。词语消歧的任务是判断文中出现的词语是属于哪种意思。
•词表示:深度学习兴起后,掀起了一波对词表示的研究浪潮。词表示的任务是用一个k维的向量表示一个词,并且该向量中包含着词语的意思。比较有代表性的工作是Tomas
Mikolov的Word2Vec,该方法训练得到的词向量能够让语义相关的词具有相似的词向量,并且词向量间还具有逻辑推算能力。
•同义词和上下位词的挖掘:语言的多样性导致了多词义一,例如房子的近义词有房屋、房产。语言的层次性导致了词语间具有上下位关系,像房产、存款、股票可归纳为财产。可以使用一些机器学习的方法挖掘词语间的这种关系。
句子级的语义分析
句子级别的任务就更多了,常见的任务有:语义角色标注、蕴含分析、句子表示、语义依存分析。
•语义角色标注(Semantic Role
Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元(语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
•文本蕴涵(Textual entailment)是指两个文本片段有指向关系。当认为一个文本片段真实时,可以推断出另一个文本片断的真实性。完成这样。完成这样的任务,也需要从语义角度出发进行解决。
•句子表示:同词表示类似,句表示研究的是用一个k维的向量表示一句话的含义。
近几年,常用句向量在文本检索、问答系统中计算文档间的相似度。
•语义依存分析(Semantic
Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。比较有代表性的工作是哈工大刘挺老师实验室的LTP。
篇章级的语义分析
篇章级的语义分析是句子级研究的延伸,常见的任务是指代消解。
•人称代词(Pronoun)
【李明】怕高妈妈一人呆在家里寂寞,【他】便将家里的电视搬了过来。
•指示代词(Demonstrative)
【很多人都想创造一个美好的世界留给孩子】,【这】可以理解,但不完全正确•有定描述(Definite Description)
【贸易制裁】似乎成了【美国政府在对华关系中惯用的大棒】。然而,这【大棒】果真如美国政府所希望的那样灵验吗?
江苏联著实业股份有限公司(Inforcreation Co.,Ltd.)是一家以人工智能认知智能技术为基础的文化科技创新企业,以中文自然语言理解为研究基础,以语义工程为核心技术,突破机器理解瓶颈,打造机器智力定制平台,应用于基于机器智能的智能搜索引擎、基于要素分析的各种质控或风控系统、以及基于趋势分析的各种预测性应用等各类场景。推动认知智能产业的创新发展与转化落地。目前各类产品与服务已覆盖全国29个省(直辖市、自治区)