概念树在短文本语义相似度上的应用_赵小谦

概念树在短文本语义相似度上的应用_赵小谦
概念树在短文本语义相似度上的应用_赵小谦

计算文本相似度几种最常用的方法,并比较它们之间的性能

计算文本相似度几种最常用的方法,并比较它们之间的性能 编者按:本文作者为Yves Peirsman,是NLP领域的专家。在这篇博文中,作者比较了各种计算句子相似度的方法,并了解它们是如何操作的。词嵌入(word embeddings)已经在自然语言处理领域广泛使用,它可以让我们轻易地计算两个词语之间的语义相似性,或者找出与目标词语最相似的词语。然而,人们关注更多的是两个句子或者短文之间的相似度。如果你对代码感兴趣,文中附有讲解细节的Jupyter Notebook地址。以下是论智的编译。 许多NLP应用需要计算两段短文之间的相似性。例如,搜索引擎需要建模,估计一份文本与提问问题之间的关联度,其中涉及到的并不只是看文字是否有重叠。与之相似的,类似Quora之类的问答网站也有这项需求,他们需要判断某一问题是否之前已出现过。要判断这类的文本相似性,首先要对两个短文本进行embedding,然后计算二者之间的余弦相似度(cosine similarity)。尽管word2vec和GloVe等词嵌入已经成为寻找单词间语义相似度的标准方法,但是对于句子嵌入应如何被计算仍存在不同的声音。接下来,我们将回顾一下几种最常用的方法,并比较它们之间的性能。 数据 我们将在两个被广泛使用的数据集上测试所有相似度计算方法,同时还与人类的判断作对比。两个数据集分别是: STS基准收集了2012年至2017年国际语义评测SemEval中所有的英语数据 SICK数据库包含了10000对英语句子,其中的标签说明了它们之间的语义关联和逻辑关系 下面的表格是STS数据集中的几个例子。可以看到,两句话之间的语义关系通常非常微小。例如第四个例子: A man is playing a harp. A man is playing a keyboard.

文本相似度算法

1.信息检索中的重要发明TF-IDF 1.1TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则 (公式1.1-1) 为该关键词在这篇文章中的词频。 1.2IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式 (公式1.2-1) 计算而得,其中D为文章总数,Dw为关键词出现过的文章数。2.基于空间向量的余弦算法 2.1算法步骤 预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。 2.2步骤简介 2.2.1预处理 预处理主要是进行中文分词和去停用词,分词的开源代码有:ICTCLAS。 然后按照停用词表中的词语将语料中对文本内容识别意义不大但出

现频率很高的词、符号、标点及乱码等去掉。如“这,的,和,会,为”等词几乎出现在任何一篇中文文本中,但是它们对这个文本所表达的意思几乎没有任何贡献。使用停用词列表来剔除停用词的过程很简单,就是一个查询过程:对每一个词条,看其是否位于停用词列表中,如果是则将其从词条串中删除。 图2.2.1-1中文文本相似度算法预处理流程 2.2.2文本特征项选择与加权 过滤掉常用副词、助词等频度高的词之后,根据剩下词的频度确定若干关键词。频度计算参照TF公式。 加权是针对每个关键词对文本特征的体现效果大小不同而设置的机制,权值计算参照IDF公式。 2.2.3向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。

这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的缺点在于关键词之间的线性无关的假说前提),用向量来表示文本,从而简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备了可计算性。 在向量空间模型中,文本泛指各种机器可读的记录。 用D(Document)表示文本,特征项(Term,用t表示)指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,要求满足1<=k<=N。 下面是向量空间模型(特指权值向量空间)的解释。 假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为 D(a,b,c,d) 对于其它要与之比较的文本,也将遵从这个特征项顺序。对含有n 个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即 D=D(T1,W1;T2,W2;…,Tn,Wn) 简记为 D=D(W1,W2,…,Wn) 我们把它叫做文本D的权值向量表示,其中Wk是Tk的权重,

机器学习与概念语义空间生成

机器学习与概念语义空间生成 何清 史忠植 摘 要 本文综述了机器学习在文本信息处理中的应用,特别对概念语义空间生成中的机器学习技术进行了详细分析和阐述。概念语义空间是针对关键词检索过程中,由于检索词的差异造成的检索结果差异的问题而建立的支持相关概念的索引机制。文中分析了这一技术产生的背景,阐述了与概念语义空间密切相关的文本检索技术、搜索引擎技术的发展,以及在知识管理中的应用情况。最后指出了概念语义空间进一步发展的基础和发展的方向。 1 引言 随着计算机的发展和互联网的普及,对海量文本信息处理的需求越来越迫切。这使得机器学习技术在基于语料的文本信息处理中获得了快速发展。基于统计和经验的方法已经超出了传统机器学习的范畴,发展了一些独特的方法和技术。在过去十来年,统计学习方法改变了依靠手工建立语法和知识库以及文本目录索引的状况,通过对大量已标注的和未标注的自然语料的训练可以部分或全部自动地完成上述过程。但是自然语言处理中仍然存在许多尚未解决的问题,甚至是影响到自然语言处理的基础性的核心问题。在文本检索过程中如果只使用关键词匹配技术往往会遇到词汇不匹配。这是因为存在表达差异。关键词匹配检索模式往往基于这样一种基本假设:仅在一个文档含有与查询完全相同的词汇时,它们才相关。这种相关性匹配实际上是基于表层的匹配(Surface-Based Matching)。然而,人类的自然语言中,随着时间、地域、领域等因素的改变,同一概念可以用不同的语言表现形式来表达。因此即使对于同一概念的检索,不同的用户可能使用不同的关键词来查询。例如当用户查询“计算机”和“电脑”两个词的时候其实是在查询同一件事情。而基于表层的匹配不可能检索到同一概念的多种语言表达形式。因此,词汇不匹配将导致系统的查全率降低。姚天顺教授曾经举了一个用“红苹果”、“红的苹果”、“红色苹果”、“红色的苹果”在网上检索,结果存在巨大的数量差异的例子,说明自然语言处理和信息检索在技术上没能很好地融合[1]。这一问题的产生有很多方面的因素。从根本上说是目前机器对自然语言不能完全理解。具体到这个例子来说,就是缺乏对红苹果这一概念的语义表达。从目前技术状况来看,尽管我们付出了大量努力,但是要达到使计算机对自然语言完全理解这一目标差得还很远。对于解决上述问题在目前可能达到的目标也许只能是通过机器学习对原始语料中概念之间的语义关联进行挖掘,对这些语义关联给出合理的表示,从而产生一些常识性的概念语义。 2 概念语义空间产生的背景 所谓概念语义空间,就是对文本集建立的能反映文本集中概念之间语义关系的一个索引。这是为克服关键词检索过程中,由于检索词的差异造成的检索结果差异而建立的支持相关概念的索引机制。概念语义空间与文本检索、搜索引擎、知识管理密切相关,它是基于目前自然语言处理技术的进展状况而产生的。 2.1 机器学习与自然语言处理 统计方法在语音识别方面的成功[2],促进了类似方法在自然语言处理其他方面的应用。现在各种机器学习方法几乎都应用到了自然语言处理的不同方面,包括词法、句法分析[3]、歧义消除和理解[4]、会话过程和信息抽取[5]以及机器翻译[6]。然而,传统的人工智能中的机器学习对计算语言学的研究贡献有限。这是因为基于机器学习和基于经验的自然语言处理需要通过相互交流、相互促进才能发展。 现在自然语言处理中大多数机器学习的研究都借助了语音识别中特定的统计技术如:隐马尔科夫模型(Hidden Markov Models, HMMs)、概率上下文无关语法(Probabilistic Context Free Grammars, PCFGs)。其它各种学习算法包括决策树、规则归纳、神经网络、基于示例的方法、贝叶斯(Bayesian)网络方法、归

文本相似度算法

文本相似度算法 1.信息检索中的重要发明TF-IDF 1.1TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N 个该关键词,则 (公式1.1-1) 为该关键词在这篇文章中的词频。 1.2IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式 (公式1.2-1) 计算而得,其中D为文章总数,Dw为关键词出现过的文章数。 2.基于空间向量的余弦算法 2.1算法步骤 预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。 2.2步骤简介 2.2.1预处理 预处理主要是进行中文分词和去停用词,分词的开源代码有:ICTCLAS。 然后按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。如“这,的,和,会,为”等词几乎出现在任何一篇中文文本中,但是它们对这个文本所表达的意思几乎没有任何贡献。使用停用词列表来剔除停用词的过程很简单,就是一个查询过程:对每一个词条,看其是否位于停用词列表中,如果是则将其从词条串中删除。

图2.2.1-1中文文本相似度算法预处理流程 2.2.2文本特征项选择与加权 过滤掉常用副词、助词等频度高的词之后,根据剩下词的频度确定若干关键词。频度计算参照TF公式。 加权是针对每个关键词对文本特征的体现效果大小不同而设置的机制,权值计算参照IDF公式。 2.2.3向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。 这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的缺点在于关键词之间的线性无关的假说前提),用向量来表示文本,从而简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备了可计算性。 在向量空间模型中,文本泛指各种机器可读的记录。 用D(Document)表示文本,特征项(Term,用t表示)指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk 是特征项,要求满足1<=k<=N。 下面是向量空间模型(特指权值向量空间)的解释。 假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为 D(a,b,c,d) 对于其它要与之比较的文本,也将遵从这个特征项顺序。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即 D=D(T1,W1;T2,W2;…,Tn,Wn)

语义范畴及相关概念

语义范畴及相关概念 作者:高娟 来源:《现代交际》2013年第02期 [摘要]随着认知语言学和功能语言学的发展,语义范畴成为语言学者关注的对象。本文针对文章中与语义范畴相关概念如语法范畴、语义语法范畴、句法语义范畴等做了详细论述。 [关键词]语义范畴语法范畴语义语法范畴 [中图分类号]H14 [文献标识码]A [文章编号]1009-5349(2013)02-0065-02 一、范畴化与语言化 随着认知语言学的发展,与认知相关的语言现象越来越受到人们的关注。认知是人们主观经验对客体对象在人脑中的感知,这种感知认识即认知并非任意形成的,而是具有一定意义上的普遍性。它是与人类的主观经验密切联系的,建立在广泛认识基础上的主观感受。人们在认识世界的过程中,对客观世界中存在的客观事物或现象所具有的本质特征,会形成抽象概括的认识,这种思维能力我们称之为认知能力。人类要认识和把握世界,就需要对客观事物或现象所体现的本质特征进行分类,这个分门别类的过程就是范畴化。 认知范畴的语言化,即从认知世界投向语言世界,便形成各种各样的语义范畴。语义范畴是认知范畴的物质表现形式。认知范畴是存在于思维中的抽象概念,思维的东西不可能赤裸裸地存在,都需要借助一定的物质手段来表现才能使思维这一抽象的概念变为可以感知的。语言并非体现思维的唯一手段,动作、表情、神态等都可以成为表达抽象思维的物质手段,但是语言却是人们在交际活动中最常用的一种固定思维的手段。因而,认知范畴这一抽象思维活动的结果在语言中的投射,我们就称之为语义范畴。 二、语义范畴 在语言中,语义范畴是一个复杂的概念。有的称作语法范畴,有的称作语义语法范畴,还有的称作句法范畴,等等,这就需要我们弄清楚有关语义范畴的一些基本概念,以及它包含哪些内容?与语法范畴、语义语法范畴、句法范畴是何种关系? (一)语义范畴、语法范畴、语义语法范畴 我们之所以要区分语义范畴、语法范畴和语义语法范畴三个概念,一方面是在语言研究中不同学者采用的术语不同,容易使读者产生混淆。例如赵军在《现代汉语程度量及其表达形式研究》一文中使用了“语法·语义范畴”;李宇明在《程度与否定》中使用的是“语义·语法范畴”;胡明扬《语义语法范畴》、马庆株《语义语法范畴研究》、邵敬敏、赵春利《关于语义范畴的理论思考》、胡清国《否定观念和否定范畴》、文贞惠《现代汉语否定范畴研究》等文

文本相似度算法基本原理

1文本相似度算法基本原理 1.1文本相似度含义 文本相似度来自于相似度概念,相似度问题是一个最基本的问题,是信息科学中绕不过去的概念,在不同的应用方向其含义有所不同,但基本的内涵表示了一个信息结构与另外一个信息结构的一致程度,从某个角度研究时特征量之间的距离大小[10]。比如,在机器翻译方面是指词这个基本单位的可替代性,在信息检索方面是指检索结果与检索内容的一致性,在自动问答方面是指搜索的结果与输入的问题的匹配程度。这充分表明文本相似度研究和应用领域十分广泛,所表达的含义也十分不同。从本文研究的角度来看,文本相似度可以描述为:有A、B两个对象,二者之间的公共区域越多、共性越大,则相似程度越高;若二者没有关联关系,则相似程度低。在文本相似度研究方面,一个层次是研究文档中以篇章、句子、词语衡量相似程度,这不同层次衡量算法也不同,研究的标准和依据也不同,算法的复杂程度也不同。从这个意义上,可以运用在新闻领域对新闻稿件进行归档,按照新闻的领域分门别类的存放在一起;也可以运用在信息检索进行信息查询,作为一个文本与另一个文本之间相似程度测量的基本方法。 1.2文本相似度计算方法分类 当前研究文本相似度都是以计算机作为计算工具,即利用计算机算法对文本进行分类,在各个领域应用十分广泛,比如包括网页文本分类、数据智能挖掘、信息识别检索、自动问答系统、论文查重分析和机器自主学习等领域,其中起最关键作用的是文本相似度计算算法,在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。 特别是随着智能算法、深度学习的发展,文本相似度计算方法已经逐渐不再是基于关键词匹配的传统方法,而转向深度学习,目前结合向量表示的深度学习使用较多,因此度量文本相似度从方法论和算法设计全局的角度看,一是基于关键词匹配的传统方法,如N-gram相似度;二是将文本映射到向量空间,再利用余弦相似度等方法,三是运用机器学习算法的深度学习的方法,如基于用户点击数据的深度学习语义匹配模型DSSM,基于卷积神经网络的ConvNet和LSTM 等方法。 本文研究的重点是对电子作业检查等各类电子文档对比,在对两个电子文档是否相同,相似比例为多少这一问题探究中需要比较文档的相似度,而文档的相似度又可分成段落相似度、句子相似度来进行考虑,所以课题的关键是如何定义

浅议语义相似度计算

浅议语义相似度计算 摘要语义相似度研究的是两个词语的相似性,被广 泛应用于信息检索、信息提取、文本词义消歧、机器翻译等领域中。本文介绍几种主要的语义相似度计算方法,以供大 一^, 家参考。 关键词语义相似度词义相似度语义距离 、引言 自然语言的词语之间关系比较复杂,我们又时常要把这 种复杂关系进行比较,所以要将其转化为简单的数量关系,再进行比较。语音相似度计算正是这样的方法。 词语的语义相似度计算有3 种方法:基于知识体系的方 法、基于语料库的方法、基于网络的方法。基于知识体系的方法,大多以WordNet 作为基础。WordNet 是语义字典,它根据词条的意义将词语分组,每一个具有相同意义的字条组称为一个synset (同义词集合)。WordNet为每一个synset提 供了简短,概要的定义,并记录不同synset之间的语义关系。 它用概念之间的语义关系形成符合常识和语法的语义关系图。基于信息量的方法主要是通过词语上下文的信息,用统计的方法求解。基于网络的方法,主要是利用搜索引擎的搜索结果进行计算。 二、语义相似度概念

信息论中任何两个词语的相似度取决于它们的共性 Commonality )和个性( Differences )。公式如下: 其中,分子表示描述A,B 共性所需要的信息量;分母表 示完整地描述A,B 所需要的信息量。 刘群、李素建认为语义相似度就是两个词语在不同的上 文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。对于两个词语 W1,W2 如果记其相似度为Sim (W1 , W2),其词语距离为Dis (W1 , Wz),根 据刘群、李素建的公式: 其中a 是一个可变参数,含义是当相似度为0.5 时的词 语距离值。 相似度被定义为一个0到1 之间的实数,当两个词语完 全一样时,相似度为1 ;是完全不同的概念时,它们的相似度 接近于0。 三、语义相似度的计算方法常用计算方法有基于知识体系的计算,基 于大规模语料 库的计算,基于网络的计算。 一)根据分类体系计算词语语义距离的方法 这种方法也称为基于树的语义相似度计算方法,大体分 为两种:一是基于距离的语义相似性测度是基于信息内容

基于知网的语义相似度计算

基于《知网》的语义相似度计算 软件使用手册 1 功能简介 本软件是根据[刘群2002]一文中的原理编写的词汇语义相似度计算程序。 主要实现了以下功能: 1.1基于交互输入的义原查询、义原距离计算、义原相似度计算 1.2基于交互输入的词语义项查询、义项相似度计算、词语相似度计算; 1.3基于文件输入的词语义项查询、词语相似度计算; 1.4相似度计算中的参数调整。 2 安装说明 本软件包一共有四个文件: 《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册 《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf 格式,用Acrobat Reader阅读时需要安装简体中文支持包。 自然语言处理开放资源许可证.doc:本软件包的授权许可证 WordSimilarity.zip:程序文件 软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件: WordSimilarity.exe:可执行程序; Glossary.dat:《知网》数据文件 Semdict.dat:《知网》数据文件 Whole.dat:《知网》数据文件 必须确保《知网》数据文件在程序执行时的当前目录下。 3 界面说明 软件使用简单的对话框界面,如下所示:

4 功能说明 4.1义原操作 4.1.1 义原查询 1.首先在“输入1”框中输入义原名称; 2.点击“察看义原1”按钮; 3.在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;类似的方法可以查询“输入2”框中的义原; 4.1.2 义原距离计算 1.首先在“输入1”和“输入2”框中输入两个义原; 2.点击“计算义原距离”按钮; 3.在“输出”框中显示两个义原的距离;

文本相似度的设计与实现

文本相似度的设计与实现 摘要:本文主要设计并实现了一个文本相似度系统,该系统主要功能计算文档之间的相似度,通过使用向量空间模型(VSM, Vector Space Model)及余弦相似度计算公式计算文档之间的相似度,数据预处理过程中加入word2vec模型进行语义扩充,从而能够匹配到更多相关文档。 1.向量空间模型 向量空间模型(VSM, Vector Space Model)由Salton等人于20世纪70年代年提出[1,2]。向量空间模型的主要思想是将文本内容的处理简化为向量空间中的向量运算,这样将空间上的相似度转化为语义上的相似度。当文档被表示为文档空间的向量时,便可通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。 向量空间模型的基本思想: 给定一篇文档D=D(T1,T2,…T i,…,T n),若T i在文档中既可以重复出现又存在先后次序,因此分析起来会较为困难。针对上述情况,暂不考虑T i的顺序,并要求T i互异,此时可将T1,T2,…T i,…,T n看作n维坐标,每一维对应相应值W i,因此D(W1,W2,…,W i,…,W n)便可以看作一个n维向量。 例如:有一篇文档D={大家好,才是真的好},首先进行分词后转换为D={大家/好/才是/真的/好},之后提取出公因词D={大家,好,才是,真的},最后通过向量空间模型将文档转换为对应的向量D={1,2,1,1}。 向量空间模型只是将文档转换为方便计算的格式,若进行相似度计算,还需使用相似度计算公式进行计算。本文使用余弦相似度计算公式。 2.余弦相似度 余弦相似度计算公式广泛应用于文本数据之间的相似度计算过程中。其数学表达如下: 计算过程如下: 例如,有2个文档D1={大家好},D2={才是真的好},首先将D1、D2分词后,D1={大家/好},D2={才是/真的/好},其次提取出公因词D={大家,好,才是,真的},然后通过向量空间模型转换成向量表达,D1={1,1,0,0},D2={0,1,1,1},最后进行相似度计算 Score== 3.文本相似度系统 本文主要使用向量空间模型及余弦相似度距离公式进行文本相似度计算任务,系统的基本架构如下图1所示:

语义

一词多义(polysemy)作为语言中较为普遍的现象,指的是一个单一的语言形式具有两种或两种以 上密切相关的意义聚合的语言现象(Lyons, 1995)。英语也不例外,翻开词典,我们很容易发现大多数单 词都不止一个意义,有的英语单词甚至有几十个意义。这对于英语学习者来说,无疑是一种负担,有时 会是一种难以克服的困难。作为外语教师,如何帮助学生看透这种多义迷雾,揭开词语多义的本质,有 着极为重要的现实意义。 在现今的语言学领域,不少国外学者对多义性做出了很有意义的探索研究。他们运用认知语言学 中的理论解释涉及语言系统各层次的多义现象。就目前的研究成果而言,主要集中在词汇和句式层面。 国内学者对多义性的研究主要涉及多义词的认知理据、词汇习得及外语教学。 本文尝试从认知心理学家罗施(Rosch, 1975)提出的原型范畴理论(prototype theory)出发对多义词 汇语义延伸进行认知分析,探究多义词汇语义扩展的方式,揭示其深层的认知机制,以期给多义词汇教 学提供一些有益启示。 一、原型范畴理论的提出及其特征 原型范畴理论(prototype theory)产生于当代语言学界和哲学界对亚里士多德经典范畴学说(classi-cal category)的批判。经典范畴理论的基本假设是:范畴是由一组充分必要条件决定的;范畴的边界是清晰的;范畴所有成员的地位均平等。20世纪50年代,维特根斯坦(W ittgenstein, 1953)对游戏game范畴进行了研究,他认为在游戏game范畴中没有各种游戏的共同特征(common property),范畴成员之间具有一定的相似性,其相似性就像一个家族的成员之间在体形、相貌、眼睛的颜色、步姿、性情等等一样以类似的方式互相重叠和交叉,由此维特根斯坦提出了著名的家族相似性理论(family resemblelance)。20世纪60年代至70年代初,人类学家伯林和凯(Berlin&Kay, 1969)对颜色范畴进行了研究。他们调查了98种语言,发现了基本颜色范畴和焦点色现象。他们认为,颜色的范畴并不是任意的,而是以“焦点色”为基础的。由此说明虽然人们使用的语言不同,但对最典型的颜色的认知却是一致的,具有普遍性。到了70年代,罗施(Rosch, 1975)对焦点色的心理背景进行了探索,证明焦点色是源于前语言认知(pre-linguisticcognition),焦点色在感知和记忆中是突显的,比其他颜色辨认得更准确,学习和回忆得最快,因而更有利于识别和分类。之后罗施从对颜色焦点色的研究扩展到其他物体的研究。她在对其他鸟、水果、交通工具、蔬菜等10个自然范畴进行实验研究的基础上提出了“原型范畴理论”(prototype theory)。 原型范畴理论具有以下特征: (1)决定范畴的属性及数目是不确定的,相对于人的认知需要有所变 化; (2)特征也有中心的、重要的区别属性和边缘的、非重要的属性之分,其中心属性有更大的区别性, 其边缘属性与临近范畴属性交叉; (3)范畴成员之间具有互相重叠的属性组合,即所有成员享有部分共 同属性,形成家族相似性; (4)成员之间的地位不是平等的,具有中心成员和边缘成员之分,具有更多共

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算1 刘群??李素建? {liuqun,lisujian}@https://www.360docs.net/doc/684773441.html, ?中国科学院计算技术研究所 ?北京大学计算语言学研究所 摘要: 《知网》是一部比较详尽的语义知识词典。在基于实例的机器翻译中,词语相似度计算是一个重要的环节。不过,由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。这一点与WordNet和《同义词词林》不同。在WordNet和《同义词词林》中,所有同类的语义项(WordNet的synset或《同义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。而在《知网》中词语相似度的计算存在以下问题: 1.每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,%tool|用具,body|身,“写信”一词的语义描述为: #TakePicture|拍摄write|写,ContentProduct=letter|信件; 2.词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。 我们的工作主要包括: 1.研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用; 2.提出利用《知网》进行词语相似度计算的算法; 3.通过实验验证该算法的有效性,并与其他算法进行比较。 关键词:《知网》词汇语义相似度计算自然语言处理 1 引言 在基于实例的机器翻译中,词语相似度的计算有着重要的作用。例如要翻译“张三写的小说”这个短语,通过语料库检索得到译例: 1)李四写的小说/the novel written by Li Si 2)去年写的小说/the novel written last year 通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这个实例进行类比翻译,就可以得到正确的译文: the novel written by Zhang San 1本项研究受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。

语义相似度的计算方法研究

语义相似度的计算方法研究 信息与计算科学余牛指导教师:冉延平 摘要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.本文介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.关键词语义相似度;语义距离;知网;语料库 The Reseach of Computing Methods about Semantic Similarity YU Niu (Department of Mathematics and Statistics,Tianshui Normal University , 741000) Abstract Semantic similarity is broadly used in many applications such as information retrieval, information extraction, text classification, word sense disambiguation, example-based machine translation and so on.Especially with the rapid development of Internet technology in recent decades, Calculation of semantic similarity has always been an important part of natural language processing and information retrieval research .This paper introduces several main methods of calculating semantic similarity , then two strategies of semantic similarity measurement are summarized, and we focuse on the Hownet based on the stucture of tree and use them to calculate the semantic similarity ,and finally the two strategies are easily compared . Key words Semantic similarity, Semantic distance,Hownet, Corpus

网络新词的概念合成语义分析

网络新词的概念合成新创语义分析 摘要:随着网络的发展和普及,网络用语也随之发展起来。近年来无数网络新词开始突破网络媒体的使用语域,迅速向电视、广播、报纸等媒体的使用语域扩展。而这些网络新词之所以能以如此迅猛之势遍及我们日常生活的每一个角落,必有其可取之义。本文从概念合成理论的视角对现如今所流行的网络新词进行新创语义分析。 一、引言 随着网络技术的不断发展,网络新词越来越年轻化、口语化,各种新颖的表达方式层出不穷,病毒式的传播也让网络新词的威力越来越大,一个网络新词可以在24小时内蔓延到互联网的每一个角落,并迅速为人们所吸纳,成为新一轮的口头用语。本文运用概念合成理论对这类网络新词进行简要的语义分析。从20世纪80年代中期到90年代中期,Fauconnier及其认知语言学研究中心的同事们大大地发展和完善了其关于语言的认知理论,将心里空间理论发展到了概念合成理论。 二、网络新词 网络新词指“网络用语”,即多在网络上流行的非正式语言,多为谐音、错字改成,也有象形字词。网络新词负载了部分文化积淀的信息,同时又能及时的反映社会的变化,是语言发展的风向标。它们通常源于某一社会公共事件,经影视或网络等媒体的传播而被大众所认可和接受成为一种惯用说法。网络新词的传播途径不同于报纸、杂志等平面媒体,它改变了传统单一视觉、单一维度的信息传递方式。电

视和互联网等手段使得新词的衍生速度快,词性简洁生动而备受大众的青睐,认可度不断提高,并日益融入人们生活中。如近些年来我们常说的“拍砖”“坑爹”“蜗居”“软瘾”“僵尸粉”等等,这些词之所以能够为人们所接受,必有其可取之义。 三、概念合成理论概述 概念合成网络由两个输入空间和合成空间组成,它们彼此联系,相互作用产生层创结构;输入空间的对应联系由跨空间映射完成,其结构被选择性地投射到合成空间。合成空间通过组合、完善和扩展而不断发展,并可能逆向投射到推理与其他结构的输入。Fauconnier构建这个的概念合成网络是一个比较完整的理论框架,不但可以理解隐喻和类比现象,还可以解释大量的语言现象和意义建构的过程:虚拟事实、范畴扩展、事件整合、语法结构、概念变化、文学与修辞创新等。在Fauconnier看来,繁纷复杂的语言运用背后的认知冰山的基本认知过程—概念合成,是个核心的、有序的、强有力的、基础的、系统的、必不可少的,普遍的认知运作过程。第二代认知理论发展的成果“概念合成”理论所揭示的形式和意义的关系,对意义构建和理解具有普遍性的指导意义。在新意义的构建中,合成理论解释性更强,适用范围更广。 四、网络新词新创意义的概念合成理论阐释 形式是一样的载体,语言形式的变化反映人类头脑中“概念”的更迭。任何一种表达形式都涉及从语言单位到概念单位的过程,或有从概念单位到语言单位的过程。一般的合成是两个不同输入空间的输入

深度学习解决 NLP 问题:语义相似度计算

导语 在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM 等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。 0. 提纲 1. 背景 2. DSSM 3. CNN-DSSM 4. LSTM-DSSM 5. 后记 6. 引用 1. 背景 以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现在两个方面:召回和排序。

在召回时,传统的文本相似性如BM25,无法有效发现语义类query-Doc 结果对,如"从北京到上海的机票"与"携程网"的相似性、"快递软件"与"菜鸟裹裹"的相似性。 在排序时,一些细微的语言变化往往带来巨大的语义变化,如"小宝宝生病怎么办"和"狗宝宝生病怎么办"、"深度学习"和"学习深度"。 DSSM(Deep Structured Semantic Models)为计算语义相似度提供了一种思路。 本文的最后,笔者结合自身业务,对DSSM 的使用场景做了一些总结,不是所有的业务都适合用DSSM。 2. DSSM DSSM [1](Deep Structured Semantic Models)的原理很简单,通过搜索引擎里Query 和Title 的海量的点击曝光日志,用DNN 把Query 和Title 表达为低纬语义向量,并通过cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。 DSSM 从下往上可以分为三层结构:输入层、表示层、匹配层

概念与文档的语义相似度计算

ComputerEngineeringandApplications计算机工程与应用2008,44(35)163 概念与文档的语义相似度计算 宋玲-,郭家义2,张冬梅-,汤晓兵I,高楠I SONGLingI,GUOJia—yi2,ZHANGDong—meiI,TANGXiao-bingI,GAONanl 1.山东建筑大学计算机科学与技术学院,济南250101 2.北京市信息资源管理中心,北京100082 1.SchoolofComputerScience&Technology,ShandongJianzhuUniversity,Jinan250101,China 2.BeijingInformationResourceManagementCenter,Beijing100082,China E-mail:song_ling@sdjzu.edu.cn SONGLing.GUOJia-34,ZHANGDong-mei,eta1.Semanticsimilaritycomputationofconceptsanddocuments.ComputerEngineeringandApplications,2008。44(35):163-167. Abstract:Anovelmethodthatintegratescoreontologyasbackgroundknowledgeintotheprocessofcomputingsimilarityofconceptsanddocumentsisproposed.Ontologyisrepresented鹪agraph-basedmodelthatreflectssemanticrelationshipbetweenconcepts.withwhichaconceptandadocumentareextendedtoasemanticfuzzyset.Thenfuzzysimilarity betweentwohl=ysetsiscomputed.Documentscomparisonisbasedonconceptscomparison.Asemanticsimilaritymatrixthatexploitssemanticrelationoftheontologyisdefined,andfuzzysimilaritymeagurebasedOnsharedinformationcontentisproposedintheprocessingofcon—eeptscomparison. Keywords:conceptsimilarity;documentsimilarity;ontology;documentsclustering 摘要:将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。 关键词:概念相似度;文档相似度;本体;文档聚类 DOI:lO.3778/j.issn.1002—8331.2008.35.049文章编号:1002—8331(2008)35—0163—05文献标识码:A中图分类号:TP39 l引言 相似度在许多领域如信息检索、文档分类和聚类、推荐系统、问答系统领域都起着非常重要的作用。例如,在信息检索中,用户提供关键讧J进行查询,传统的枪索技术一般基于关键词匹配,往往存在查准率、查伞率较低的|.uJ题,然而用户实际上需要的是概念上的语义匹配,而不仅仅是关键词匹配。文档聚类作为一种无监督的机器学习方法,是将文档集合中的文档聚成—些有意义的簇。方便用户导航和浏览.是数据挖掘和知让泼现中的—个很活跃的研究领域。聚类算法很多,这些算法—般来说,可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法(如神经网络方法模型),这些算法中均涉及到的—个关键I’UJ题是文档相似度的比较,因为文档聚类主要是依据聚类假设理论:同类的文档相似度较大,而不同类的文档相似度较小。文档相似度一般采用“向量空I、甘J模型+余弦相似度”的模式来进行计算,即在向量空I’日J模型(VectorSpaceModel)中,将一个文档面描述为关于特征词的一个向量((t,,毗。),(t:,%),…,(£。,蚋。)),每个特征词被认为是文档的—个潜在的属性,采用统计的方法计算特征词t。在d,中的权重ttJ。然后通过余弦函数等相似度汁算公式计算文档4,4之间的相似度: 基金项n:山东建筑大学本科生研究实践(SRP)计划项目。 收稿口期:2007—12—19修同日期:2008-03—31 ℃ 。加(4。巩):曼?虹:童!!!!!:竺(1) ”‘吲地I\侉×\/矗 然而一种好的文档相似度方法应反映文档中潜在的语义,并揭示隐藏在不I可特征词后面的相同概念语义,但是余弦相似度方法要求特征i司之间的语义关系必须是独立的,互不相交的,忽略了基于语义层次的概念之fbJ的语义关系,因此在计算文档的语义相似度方面存在欠缺。 本体以一种形式化的方法描述受控词表中概念以及概念之问的关系,通过特定的语法来描述—个特定领域中的语义,是共享概念模型的明确的形式化规范说明。所以本体为信息检索和文档文分类和聚类提供了语义关系和知识背景。概念作为描述信息最小的规范单位,它是信息资源匹配的基础,因此基于本体的概念之l’日J语义相似度计算以及在此基础上的文档之间的语义相似度的计算非常重要。 下面首先给出本体模型,以便在此基础上从语义层次角度计算语义相似度。研究者们在本体模型之下定义了—个框架系统,本文对OKBC(OvenKnowledgeBaseConnectivity)知识模  万方数据

语义学重要概念整理

Reference: the relationship by which language hooks onto the world. Words also derive their position within the language system. The concrete entities having these properties. Sense: the semantic links between elements within the vocabulary system is an aspect of their sense, or meaning. The abstract property of an entity Utterance: an utterance is created by speaking (or writing), a piece of language. ~are real pieces of speech. Concept: something is abstract, which has no existence in the material world and can only be sensed in our mind. Sentence: are abstract grammatical elements obtained from utterance. By filtering out certain types of information, we can get to abstract grammatical elements, sentence. Proposition s: one further step of abstraction is possible purpose: to identify propositions. In trying to establish rules of valid deduction, logicians discovered that certain elements of grammatical information in sentence were irrelevant. By going on to filter out certain types of grammatical information, we can get to propositions, which are descriptions of states of affaires and which some writers see as a basic element of sentence meaning. Types of reference: referring& non referring expressions : constant& variable reference:I You, Eiffel Tower referents & extensions Denotational approach: emphasizes the links between language and external reality Representationa l: emphasizes the links between language and the conceprual structure. Language of though t: mental process not involving language is often used to argue that cognitive process do not employ a spoken language but makes sense of a separate computational system in the mind. Homonymy: are unrelated senses of the same phonological word.. we can distinguish different types depending on their syntactic behavior and spelling.不同源 Polysemy: Polysemous are judged to be related and listed under the same lexical entry.(HOOK) Opposites:simple~,(dead, alive); gradable~(hot); reverse~(right0left); converse~(above below); taxonomic sisters(red, blue) Hyponymy; inclusion. A hyponym includes the meaning of a more general word (dog& cat_animal) Meronymy; part-whole relationships between lexical items(cover&page~~book) DERIVATIO NAL verbs: Causative verbs: KILL Agentive nouns: V+er\or Entailment, he killed the king. The king died.hyponymy I bought a dog, I bought an animal. Presupposition: to presuppose something means to assume it..例合适husband is a fool. She has a husband.B是A的条件 Situation types: is a label for the typology of situations encoded in semantics of language. semantic distinctions like static: view a situation as a steady state (love,know)& dynamic(walk),-------durative(sleep)& punctual(cough, knock), telic(bounded,have a natural completion)& atelic(unbounded) allows a basic classification of situations into(states. Activities and accomplishments) inchoatives(are progresses where or attention is directed to the beginning of a new state,or to a change of state# the ice melted)& resultatives(have a final point of completion# Bill baked a cake) (A) STATE; desire, want ,love hate (B)ACTIVITIES(unbounded process): run, walk (B) ACCOPLISHMENT(bounded):walk to school (D)ACHIEVEMNT recognize, stop (E)SEMELFACTIVES the gate banged. Modality& Evidentiality: allows the speaker to assume various attitudes towards a proposition. Modality is a cover term for devices which allow speakers to express varing degree of commitment to, or belief in, a proposition. EPISTEMIC modality reflects various judgements of factuality and DEONTIC modality communicates judgements of moral and legal obligation. Both can be seen as implying a

相关文档
最新文档