基于主题模型的百科知识库实体对齐

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

优先出版
刘振鹏,等:基于主题模型的百科知识库实体对齐
第 36 卷第 11 期
结合, 实现了实体对齐; 文献[15]提出一种半监督协同训练的实 体对齐方法,结合实体名称、属性、描述文本及其中的时间、 数值等关键的信息进行实体对齐;文献[16]提出一种独立于本 体模式的基于属性语义特征的实体对齐方法,采用的仍然是实 体的属性信息。然而这样的方法对于匮乏属性信息的实体则不 适用,尤其对于中文网络百科,不同网络百科的相同属性的名 称甚至属性信息出现了很多不一致的情况,例如众所周知的百 度百科和互动百科这两个国内规模较大的网络百科网站, 在 “英 文名”这一属性项目中,百度百科采用的是“外文名”,而互 动百科采用的则是“英文名”;而对于歌手“张杰”这一公众 人物的“别名”这一属性项,百度百科采用的的是“杰哥”, 而互动百科采用的是“张小杰”,这种现象对于采用属性信息 进行实体对齐无疑是增加了一定的难度,在这个过程中首先要 考虑的就是对于属性的名称进行统一,若无法保证属性对齐的 准确率,则对于最后的结果有很大的影响,并且通过研究,对 于中文网络百科而言,属性信息在处理不当的情况下会产生不 良效果,并且加大了实体对齐的工作量。因此,百科知识库中 包含的大量实体摘要信息和描述性文本可以被有效利用,如何 只利用实体的非结构化文本构造出可以有效的进行实体对齐的 实体特征是本文所面对的问题。 为了有效的利用实体非结构化文本,本文提出了基于主题 模型的百科知识库实体对齐算法,该算法利用 LDA 模型对网 络百科实体的文本信息进行主题建模,使用改进的 BP 算法求 解模型中的隐藏参数, 进而完成实体对齐任务。 经过实验证明, 所提方法能够有效的提高实体对齐的准确率,对具有描述性文 本的实体进行实体对齐有很好的通用性。 a) 本文主要工作如下: 有效的利用百科实体的非结构化数 据, 使用 LDA 模型得到文本中潜在的语义信息, 提出一种广泛 适用于具备描述信息的百科实体对齐算法;b) 在推断 LDA 模型 隐藏参数的时候,提出改进的 BP 算法对模型参数进行估计;c) 获取百度百科和中文维基百科数据进行实验验证,与同类相似 算法进行对比,并对算法的有效性进行分析。
—————————— 收稿日期:2018-05-24;修回日期:2018-07-09
[8]
基金项目:河北省自然科学基金资助项目(2015201142)
作者简介:刘振鹏(1966-),男,河北安国人,教授,博士,主要研究方向为大数据、网络信息安全、自然语言处理;贺梦洁(1992-),女,硕士研究生, 主要研究方向为大数据、自然语言处理; 张彬 (1980-) , 男 (通信作者) , 高级工程师, 硕士研究生, 主要研究方向为网络安全 (zb@hbu.edu.cn) ; 董静 (1992-) , 女,硕士研究生,主要研究方向为大数据、自然语言处理;徐建民(1966-),男,教授,博导,主要研究方向为信息检索、不确定信息处理.
0
引言
近十几年,互联网产生了越来越多的大规模知识库,例如
国外具有代表性的知识库 FreeBase[1],DBpedia[2],维基百科本 体知识库(yet another great ontology,YAGO[3] )和 Omega[4] 等;
在我国,著名知识库有百度知心,搜狗知立方及清华大学双语 知识库 XLore[5]。知识库在知识图谱[6], 信息融合及智能语义问 答[7]等自然语言处理和人工智能领域均有重要的意义。中文知 识库构建中,可用的完备数据资源比较少,在获取完整的知识 的过程中,需要将不同知识库里的知识数据进行集成、整合和 复用,实体对齐作为知识融合的重要方法对知识库的构建和扩 充产生着重要的作用。 实体 (entity)是指客观存在并且可以进行区别的事物, 包括具体的人, 事, 物, 抽象的概念或关系等。 实体对齐 (entity
基于主题模型的百科知识库实体对齐 ———————————————————————————————————————————————— 引用格式 刘振鹏 , 贺梦洁 , 张彬 , 董静 , 徐建民 . 基于主题模型的百科知识库实体对齐 [J/OL]. 2019, 36(11). [2018-08-10]. http://www.arocmag.com/article/02-2019-11-030.html.
方框代表重复,方框里的下标是重复的次数。 和 分别表示 两个分布 d 和 k 的先验参数,在本文及实验当中 和 取值 均为 0.1; wn 表示文档中的某个单词, Z n 表示文档中某个单词
wn 的主题, K 表示主题的总个数, N 表示文档中词的个ቤተ መጻሕፍቲ ባይዱ, D表
示文档篇数。图 1 中 LDA 图模型是从文档生成的角度对该模 型进行介绍,也就是单词 wn 被选择出来的过程。 该模型将文本生成的步骤简化为概率采样的步骤,将文档 表示为多个主题的概率混合即“文档—主题”概率矩阵 d ,而 主题又可以由不同的单词构成, 即 “主题—单词” 概率矩阵 k , 因此要生成一篇文章,先是对主题进行采样,从而得到了该主 题下的单词集合,进行迭代抽取多个单词,从而得到完整的文 章。 针对本文所涉及的算法,需要对模型中出现的两个参数 d 和 k 进行参数估计,从而进行实体对齐实验。目前主流的参数 估计方法有三种,变分贝叶斯(variational Bayesian,VB),吉 GS) 布斯采样 (Gibbs Sampling, 和置信传播 (Belief Propagation , BP),虽然变分贝叶斯算法和吉布斯采样在近似推理方面取得 了不小的进展,基于 BP 算法在学习速度和准确率的方面均有 很强的竞争力,本文所提算法中采用经典的神经网络置信传播 (belief propagation,BP)算法并对其进行优化。 1.2 置信传播算法 BP 算法是由 Pearl[18]提出的一种推断图模型参数的信息传 递算法, 是一种有效求解条件边缘概率的方法,Zeng 等人[19]在 2011 年将该算法应用到求解 LDA 模型隐藏变量,即求解 d 和
模型对网络百科非结构化数据进行建模,采用改进的 BP 算法求解 LDA 模型中的隐藏参数,进而生成实体特征向量进 行相似度计算,通过计算结果判断是否可以对齐。实验结果表明,通过与三种传统的算法进行比较,所提算法在准确 率、召回率和综合指标 F 值三个评价指标均有所提高。针对具有描述信息的网络百科实体,该算法可以有效提升实体 对齐效果。 关键词:实体对齐;LDA 模型;BP 算法;知识融合 中图分类号:TP391 doi: 10.3969/j.issn.1001-3695.2018.05.0305
第 36 卷第 11 期 优先出版
计算机应用研究 Application Research of Computers
Vol. 36 No. 11 Online Publication
基于主题模型的百科知识库实体对齐
刘振鹏 a, b,贺梦洁 a,张 彬 b,董
*
静 a,徐建民 c
(河北大学 a. 电子信息工程学院; b. 信息技术中心; c. 网络空间安全与计算机学院, 河北 保定 071002) 摘 要: 针对传统实体对齐的方法无法体现潜在语义信息的问题, 对其进行优化, 使实体对齐效果更加显著。 使用 LDA
————————————————————————————————————————————————
基于主题模型的百科知识库实体对齐
作者 机构 刘振鹏,贺梦洁,张彬,董静,徐建民 河北大学 电子信息工程学院; 河北大学 信息技术中心; 河北大学 网络空间安全与计算机学 院 DOI 基金项目 预排期卷 摘要 10.3969/j.issn.1001-3695.2018.05.0305 河北省自然科学基金资助项目(2015201142) 《计算机应用研究》 2019 年第 36 卷第 11 期 针对传统实体对齐的方法无法体现潜在语义信息的问题,对其进行优化,使实体对齐效果更 加显著。使用 LDA 模型对网络百科非结构化数据进行建模,采用改进的 BP 算法求解 LDA 模 型中的隐藏参数, 进而生成实体特征向量进行相似度计算, 通过计算结果判断是否可以对齐。 实验结果表明,通过与三种传统的算法进行比较,所提算法在准确率、召回率和综合指标 F 值三个评价指标均有所提高。针对具有描述信息的网络百科实体,该算法可以有效提升实体 对齐效果。 关键词 作者简介 实体对齐;LDA 模型;BP 算法;知识融合 刘振鹏(1966-) ,男,河北安国人,教授,博士,主要研究方向为大数据、网络信息安全、自 然语言处理;贺梦洁(1992-) ,女,硕士研究生,主要研究方向为大数据、自然语言处理;张 彬( 1980- ) ,男(通信作者) ,高级工程师,硕士研究生,主要研究方向为网络安全 (zb@hbu.edu.cn) ;董静(1992-) ,女,硕士研究生,主要研究方向为大数据、自然语言处 理;徐建民(1966-) ,男,教授,博导,主要研究方向为信息检索、不确定信息处理. 中图分类号 访问地址 投稿日期 修回日期 发布日期 TP391 http://www.arocmag.com/article/02-2019-11-030.html 2018 年 5 月 24 日 2018 年 7 月 9 日 2018 年 8 月 10 日
Entity alignment for encyclopedia knowledge base based on topic model
Liu Zhenpenga, b, He Mengjiea, Zhang Binb, Dong Jinga, Xu Jianminc
(a. School of Electronic Information Engineering, b. Information Technology Center, c. School of Cyber Security & Computer Hebei University, Baoding Hebei 071002, China) Abstract: Aiming at the problem that traditional entity alignment method could not reflect latent semantic information, it was optimized, making the effect of entity alignment more significant. Using the LDA model to model the unstructured data of the network encyclopedia, and with the improved BP algorithm to solve the hidden parameters of LDA model, in turn, generate entity eigenvectors to perform similarity calculation, finally, through calculation results can determine whether alignment. The results showed that, through comparing with three kinds of traditional algorithms, the algorithm which proposed in this paper have increased the three evaluation index that above Precision, Recall and F-score. Aiming at the network encyclopedia entity with description information, the algorithm can effectively improve the entity alignment effect. Key words: entity alignment; LDA model; BP algorithm; knowledge fusion alignment) , 也可被称为是实体链接[9], 其目的是判断不同数据 源[10]中的两个实体是否指向现实世界中的同一对象。 目前,实体对齐方法的研究主要有基于网络本体语义 [11] (Web ontology language,OWL),基于规则分析,基于相似度 理论判定三种。针对中文网络百科,它本身不具有完备的本体 信息,因此,它很难通过 OWL 语义进行对齐;并且网络百科 当中包含的实体领域众多,若通过建立规则进行对齐,不同的 领域要建立不同的规则,这类方法又不具有通用性;使用比较 广泛的是基于相似度理论进行判定,通常,这一类的方法通过 对属性值赋予权重[12],然后通过计算不同实体的同一属性的相 似度进行实体对齐,近几年由于主题模型的盛行也出现了应用 主题模型对实体的描述性文本进行建模,之后运用相似度进行 实体对齐的方法。文献[13,14]利用 RDFS 词表对属性进行规范 化之后,利用属性相似度和描述性文本的主题特征相似度进行
相关文档
最新文档