社交媒体知识图谱构建和知识推理的关键技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社交媒体知识图谱构建和知识推理的关键技术研究
作者:陈学楷谭策刘湉吴正己
来源:《科学导报·学术》2020年第18期
摘 ;要:随着社交媒体的发展,网络平台的言论逐渐趋于个体化,因此准确识别一个人对某话题的言论是否有夸大或偏激的成分便显得尤为重要。传统的社交媒体情感分析依靠词袋模型来表现言论积极或消极的态度,这样的方法往往会因每个人的用词习惯的不同而变得有失偏颇。对某人话语是否偏激的推理主要依靠对每个个体长期以来的用词习惯来进行判断。因此,本文提出了基于知识图谱和PageRank联合的偏颇性预测模型,为每个词定义了偏颇性分数,对判断言论是否存在一定的水分提供了重要依据。实验结果表明,文本的偏颇性得分在一定程度上确实可以判断用户的语言表达偏颇情况。
关键词:知识图谱PageRank偏颇性分析情感推理
1.引言:
相对于电视广播、纸质报刊这类传统媒体来说,互联网无论从影响力还是舆论动员力方面都比传统媒体更加有力,然而社交媒体上的言论往往因为其庞大的信息量以及用户言论的片面性使得信息的水分过高,因此需要良好的识别系统来加以判定和筛选。而知识图谱在自然语言处理方面的角色更像是一个数据库,提供着记忆信息、提供信息的功能。构建完善的知识图谱有利于发现词与词之间人们有时意识不到的数值关系,从而在自然语言处理中发挥重要作用。本次实验就是围绕知识图谱的构建方法开始的。
2.相关研究
从技术层面来看,知识图谱构建技术在本质上要解决的问题是数据之间潜在关系的预测和知识之间关系推理。学术组织很早就关注了知识图谱相关技术的研究。1989年,第一届国际知识表示和推理国际会议(The First International Conference on Principles of Knowledge Representation and Reasoning)的召开,推动了知识表示和推理理论和技术的研究。2012年,谷歌公司发布了基于语义搜索的项目Knowledge Graph,使得万维网由基于数据链接的网络逐步进化为链接知识的网络。
知识图谱推理是根据已知的实体之间关系推测实体之间的潜在关系,从而给知识图谱增加新的事实。PageRank是一种基于图模型的结点重要性排序方法,通常在搜索引擎中对网页链接的重要性权衡中发挥着很大的作用。本文将使用PageRank算法的变形对生成的知识图谱进行知识推理,并尝试用推理后构建出的图谱来预测文本的情感特征,检验推理图谱的可靠性。
情感分析的方法主要可分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。基于情感词典的情感分析是从待测文本中提取特征词后,在情感词典中查找该特征词的情感值,根据累加的情感值进行情感分类的方法[2]。在情感词典的选择上,一般有两种方式:一种是引用已有的情感词典,如HowNet词典、SentiWordNet、Inquirers等;另一种是通过研究数据自行构建词典,如R.Feldman等学者在已有的情感词典基础上,利用部分人工标注和Bootstrapping的方式提取情感词[1]。由于美国最早的社交媒体情感分析就是基于Twitter的社交媒体数据开展的,因此本文将采用针对Twitter平台已有的且准确率较高的情感分析词典SentiWordNet进行知识推理和话语的偏颇性判别。
3.正文
3.1实验准备
3.1.1实验数据集
本实验采用情感词典SentiWordNet_3.0.0来进行文本中词语积极性和消极性的匹配和提取,应用于Twitter用户名为METGALA、archie、best dressed三人的推文中来生成用户主体依赖的知识图谱。
下载链接:
推文:https:///download/zzhaier/6640081
情感词典:https:///download/zzhaier/6640081
3.1.2评价标准
由于句子的情感表述无法通过准确率召回率等指标进行定量衡量,因此我们对最终的结果进行了人工评价,具体例子可以在3.2.3的部分看到。
3.2实验过程
本篇文章大体步骤可分为三个部分,首先依据情感词典和Twitter中用戶的话语来构建词与词之间的情感关系,生成一个两种极性词语全连接的庞大的双向图网络。其次改进
PageRank算法利用词之间的双向关系计算每个词正向和逆向的偏颇值,给每个结点重新赋值。最后用新的推理图谱,以词语偏颇性代数和的结果判断话语是否偏颇或过激。
3.2.1知识图谱构建
现代知识图谱通常使用W3C Resource Description Framework(RDF)[Cyganiak et al.,2014]这一用于存储实体及其关系的基于图的数据模型,标准RDF以三元组(subject,predicate,object)(SPO)来表示事实。在本篇论文中,我们将predicate视作一种相关性的表示,这种相关性用权重值Weight来表示,Weight的值越大,subject与object的情感对立性越强,反之则越弱,最终用三元组(subject,Weight,object)来表示。假设我们用符号L表示某一篇推文,li表示隶属于L的每一个句子,对于句中任意的两个词Si和Ti,他们之间的Weight计算公式可如下表示:
其中,若Si与Ti同为积极性词或同为消极性词,则二者之间的Weight将较小,即对立性弱,反之若Si和Ti为不同类情感,则二者Weight较大,对立性强。
依照用户话语生成用三元组表示的图模型,用所有Weight的平均值为界限,将值较大的表示为红色,较小的表示为绿色,线条越粗表示距均值越远,用可视化图片表示出来如下:
以使用频率较高的love一词举例,该用户使用的与love对立性最强的词是never,最弱的词(也是情感较为相近的词)是honored。
3.2.2知识推理
目前,我们已经生成了一个词汇网络,下一步就是给每个节点的词重新赋值。首先我们以Weight的均值为中心点对Weight进行了数据规约。而后,根据PageRank的图理论原理,我们对每个结点的值采用如下计算方法:
其中,Bu表示所有结点的集合,w+(i,j)和w-(i,j)分别表示连接到结点i的所有正Weight值和负Weight值,W+(j)和W-(j)分别表示与结点i相连的每个结点j的正Weight 值之和及负Weight值之和。PR+(u)和PR-(u)分别代表与结点i相连的每个结点j的正Weight加权出度值之和与负加权出度值之和。为了更方便描述,以下图为例,假设图结构中只有四个结点A,B,C,D,则PR(A)、PR(B)、PR(C)、PR(D)计算方法如下:
PR(A)=0–[W2/(W2+W3)+W1/W1]
PR(B)=[W4/W4+W5/W5]-W1/(W1+W2)
PR(C)=W4/(W4+W5)-[W2/(W1+W2)+W3/W3]