基于知识图谱的热点文章发现算法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)学习Neo4j数据库的相关知识,利用DBLP的数据完成论文信息及引文网络的知识图谱的构建。
(2)学习简洁的网络爬虫技术,爬取CCF上的期刊排名,并写入关系数据库中。
(3)构建作者合作网络以及论文引用网络,实现基于Page Rank的算法计算综合得分。
(4)对作者合作网络及论文引用网络进行交错迭代收敛,得到推举的热点文章,
Keywords:Citation network; Knowledge map; Paper recommendation; Page Rank;Hot paper discovery
前 言
在互联网时代,数据量的爆炸式增长使得有效信息的猎取变得越来越复杂和困难,所以,搜索和推举成为了人们猎取信息的主要方式。在各种各样的搜索或者推举系统中,如何合理组织和处理大量的数据信息是一个基本的问题。基本的数据组织方式模型有三个,分别为层次结构模型,网状结构模型和关系结构模型。其中,关系结构模型被广泛地运用在各种需要进行数据存储的应用中。但是,当涉及到大量数据和多表查询的时候,关系结构模型的查询效率并不能满足需求,在这种情况下,往往采取网状数据结构模型进行数据存储。由于本文数据集具有较复杂的引用关系及较大的数据量,所以我采取了Neo4j图形数据库来进行数据的存储与组织,也就是使用Neo4j图形数据库构建了论文引用信息的知识图谱。解决了数据的存储组织问题,还要解决如何探究数据之间的关系,从而达到利用引文关系及论文信息推举出当前的热点文章的目的的问题。在此,我考虑当年某篇论文被引用的次数以及它引用的论文的得分,该篇论文所发表的期刊、会议的排名以及写作该篇文章的作者们的影响力等因素,提出了一个综合得分的概念。然而,论文排名和作者排名的双重问题不能单独处理。因为,论文得分的计算依赖于所写作该论文的作者的得分,而论文得分的改变也会使得作者的得分发生改变。因此,最终,我们提出了一种新颖的论文排名算法,它交错论文和作者的排名。并且同时对于推举结果进行了相应的验证操作,以验证算法的合理性。本文完成的主要工作如下:
关键词:引ห้องสมุดไป่ตู้网络;知识图谱;论文推举;Page Rank;热点发觉
Paper recommendation is an interesting and challenging research task. Its goal is to recommend relevant papers to users based on their needs. The paper recommendation research has been conducted for decades. Academic search engines such as Google Scholar can effectively help users find articles based on input keywords and constraints. However, due to the difficulty in understanding user needs and the rapid growth of publications, the returned results are not always meet the user's requirements. In recent years, there are many studies on paper recommendation. The mainstream method is to find the paper that is most relevant to the input keywords based on the relevance of the content (including title, keywords, abstract or full text). However, since there are always a large number of papers sharing the same keywords, the recommendation results do not have high accuracy. Therefore, as a supplement, citations between papers are often studied in order to achieve the purpose of improving the accuracy of recommendation results.
本文就着眼于研究论文之间的引用关系,以达到推举出当前的热点文章的目的。所谓热点文章,指的是综合得分较高,具有典型代表性的文章。这个综合得分不仅取决于当年某篇论文被引用的次数以及它引用的论文的得分,还取决于该篇论文所发表的期刊、会议的排名以及写作该篇文章的作者们的影响力。基于以上想法,我使用DBLP中的DBLP-citation-network-Oct-19文件中所提供的数据构建了一个知识图谱,记录了每篇论文的相关信息(作者、主题、关键词、发表的期刊和发表的年份等),各论文之间的引用关系。基于这个知识图谱,设计了一个基于Page Rank的算法来计算各篇论文的综合得分,通过这个综合得分来达到发觉热点文章的目的。所推举出来的热点文章应当在期刊排名、被引用次数、引用论文的得分和作者影响力这几个或者某几个方面具有较好的排名。因此,对于推举出来的热点文章我在以上几个方面进行验证,并调整算法参数以期整个系统能更加合理。
每年,每个具体的学术领域都会有新的论文被发表出来,如何在卷帙浩繁的论文中快速地得到自己想要的论文,这是很有意义的问题。主流方法根据内容的相关性找到与输入关键词最相关的论文。首先用传统的信息检索技术测量相关性,然后用主题模型进行改进。然而,由于总是有大量的论文共享相同的热门话题,所以基于内容的前K推举结果通常不具有高精度。作为补充,一些其他方法使用论文之间的引用关系进行推举,这些方法倾向于在推举结果中推举引用论文更多的以及评分更高的论文[1]。例如,Winoto等人提出的上下文感知的多维的论文推举系统,另一种是情境感知引文推举系统,它通过测量引用文章和论文之间的上下文的相关性进行推举[2]。以及一种先使用本体作为构建用户配置文件的基础,然后使用本体网络进行分析来协助推举的推举系统[3]。论文的引文分数不仅取决于论文的发表频率,还取决于引用论文的论文得分,因此根据论文引用网络,采纳Random Walk等算法计算论文的排序得分。还有一些方法通过将软聚类论文放入兴趣小组[4]或开发多层神经网络概率模型来学习引用论文上下文文义来改进基于论文引用网络的方法[5]。基于学术社交网络的另一种方法,即作者合作网络,倾向于推举与用户兴趣相同的共同作者的共享论文。但是这种方法可能会忽略一些由很少合作撰写的作者所撰写的重要论文(即共同作者网络图中的一些孤立节点)。
学院部计算机科学与技术学院基于知识图谱的热点文章发现算法研究2014专业物联网工程14级物联网学号1427407037指导老师刘安职称副教授论文提交日11研究背景及意义12论文主要工作13本文组织结构第二章相关知识及技术简介21知识图谱简介22neo4j图形数据库与cypher简介23网络爬虫介绍24pagerank算法简介25sigmoid函数简介1026本章小结11第三章问题描述与算法设计1231问题描述与基本思路1232具体算法设计13321知识图谱构建14322期刊排名爬取15323论文引用网络权重模型的设计16324作者合作网络权重模型的设计16325系统运行流程1733本章小结17第四章算法实现与结果分析1941算法实现1942结果分析22421系统运行时间分析22422平均引用次数分析24苏州大学本科生毕业设计论文ii423期刊均分分析27424结果分析总述31第五章总结与展望3251本文总结3252未来展望32参考文献35苏州大学本科生毕业设计论文论文推荐是一个有趣并且有挑战的研究工作其目标在于根据用户的需求向用户推荐相关论文
(5)对推举的结果进行验证,以调整算法设计的参数使得整个推举系统更加合理精准。
首先本章简要介绍了本文的研究背景和意义,紧接着介绍了本文所做的主要工作。最终,对整篇论文的组织结构进行了简要概括。
1.1
论文是各个学术领域的研究人员记录学术研究及研究成果的文章,是进行学术研究探讨学术问题的一种手段,同时也是描述学术研究成果进行学术交流的一种载体。在进行学术研究的时候,研究人员往往先查询学习前人的研究成果,然后对自己已有的想法思路进行进一步的思考,以达到学习或者创新的目的。这样就使得研究人员创作出来的论文拥有一些必要的参考文献。在很多情况下,一个人的思维往往并不够全面,所以很多学术研究在进行的时候往往以团队合作的形式进行,以期达到使这一阶段研究完善的目的。因此,一篇论文往往由几个作者合作来完成。
My article focuses on the study of citations between papers and then to achieve the purpose of recommending current hot papers. The so-called hot papers refer to papers with high composite score and typical representativeness. This composite score of a paper depends not only on the number of papers that cited it in the year and the score of the papers it cited, but also on the publication of the paper, the ranking of the conference, and the influence of the authors who wrote this paper. Based on the above ideas, I used the data provided in the DBLP-citation-network-Oct-19 file in the DBLP website to construct a knowledge map which recorded information about each paper (authors, topics, keywords, published journals, and published years, etc.) and citations relations between papers. Based on this knowledge map, an algorithm based on Page Rank was designed to calculate the composite score of each paper. Through this composite score, the purpose of discovering hot papers was achieved. The recommended hot papers should have a good ranking in several or all aspects such as the ranking of journals, the number of citations cited, the score of the citation of papers and the author’s influence. Therefore, I verified in the above aspectsand adjusted the algorithm parameters so that the entire system can be more reasonable.
本 科 毕 业 设 计(论 文)
学院(部)
计算机科学与技术学院
题 目
基于知识图谱的
热点文章发觉算法研究
年 级
2014
专业
物联网工程
班 级
14级物联网
学号
1427407037
姓 名
钱静
指导老师
刘安
职称
副教授
论文提交日期
2018-05-19
摘 要
论文推举是一个好玩并且有挑战的研究工作,其目标在于根据用户的需求向用户推举相关论文。论文推举研究已经进行了数十年,Google Scholar等学术搜索引擎可以有效地帮助用户根据输入关键字和约束条件来查找论文,但由于理解用户需求的困难以及公布的快速增长,返回的结果并不总能满足用户的要求。近年来,在论文推举方面的研究已经很多了。主流方法是根据内容的相关性(包括标题,关键词,摘要或全文)找到与输入关键词最相关的论文。然而,由于总是有大量的论文共享相同的关键词,就使得推举结果不具有高精度。因此,作为补充,往往可以研究论文之间的引用关系,以期达到提高推举精度的目的。
相关文档
最新文档