基于大数据挖掘的科技项目查重模型研究_李善青

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

论文查重

Paperyy图书馆

数字技术

基于大数据挖掘的科技项目查重模型研究*

李善青,赵

摘要科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文

章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、

关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建

科技项目的相似度判别模型,并采用 Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模

型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。

关键词

引用本文格式

2014(2):78- 83.

Study on Detection Model of Similar Scientific Project Based on Big

Data Mining

LI Shan- qing,ZHAO Hui,SONG Li- rong

Abstract

there is no way to Find out similar project eFFectively For the moment. This paper proposes a novel method oF detecting scientiFic projects similitude based on big data mining and multi -source inFormation integration. Using that method,the authors studied the huge data network consisting oF the inFormation about the project,published papers,experts and institutions,as well as the keywords;built up a detection model oF project similitude by integrating multi-source inFormation;and adopted the Hadoop to speed up big data mining. This paper presents the detection model oF project similitude and its key issues;in hope oF providing brand -new thinking and methods For detecting similar projects in scientiFic project management.

Keywords

论文查重

Paperyy图书馆

integration;similarity detection For scientiFic

projects;Hadoop architecture

*本文系中国科学技术信息研究所科研项目预研基金“面向重复立项检测的多源信息整合机制研究”(项目编号:

YY201214),国家自然科学基金项目“大数据挖掘在科技项目查重中的应用研究”(项目编号:71303223),国家社会科学基金项目“网络环境下科技信息资源建设中的质量元数据及评估应用研究”(项目编号:12BTQ016)研究成果之一

78

数字技术

重。据统计,我国科研项目重复率达 40%,另

外 60%中与国外重复约占 30%以上[1]。重复立

项不仅造成科技资源的浪费,也导致恶性科研

竞争,损害开拓创新的科研精神,对科技创新

危害极大。早在 2006年,科技部前部长徐冠

华在《关于建设创新型国家的几个重要问题》

讲话中指出,切实加强科技宏观统筹协调的重

要举措之一就是“积极推动建立跨部门的科技

项目数据库。针对科技项目立项中多头立项、

重复立项的问题,推进科技项目共享数据库的

建立,为解决重复问题提供必要的技术支撑”。

各级科技计划主管部门对重复立项问题十分重

视,研究了一些项目查重的方法和机制问题,

取得了一定的进展,但总体效果并不明显。究

其原因,主要在于以下 3个方面:

(1)项目数量呈现逐年快速增长的态势。仅

国家自然科学基金委员会 2013年度资助的项

目就达 3.5万余项。数量庞大的项目为查重工

作带来很大挑战。此外,基础科学研究具有创

新性、不确定性、学科交叉融合等特点,不同

学科领域的新观点、新概念和新知识不断涌现,

科研项目管理人员需要越来越多的专业知识才

能准确判断项目的相似性,这也给项目查重工

作带来很大的困难。

(2)项目信息公开、共享和整合程度较低。

科技计划的项目信息和实施情况主要分散掌握

在各计划主管部门内部,对外开放和共享的程

度低,各计划之间的项目信息无法进行有效整

合。如国家自然科学基金在立项审查时只能在

该基金资助的项目范围内进行重复性检测,而

几乎无法与其他科技计划项目进行检测和查重。

解决该问题的方法是在国家层面上建立统一的

集的项目定义为相似项目。一旦项目更换标题,该方法则会失效。后者能够较准确地发现相关 / 相似的项目,但算法实现难度较大,并且项目申请书因涉密或保护知识产权等原因一般不对外公开,很难从公开渠道获取这些信息。因此该方法只适用于在单个计划主管部门内部实现项目查重。

文献调研发现,国外没有项目查重的概念,但在数据挖掘、文档检索等方面的研究起步早,进行了大量的研究和探索,积累了丰富的经验和成熟的技术。国内在方法研究方面起步

晚,但有针对性地开展文本挖掘方法在科技项目管理中的应用研究。姜韶华提出一种基于文本挖掘的科研项目管理原型系统,重点研究和解决科研项目文本的切分和特征建模等问题;左川提出一种基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度;方延风提出将一种改进的 TF- IDF方法用于科技项目查重,考虑了特征词的位置和长度两种因素;吴燕提出一种基于层次聚类的科技项目分类和查重方法,在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素;林明才等

提出一种改进的模糊聚类算法 RM- FCM,在计算项目相似度时考虑了不同属性的特征项对科研项目的重要性;刘荫明等从科技查新实践、地区和部门多头管理、科研论文所依托的基金项目数量等方面研究我国科研的重复立项现象,通过对科研项目的申报与审批流程进行分析,提出避免重复立项的具体措施。

上述研究工作基本都是从项目申请书入手,对申请书进行分词或将其作为整体处理,然后提取特征向量,利用特征向量的相似度表示项目的相似度。一方面不同计划的申请书格式不同,学科领域差别较大,很难找到统一的描述

相关文档
最新文档