基于大数据挖掘的科技项目查重模型研究_李善青

合集下载

科技成果转化成熟度评价指标体系研究——以结构方程模型为例

科技成果转化成熟度评价指标体系研究——以结构方程模型为例
结 构 方 程 模 型(Structural Equation Models,SEM)可以验证模型是否合理,并给
关键词:科技成果转化成熟度评价;结构方程模型;验证性因子分析;实证研究;科技评价 中图分类号:G35 开放科学(资源服务)标识码(OSID)
Research on Evaluation Index System of Scientific and Technological (S&T) Achievements Transfer Readiness——Taking the Structural Equation Model as An Example
0 引言
发挥科技进步和创新对加快转变经济发展 方式的支撑作用,必须大力促进科技成果向现 实生产力转化,显著提升经济社会发展的科技 含量 [1]。十八届三中全会以来,国家出台了一 系列关于科技计划、科技成果和科研人员管理 的文件,为科技成果转化松绑解缚,鼓励科技 成果走向市场,引导民间资本接手科技成果转 化。与政府财政投入不同,民间资本往往更加 关注投资回报周期、投资回报率等问题。然而, 科技成果在诞生初期,大多是具有一定先进指 标的样品,既不是产品,更不是商品。如果民 间资本过早介入成果转化,往往风险高且回报 遥遥无期,一旦转化遭遇不顺,不但严重挫伤 民间资本的积极性,也会对科技人员的信誉和 口碑产生负面影响 [2]。在这种情况下,判断科 技成果是否适合转化成为一个值得关切的重要 问题。本文提出一种科技成果转化成熟度评价 指标体系,用于判断科技成果转化成熟度,为 供需双方在对拟转化成果的认识上提供一个标 准,识别并规避风险,对于促进科技成果转化 具有重要意义。
Keywords:S&T achievements transfer readiness assessment; structural equation model; confirmative factor analysis; empirical research; sci-tech evaluation

国家自然科学基金大数据成果检索

国家自然科学基金大数据成果检索

国家自然科学基金大数据成果检索国家自然科学基金大数据成果检索引言:随着信息技术的快速发展,大数据已经成为推动经济、社会和科技进步的重要力量。

为了促进大数据领域的研究和创新,我国设立了国家自然科学基金项目,用于资助大数据相关的研究项目。

本文将介绍国家自然科学基金大数据成果的检索方法和相关参考内容。

一、检索方法为了检索国家自然科学基金的大数据成果,我们可以采用如下的方法:1.检索关键词:我们可以使用与大数据相关的关键词进行检索,如“大数据”、“数据挖掘”、“人工智能”、“机器学习”等。

2.查询项目编号:国家自然科学基金项目都有唯一的项目编号,通过查询项目编号可以得到该项目的详细信息。

3.查询研究机构:我们可以根据研究机构的名称进行检索,了解该机构在大数据领域的研究成果。

二、相关参考内容国家自然科学基金大数据成果涵盖了多个领域,相关参考内容如下:1. 大数据挖掘与分析大数据挖掘和分析是大数据研究的重要方向之一。

相关参考内容包括:大规模数据挖掘算法的研究与应用、基于大数据的智能分析和预测、大数据分析平台的设计与优化等。

2. 人工智能与机器学习人工智能和机器学习是大数据处理和分析的核心技术。

相关参考内容包括:深度学习在大数据分析中的应用、机器学习算法的优化与创新、基于人工智能的大数据处理系统设计等。

3. 大数据安全和隐私保护大数据安全和隐私保护是大数据研究的重要问题之一。

相关参考内容包括:大数据安全模型与算法研究、隐私保护技术在大数据中的应用、大数据隐私保护政策与法规等。

4. 大数据在各领域的应用大数据在各个领域都有广泛的应用。

相关参考内容包括:大数据在医疗健康、交通运输、金融和农业等领域的应用案例、大数据对社会经济发展的影响与贡献、大数据在城市管理和智慧城市建设中的应用等。

结论:通过国家自然科学基金大数据成果的检索和查阅,我们可以了解国内在大数据领域的研究和创新成果。

这些成果涵盖了大数据挖掘与分析、人工智能与机器学习、大数据安全和隐私保护以及大数据在各个领域的应用等方面。

科技项目查重方法研究现状

科技项目查重方法研究现状

浅析科技项目查重方法的研究与现状摘要:随着我国现代化的快速发展,科研课题重复立项、判定科技成果新颖性与先进性等现象引起了相关部门的重视,如何为科研立项、科研成果鉴定、科技奖励评审等提供可靠的情报评估,科技查新成为国家与各地市科技部门的一项重要工作而突显出来。

关键词:科技项目查重专家遴选非分词 tf-idf中图分类号:g642 文献标识码:a 文章编号:1673-9795(2013)05(a)-0000-00我国于1985年开始启动科技查新工作,在这20多年的发展过程中,已拥有相当规模数量的各级查新资质的查新咨询机构,其中有原国家科委1990、1994和1997年分3批授权的38家国家级科技查新咨询单位,有2批卫生部在1993、1998年分确认的25家医药卫生查新咨询单位、还有教育部于2004、2005、2007、2009年先后分4批对高校系统的67家查新机构进行了统一认证。

科技查新是国家科技部为了避免科研课题重复立项和客观正确地判别科技成果的新颖性、先进性而设立的一项工作,它为科研成果鉴定、科研立项、科技奖励评审等提供了可靠的情报评估,所以受到国家及各省科技行政主管部门的重视。

目前,常采用的查新方法有:多目标决策的专家遴选算法、基于非分词技术的查重、查重中特征词tf-idf值计算方法。

1 专家遴选多目标决策对于科技项目评审的公平、公正、有效性和权威性,专家遴选算法能为科技评价服务平台遴选出优秀的专家。

通过对专家所属学科分配、专家回避、多目标优化遴选专家、专家权系数计算方法及专家遴选算法的性能分析等方面的设计,建立了一个完整的理论框架体系,其中包括专家遴选的指标体系、专家遴选算法的多目标优化数学模型等。

1.1 基于层次分析法的专家遴选算法为了能够遴选最终适合评议的评审专家,遴选专家需要解决一系列的子问题:首先,通过影响因素建立指标体系中的专家数据库,确定专家的指标体系;其次,通过层次分析法获得指标权重的计算;然后,利用线性加权和的方法获得专家的综合评价分数;最后,对每个指标值进行标准化,得到专家遴选的决策矩阵。

大数据查重算法-概述说明以及解释

大数据查重算法-概述说明以及解释

大数据查重算法-概述说明以及解释1.引言1.1 概述大数据查重算法是针对大规模数据集中存在的重复数据进行检测和处理的一种技术方法。

随着互联网和信息技术的发展,大数据的规模和复杂性逐渐增加,其中大量数据的重复问题也日益突出。

重复数据不仅占用存储空间,也增加了数据处理和分析的困难度。

因此,研究和应用大数据查重算法具有重要意义。

大数据查重算法是通过比较大规模数据集中的各个数据元素之间的相似性,来判断是否存在重复数据的一种计算方法。

它可以应用于各个领域,比如互联网搜索引擎、数据清洗和数据挖掘等。

通过使用大数据查重算法,可以有效地去除重复数据,减少存储空间的占用,提高数据处理和分析的效率。

大数据查重算法主要包括两个重要步骤:特征提取和相似度计算。

特征提取是将原始数据转化为数值或二进制表示,以便进行比较和计算;相似度计算是通过比较数据之间的相似性来判断是否存在重复数据。

常用的相似度计算方法包括哈希算法、编辑距离算法和余弦相似度算法等。

虽然大数据查重算法在实际应用中取得了一定的成果,但仍然存在一些挑战和问题。

首先,大规模数据集的处理需要耗费大量的计算资源和存储空间,如何提高算法的效率和准确性是一个重要的研究方向。

其次,在不同领域的数据应用中,可能存在特定的查重需求和算法适用性问题。

总体而言,大数据查重算法是大数据处理和分析中的重要环节,对于提高数据质量和提升数据应用效果具有重要作用。

随着大数据技术的发展和算法研究的不断深入,相信大数据查重算法将在未来得到更广泛的应用和进一步的发展。

1.2 文章结构本文主要介绍大数据查重算法的相关内容。

首先,将概述大数据查重算法的基本概念和原理。

随后,探讨大数据查重算法在实际应用中的重要性,并对其应用背景进行详细分析。

接着,详细介绍大数据查重算法的实现过程和技术方法。

在此基础上,总结大数据查重算法的优势,包括提高数据处理速度、准确性和可扩展性等方面。

最后,展望大数据查重算法的未来发展,探讨可能的研究方向和应用领域。

基于数据挖掘的计算机实验教学效果评价研究

基于数据挖掘的计算机实验教学效果评价研究
MENG Xiangguang,GUO Dongwei
(College of Software,Jilin University,Changchun 130021,China)
Abstract:The traditional computer experimental teaching effect evaluation methods have the defects of low precision and long time consumption. Therefore,a computer experimental teaching effect evaluation method based on data mining is designed to obtain an ideal evaluation results. In the method,the evaluation principles of computer experimental teaching effect are analyzed to construct a corresponding evaluation index system first,and then the evaluation contributions of each index to the teaching
2021 年 6 月 1 日 第 44 卷第 11 期
现代电子技术 Modern Electronics Technique
164 DOI:10.16652/j.issn.1004⁃373x.2021.11.034
引用格式:孟祥光,郭东伟 . 基于数据挖掘的计算机实验教学效果评价研究[J]. 现代电子技术,2021,44(11):164⁃167.

科技计划项目评审专家精准评价模型研究———以江苏省科技计划项目评审为例

科技计划项目评审专家精准评价模型研究———以江苏省科技计划项目评审为例

professional competenceꎬintegrityꎬand other factors are crucial to ensuring the quality of the review results. This article
takes the evaluation of science and technology projects in Jiangsu Province as an exampleꎬand explores the construction
科技计划项目同行评审是配置科技资源的重要
依据ꎬ关系到科研人员和机构的切身利益ꎬ一直受到
科技界的高度关注 [1-3] . 评审专家是科技计划项目
评审工作的关键核心ꎬ其业务能力、职业道德等要素
均会对项目评审结果产生直接影响 [4-6] . 江苏省科
技计划项目每年的受理和评审量均达到 10 000 多
项ꎬ且在逐年增加( 详见图 1) ꎬ是江苏省支持和引导
具有重要意义ꎬ但在实践应用方面略有不足ꎬ为此本文将在借鉴上述研究思路的基础上ꎬ结合江苏省科技
计划项目评审工作特点ꎬ面向实操应用场景ꎬ构建一套科学有效、实用性强的项目评审专家评价模型.
2 指标构成
本模型设计遵循科学有效、数据可用、操作简便的原则ꎬ指标设置既要覆盖客观数据也要兼顾主观评
价ꎬ相关数据能够从江苏省科技计划项目现有评审工作体系中获取. 综合考虑后ꎬ本评价模型将重点从评


L=
æ
çห้องสมุดไป่ตู้

ç f( aꎬi) -
i=1
è
f( jꎬi)

j=1


÷

ö

基于大数据挖掘的科技项目查重模型研究

基于大数据挖掘的科技项目查重模型研究

关键词 、负责人信息和承担机构等要素构建的大数据网络为研究对 象,利用多源信息整合 方法构建 科技 项 目的相 似度 判 别模 型 ,并采 用 Ha d o o p框 架 实现 海 量数 据 的快 速挖 掘 。文章 介 绍项 目查 重模
型 ,重点讨论 需要 解 决的 关键 问题 ,为解 决项 目查 重 问题 提供 一种 全新 的思路 和 方法 。 关键 词 大数 据挖 掘 多源信 息整合 科技 项 目查 重 Ha d c o p架构
t h e r e i s n o w a y t o i f n d o u t s i m i l a r p r o j e c t e f f e c t i v e l y or f t h e l  ̄ l o m e n t . T h i s p a p e r p r o p o s e s a n o v e l me t h o d o f d e t e c t i n g s c i e n t i f i c p r o j e c t s s i m i l i t u d e b a s e d o n b i g d a t a mi n i n g a n d m u l t i — — s o u r c e i n or f ma t i o n
ma n a g e me n t .
Ke ywo r ds bi g d a t a mi n i n g; mu hi —s o u r c e i n f m’ ma t i o n i n t e g r a t i o n; s i mi l a r i t y d e t e c t i o n f o r s c i e n t i ic f
Da t a Mi n i ng

国家自然科学基金大数据成果检索

国家自然科学基金大数据成果检索

国家自然科学基金大数据成果检索自然科学基金作为我国重要的科研资助机构之一,致力于促进科学技术的发展和创新,推动学术研究的不断深入。

近年来,基金项目涉及的大数据研究成果日益显著。

这些成果既涵盖了对大数据技术的深入研究,也拓展了大数据在各个领域的应用。

本文将从几个方面展示国家自然科学基金大数据成果的主要特点和意义。

一、基于大数据技术的研究方法不断提升随着大数据时代的到来,如何更好地运用和处理海量数据成为许多学者的研究焦点。

国家自然科学基金资助的项目,以数据驱动为特点,借助机器学习、深度学习等技术手段,系统地深入探究数据本身、数据间的关系及数据对现实世界的影响,不断推进了数据挖掘、自然语言处理,图像识别等领域的研究和应用。

二、大数据在科技领域的应用逐渐成熟自动驾驶车辆、人脸识别、智能医疗等领域的应用正在逐步走向实用化,其中离不开大数据的深度应用。

通过大数据的分析和建模,人工智能得以快速实现对人类行为、语言、身体等多属性信息的理解和分类处理,从而拓展了技术的边界和应用范围。

三、大数据为社会经济与管理带来新的引擎大数据可以为管理领域提供更准确的数据支持,实现创新的商业模式和经营策略,推进社会治理、环境保护等方面的工作。

通过数据的整合和分析,大规模、高效、较一致的管理模式成为可能。

特别是在跨界融合上,大数据更是促进了物联网和工业4.0的深度应用,极大提高了企业管理的透明度和效率。

综上,国家自然科学基金在大数据研究与应用方面的资助发挥了重要的推动作用,为科技创新和社会发展注入了新的动力和内涵。

在未来的发展中,我们期待大数据技术能够更加深入和广泛地结合各个领域的应用,为人类的生产、生活、管理、治理等多方面带来更科学、更高效、更安全的实践效果。

基于二次模糊评判的相似重复记录检测方法

基于二次模糊评判的相似重复记录检测方法

基于二次模糊评判的相似重复记录检测方法黄建琼【摘要】数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的问题,提出改进的基于二次模糊评判的检测方法.根据等级法对属性进行第一次评判,剔除等级低的部分非重要属性;对剩余属性进行二次模糊评判,平均属性等级评判的结果,确定属性权值,然后对数据集进行分组,并在各个数据集中检测相似重复记录.理论分析和实验结果表明,该方法不仅提高了运行效率,而且可以进一步提高查重的查准率和查全率.【期刊名称】《江苏师范大学学报:自然科学版》【年(卷),期】2016(034)001【总页数】4页(P39-42)【关键词】相似重复记录;属性;等级;权值;检测;模糊评判【作者】黄建琼【作者单位】福州外语外贸学院信息系,福建福州350202【正文语种】中文【中图分类】TP311信息化建设过程中,数据仓库一般是由多个数据源集成的.由于拼写错误或表示格式不同等原因,集成的数据仓库中必然存在表示同一实体的相似重复记录.如何检测数据集中的相似重复记录并进行清洗是当前重要的研究课题.目前,用于识别相似重复记录的方法主要有聚类算法[1-5]、编辑距离算法[6-8]、KNN算法[9-10]、字段匹配算法[11-12]等.数据库表由多个字段构成,每条记录涉及多个属性,字段匹配算法是识别相似重复记录的最常用算法之一.通过字段匹配可以确定两个字段值是否代表同一语义,字段匹配是记录匹配的基础[13].李星毅等提出采用等级法计算字段权值,按照分组思想将大数据集划分成小数据集,最后在小数据集中检测相似重复记录,有效地解决了大数据量的相似重复记录检测问题[14].曹小峰针对相似重复记录检测方法精度不高、执行检测代价过大的问题,提出了一种分组模糊聚类的特征优选方法[15].肖满生等在此基础上针对确定属性权值主观性过强的问题,根据数据集中各个属性的重要因素进行多用户模糊综合评价,该方法有效地避免了各属性权值评判的主观性,不但适用于大数据集合,而且提高了相似重复记录识别的精度[16].郭文龙根据属性含义进一步切分属性,通过计算得出属性相似度进而判定记录相似度,取得了一定的效果[17].基于上述方法,本文提出一种改进的模糊综合评判的相似重复记录检测方法.其主要思路为:由用户根据经验对所有属性进行第一次模糊评判,去掉部分非重要属性;然后,根据文献[16]对保留的重要属性进行二次模糊综合评判,进而确定数据集属性权值;最后进行相似重复记录清洗.数据库中的每一条记录对应一个实体,属性用来表示实体的特征.各个属性对于实体的重要程度各不一样,如某人事管理数据库属性集为:职工{职工号,姓名,性别,出生日期,工作部门,薪酬,联系电话,家庭住址,……},其中性别、薪酬等为非重要属性.通过若干用户对各属性进行模糊综合评价,去掉部分非重要属性参与查重检测,可大大提高相似重复记录的检测效率.确定属性的重要程度即权值,是利用字段匹配算法来检测相似重复记录的关键.基于二次模糊综合评判方法确定属性权值的基本思路如下: 1) 由若干个用户根据各自经验对数据集中所有属性的重要程度进行第一次评价,综合各用户的评价结果,剔除部分非主要的属性,形成重要属性向量集合.2) 分析各属性的重要组成因素,并形成属性的评价因素表.设定各属性因素所占比重大小,由用户根据各自经验对重要属性向量集合中各属性的组成因素进行第二次评价,并得到用户属性因素评价表.3) 将属性因素比重集与用户属性因素评价表进行归并运算,得到重要属性向量集的综合评判结果,并最终进行统一转化,得到各重要属性的权值.根据上述思路,计算属性权值的过程如下:1) 假设原数据集有k个属性F1,F2,…,Fk,根据属性个数设置属性等级集合为G={1,2,…,k}.由N个用户根据各自经验对所有属性的重要性进行等级评价,每个属性的等级为G中的一个且不重复,1表示该属性的等级最低,k表示其等级最高.记Tij 为用户i对属性Fj的评价结果(i=1,2,…,N; j=1,2,…,k), Tij∈G,则属性Fj的最终重要性等级值可表示为2) 假设重要属性在所有属性中所占的比例为p,根据Tj的值生成重要属性向量集合F′={},其中m≤p k, m为满足条件的最大整数.3) 结合实际情况,分别从属性类型、属性语义、属性宽度和属性排列位置4个方面来对属性进行评价[14].设定属性各因素所占比重,比重向量f=(f1,f2,f3,f4), fi=1.4) 由若干个用户对保留的重要属性进行二次评判.例如,用Pij表示用户j对重要属性的第i个评价因素的评价等级(i=1,2,3,4; j=1,2,…,N; x=1,2,…,m),每个属性因素的等级为1~m中的一个且不重复,1表示该评价因素的重要性最低,m表示其重要性最高.用Wix表示所有用户对重要属性的因素i的评判结果(i=1,2,3,4),则Wix={Pi1,Pi2,…,PiN}.属性所有因素集评判结果记为Wx,则结合步骤3)所确定的属性因素比重,即可计算出该属性的用户评价等级,设Ex表示某属性x的用户评价等级,则Ex=(P1,P2,…,PN),其中Pi表示用户i对属性x的评价等级.文献[14]针对用户的评价结果,取P1,P2,…,PN中的最大值作为该属性的评价等级,进而计算权值和查重,虽取得了较好的效果,但有一定的片面性.为了更全面地利用用户评价结果,更客观地表示属性的重要程度,本文采取对所有用户评价等级取均值的方式来表示该属性的重要性等级.设Ex表示属性x的重要性等级,则同理,可分别计算出其他属性的重要性等级值.5) 在计算出各属性重要性等级的基础上,经过统一转化可得各属性的权值.设wx表示属性x的权值,则数据表的字段包含多种类型,属性值含符号、数字及中西文等字符.参照文献[12]的做法,相似重复记录检测前先对记录的属性值进行字符化处理,采用分割的方法将属性值切分为中文和西文(符号和数字归为西文部分)两部分,再分别进行匹配.为提高检测效率,在确定属性权值的基础上,先将数据按照属性权值进行排序分组,随后在每组中单独进行相似重复记录检测.然而,简单按照一个关键字进行分组,可能会造成各分组数据量相差甚大的情况,此时必须结合多个关键字进行分组.如果部分分组的数据量仍较大,可根据实际情况结合其他关键字对这些数据量大的分组数据进行二次分组,直到基本满足要求为止.采用分组的方法有两个优点:其一,数据已按属性权值大的关键字进行排序,可保证大部分相似重复的记录位于同一分组内;其二,分组后数据量急剧下降,对所有分组的数据采用并行方法进行查重,大大提高了运行效率.根据以上分析,在上节已去掉部分非重要属性、计算出保留属性权值及大数据集分组的基础上,相似重复记录检测算法描述如下:输入:数据记录集R,属性权值向量W,相似度阈值T输出:相似重复记录集Input(R,W,T)For(i=0,i<N,i++)//N表示数据量dup-flag=0;//为各记录添加相似重复记录标志属性dup-flag,初值均设为0for(i=0;i<N;i++)for(j=i+1;j<N;j++)for(p=0;p<m;p++)//m表示记录中的属性个数{每个属性依次匹配,利用属性权值,计算两条记录的相似度;如果两条记录相似度大于相似度阈值T,dup-flag=i;输出Ri,Rj;}本文主要是在文献[16]的基础上做了两个改进:第一,由于需要检测的数据量庞大,涉及到的属性个数多,文献方法的检测效率不高,所以本文提出去掉部分非重要属性以提高检测效率,实验中保留的属性量占比80%;第二,文献[16]的模糊评判属性等级采用取用户评判结果的最大值作为等级值,本文则采用对所有用户评价等级取均值的方式作为等级值,相对更具客观性.为了比较改进方法的性能,分别对文献[16]和本文提出的方法进行实验,从查准率、查全率及运行时间3个方面作评判.实验数据来自某区的常住人口数据库,数据集共含76.3万条记录,属性数31个.实验计算机配置:CPU P4 2.4 GHz,内存DDR400 512 MB,硬盘160 GB;操作系统Windows XP;软件为SQL2005+VC++6.0.实验前先分别随机提取5万、10万和20万条记录,并采用人工和软件相结合的方式对3个数据集进行处理,处理后的数据集分别包含500、1 003和1 998条相似重复记录.对数据集按照上节所述的方法进行字符化处理,实验结果中检测出来的相似重复记录及正确的相似重复记录由人工方式统计.为了便于描述,文献[16]的方法简称方法Ⅰ,本文的二次模糊评判方法简称方法Ⅱ.方法Ⅰ直接采用用户一次模糊评判的方式计算属性权值并分组检测;方法Ⅱ则在第一次模糊评判时去掉部分非重要属性,实验中保留的属性占比80%,即保留24个属性参与二次评判并计算权值.两种方法均采用分组并使用并行方式分别检测,分组结果相同.实验中参与评价的用户数为50,方法Ⅰ和方法Ⅱ的相似度阈值均设置为0.9.根据上述方案,对实验结果进行统计,两种方法的查准率和查全率结果对比如图1~2所示.由图1和图2可以看出,方法Ⅱ对3个实验数据集的查准率和查全率均略高于方法Ⅰ.其主要原因是:方法Ⅰ对属性重要性等级的判定采用取最高值的方式,而方法Ⅱ则取平均值作为重要性等级的依据,两种不同的取值方法必然导致属性权值计算结果不一样,实验结果体现方法Ⅱ采用取均值的方式更客观.结合图1~2可以发现,在参与查重的属性个数减少的情况下,查准率和查全率并未下降反而提高了,说明方法Ⅱ的二次评判效果更好.图3反映出两种方法的时间效率,显然方法Ⅱ的时间效率更高.因为方法Ⅱ去掉了部分非重要属性,在记录查重的字段匹配上减少了比较时间,运行时间必然减少.本文提出了二次模糊综合评判的相似重复记录检测方法,通过用户第一次评判去掉部分非重要属性,之后对剩余属性进行二次评判,得出属性等级并计算出相应权值,最后对数据集的记录进行相似重复检测.实验表明,该方法更客观地评判了属性的权值,具有较高的检测精度,并且运行时间较短.实验中采用保留80%的属性进行二次模糊评判,虽取得了一定的效果,但去除非重要属性的占比量多大更合适或者最合适,是一个值得继续探讨的问题.非重要属性去除过多无法反映记录的真实情况,去除少则时间效率提高不大.此外,相似重复记录的阈值设置也是一个仍需研究的课题,这些都是下一步需要进一步研究的目标.【相关文献】[1] Jain A K,Murty M N,Flynn P J.Data clustering:a review[J].ACM ComputSurv,1999,31(3):264.[2] Jain A K,Duin R P W,Mao J C.Statistical pattern recognition:a review[J].IEEE Trans Pattern Analysis & Machine Intelligence,2000,22(1):4.[3] 曹渠江,董明.一种在高维空间中聚类检测重复记录的新方法[J].计算机工程与应用,2008,44(29):171.[4] 石彦华,李蜀瑜.聚类反馈学习的数据清洗研究[J]. 计算机工程与应用,2011,47(30):127.[5] 王秀慧,王丽珍,麻淑芳.结合语义的改进FTC文本聚类算法[J].计算机工程与设计,2014,35(2):515.[6] Levenshtein V I.Binary codes capable of correcting deletions,insertions and reversals[J].Soviet Physics-Doklady,1966,10(8):707.[7] 刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33.[8] 姜华,韩安琪,王美佳,等.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222.[9] Pan J S,Qiao Y L,Sun S H.A fast K nearest neighbors classification algorithm[J].IEICE Trans Fundamentals of Electronics Communications & Computer Sciences,2004,87(4):961.[10] 许朝阳.基于多标记文本分类的ML-KNN改进算法[J].江苏师范大学学报(自然科学版),2012,30(3):27.[11] Ahmed K E,Panagiotis G I,Vassilios S V.Duplicate record detection:a survey[J].IEEE Trans Knowledge & Data Engineering,2007,19(1):1.[12] 陈波,王延章.基于关联token自适应字段匹配算法设计[J].计算机工程与设计,2010,31(19):4238.[13] 叶焕倬,吴迪.相似重复记录清理方法研究综述[J]. 现代图书情报技术,2010(9):56.[14] 李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273.[15] 曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492.[16] 肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51.[17] 郭文龙.一种改进的相似重复记录检测算法[J].计算机应用与软件,2014,31(1):293.。

基于大数据挖掘的高校学生行为数据分析系统的研究与开发

基于大数据挖掘的高校学生行为数据分析系统的研究与开发

基于大数据挖掘的高校学生行为数据分析系统的研究与开发一、本文概述随着信息技术的迅猛发展和大数据时代的到来,高校作为人才培养的摇篮,其学生行为数据的挖掘和分析显得尤为重要。

这些数据不仅反映了学生的日常生活习惯、学习状态、社交活动等,还能为高校管理者提供有力的决策支持,促进教育教学的改革和创新。

研究和开发一套基于大数据挖掘的高校学生行为数据分析系统,对于提升高校管理水平和提高教育质量具有重要意义。

本文旨在探讨基于大数据挖掘的高校学生行为数据分析系统的研究与开发。

文章将概述大数据和数据挖掘的基本概念,以及其在高校学生行为分析中的应用价值。

将详细介绍该系统的架构设计、功能实现和关键技术,包括数据采集、预处理、存储、分析和可视化等环节。

在此基础上,文章还将分析系统在实际应用中的效果,并探讨其可能存在的问题和改进方向。

文章将总结研究成果,展望未来的发展方向,以期为我国高校教育信息化和智能化提供有益的参考和借鉴。

二、文献综述在信息化社会的浪潮下,大数据已经渗透到各个领域,为各行各业带来了前所未有的变革。

高校作为人才培养和知识创新的重要基地,其内部产生的学生行为数据具有极高的研究价值。

近年来,随着技术的发展,越来越多的学者和实践者开始关注如何利用数据挖掘技术来分析高校学生行为数据,从而优化教育资源配置、提高教育质量、促进学生个性化发展。

现有文献中,关于高校学生行为数据分析的研究主要集中在以下几个方面:一是学生学习行为分析,包括学习成绩、学习时长、学习资源使用等方面的数据挖掘,旨在发现学习规律,为学习预警和个性化学习推荐提供依据二是学生生活行为分析,涉及餐饮消费、社交互动、运动健康等方面的数据,旨在分析学生的生活习惯和兴趣偏好三是学生行为预测,通过构建预测模型,预测学生的未来发展趋势,如学业成就、职业选择等。

在技术开发方面,文献中提到了多种数据挖掘技术和方法,如聚类分析、关联规则挖掘、时间序列分析、神经网络等。

这些技术和方法在高校学生行为数据分析中得到了广泛应用,并取得了显著的成果。

统计调查大赛优秀作品

统计调查大赛优秀作品

统计调查大赛优秀作品
2023 年世界统计调查大赛是一项全球性的比赛,旨在发掘和展
示最优秀的统计调查作品,推动统计调查技术的发展和创新。

以下是评选出的优秀作品:
1. 《基于机器学习的动态人群聚集预测模型》
该作品使用了机器学习技术,建立了一个动态人群聚集预测模型,能够实时预测人群聚集情况,并提供人群聚集的热点区域和聚集规模。

该模型基于大量实时数据和历史数据进行训练,能够自适应地学习和调整预测模型,提高了预测的准确性和实时性。

该作品在实际应用中取得了良好的效果,为公共场所的安全管理和应急响应提供了有力的支持。

2. 《基于区块链的数字身份认证系统》
该作品提出了一种基于区块链的数字身份认证系统,能够有效保障用户身份信息的安全性和隐私性。

该系统采用了多种安全技术,如数字签名、加密算法等,确保了身份信息的真实性和不可篡改性。

同时,该系统还采用了智能合约技术,能够实现自动化的身份信息验证和授权管理,提高了认证效率。

该作品在实际应用中取得了良好的效果,为数字身份认证的实现提供了一种新的思路。

3. 《基于大数据分析的旅游市场需求预测模型》
该作品建立了一个基于大数据分析的旅游市场需求预测模型,能够实时预测未来一段时间内旅游市场需求的变化情况。

该模型采用了多种数据分析技术,如数据挖掘、机器学习等,能够快速识别旅游市
场需求的热点区域和时间段,提高了预测的准确性和实时性。

该作品在实际应用中取得了良好的效果,为旅游行业的发展提供了有力的支持。

4. 《基于人工智能的医疗质量管理系统》
该作品提出了一种基于人工智能的医疗质量管理系统,能够实时监测和分析医疗质量数据,并提供个性化的医疗质量优化建议。

科研重复率信息整合平台的设计与实现

科研重复率信息整合平台的设计与实现

科研重复率信息整合平台的设计与实现作者:咸悦梁玮琪来源:《科学与财富》2020年第33期摘要:本文结合进行项目查重现有方法研究一种准确、高效的方式。

总结了科技项目查重的一般过程,将其概括为文本预处理、特征提取、模型构建、相似度判别和专家审核。

采用资源采集技术,文本数据库加工技术,文本数据库技术,数字资源版权保护技术,知识挖掘技术,自然语言处理技术、快速比对技术等,从多方面进行数据采集,通过文本预处理、特征提取以及模型构建及相似度判别,从而为查重网站信息整合平台做出有力的数据支撑,为查重体系提供必要的参考。

关键词:科研项目;文本挖掘;精准对比引言:我国近年来不断加大科研投入的规模和强度,科研项目的数量和经费规模均得到显著的提升,形成了多个层次的国家科技计划资助体系。

然而,项目多头申报、重复立项已成为科研项目管理领域的突出问题之一,尤其是跨科技计划的重复立项问题。

该问题不仅会造成国家科技资源的浪费,而且也会导致恶性的科研竞争环境,对科技创新发展的危害极大。

因此,如何建立有效、可行的项目查重机制已经成为科技计划管理部门的重要任务之一。

教育一直是整个社会的热点问题和关键问题。

但现在随着互联网的广泛应用“抄袭借鉴”形成了一种风气,教育部在《关于切实加强和改进高等学校学风建设的实施意见》中指出:“学风是大学精神的集中体现,是教书育人的本质要求,是高等学校的立校之本、发展之魂。

” 诚信教育,是人类文化的重要组成部分,是弘扬人文精神的重要形式,在社会主义先进文化建设中发挥着不可替代的作用,要求我们大力弘扬爱国主义、集体主义、社会主义思想,以增强诚信意识为重点,加强社会公德、职业道德、家庭美德、个人品德建设。

让高校学生认识到诚信的重要性,将有助于学生树立正确的学习目的和学习态度,并制定合理的学习计划,并通过他们的努力实现自己具体的奋斗目标。

论文查重需要强大的技术作为支撑,包括资源采集技术,文本数据库加工技术,文本数据库技术,数字资源版权保护技术,知识挖掘技术,自然语言处理技术、快速比对技术等。

大创 策划书 查重3篇

大创 策划书 查重3篇

大创策划书查重3篇篇一大创策划书查重一、策划书名称“大创”策划书查重二、活动背景随着创新创业教育的不断推进,越来越多的大学生参与到创新创业项目中。

然而,在项目实施过程中,查重问题成为了一个不容忽视的问题。

为了提高大学生的创新能力和创业素质,保证项目的质量和创新性,我们特制定本策划书。

三、活动目的1. 帮助大学生了解查重的重要性,提高他们对查重的认识。

2. 介绍查重的方法和工具,让大学生掌握正确的查重技巧。

3. 提供查重服务,帮助大学生检测论文、项目计划书等的重复率。

4. 加强与学校相关部门的合作,共同推动创新创业教育的发展。

四、活动时间和地点时间:[具体时间]地点:[具体地点]五、活动对象全体大学生六、活动内容1. 举办查重知识讲座邀请专家或老师进行查重知识讲座,详细介绍查重的原理、方法和注意事项。

让大学生了解查重的重要性,掌握正确的查重技巧。

2. 开展查重培训组织大学生参加查重培训,现场演示查重工具的使用方法,并提供实际操作练习。

帮助大学生学会使用查重工具,提高查重效率。

3. 提供查重服务在活动现场设立查重服务点,为大学生提供论文、项目计划书等的查重服务。

确保查重结果的准确性和公正性。

4. 举办查重比赛组织查重比赛,鼓励大学生积极参与。

设置奖项并进行表彰,激发大学生的创新意识和竞争意识。

5. 建立查重数据库建立查重数据库,收集大学生的优秀论文、项目计划书等,为后续的查重工作提供参考。

同时,也为大学生提供一个交流和分享的平台。

七、活动宣传1. 线上宣传利用学校官网、公众号、微博等平台发布活动通知和宣传海报,吸引大学生关注。

2. 线下宣传在学校宣传栏张贴宣传海报,发放传单,提高活动的知名度。

3. 班级宣传通过学生会、班级干部等渠道向大学生宣传活动信息,鼓励他们积极参与。

八、活动预算1. 讲座费用:[X]元2. 培训费用:[X]元3. 查重费用:[X]元4. 宣传费用:[X]元5. 奖品费用:[X]元6. 其他费用:[X]元总预算:[X]元九、活动注意事项1. 活动现场要安排专人负责指导大学生使用查重工具,确保操作正确。

大创 策划书 查重3篇

大创 策划书 查重3篇

大创策划书查重3篇篇一《大创策划书查重策划书》一、项目背景二、项目目标1. 开发一款高效、准确的大创策划书查重系统,能够快速检测出策划书中的抄袭内容。

2. 提供详细的查重报告,帮助学生和指导教师了解策划书的抄袭情况,并提供相应的修改建议。

3. 建立一个大创策划书数据库,为学生和指导教师提供参考和借鉴。

三、项目内容1. 查重系统的开发(1)采用先进的文本相似度算法,对大创策划书进行查重。

(2)支持多种文件格式,如 Word、PDF 等。

(3)具备快速查重和详细报告功能。

2. 数据库的建设(1)收集大量的大创策划书,建立数据库。

(2)对数据库中的策划书进行分类和标注,方便用户查询和参考。

3. 用户界面的设计(1)设计简洁、易用的用户界面,方便学生和指导教师使用。

(2)提供在线查重和本地查重两种方式,满足用户不同的需求。

四、项目实施计划1. 第一阶段([具体时间区间 1]):完成查重系统的需求分析和设计。

2. 第二阶段([具体时间区间 2]):进行查重系统的开发和测试。

3. 第三阶段([具体时间区间 3]):建立大创策划书数据库,并对数据库进行整理和标注。

4. 第四阶段([具体时间区间 4]):完成用户界面的设计和开发。

5. 第五阶段([具体时间区间 5]):对查重系统进行全面测试和优化,确保系统的稳定性和准确性。

6. 第六阶段([具体时间区间 6]):项目上线,进行宣传和推广。

五、项目预算1. 人员费用:[具体金额]2. 设备费用:[具体金额]3. 开发费用:[具体金额]4. 数据库建设费用:[具体金额]5. 宣传推广费用:[具体金额]6. 其他费用:[具体金额]总预算:[具体金额]六、项目风险评估1. 技术风险:查重系统的准确性和稳定性可能受到多种因素的影响,如算法的优化、数据的质量等。

2. 数据风险:数据库中的策划书可能存在版权问题,需要进行严格的审核和管理。

3. 用户风险:用户可能对查重结果存在异议,需要提供相应的解释和说明。

基于大数据挖掘的科技项目查重模型研究_李善青

基于大数据挖掘的科技项目查重模型研究_李善青

论文查重Paperyy图书馆数字技术基于大数据挖掘的科技项目查重模型研究*李善青,赵摘要科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。

文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用 Hadoop框架实现海量数据的快速挖掘。

文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。

关键词引用本文格式2014(2):78- 83.Study on Detection Model of Similar Scientific Project Based on BigData MiningLI Shan- qing,ZHAO Hui,SONG Li- rongAbstractthere is no way to Find out similar project eFFectively For the moment. This paper proposes a novel method oF detecting scientiFic projects similitude based on big data mining and multi -source inFormation integration. Using that method,the authors studied the huge data network consisting oF the inFormation about the project,published papers,experts and institutions,as well as the keywords;built up a detection model oF project similitude by integrating multi-source inFormation;and adopted the Hadoop to speed up big data mining. This paper presents the detection model oF project similitude and its key issues;in hope oF providing brand -new thinking and methods For detecting similar projects in scientiFic project management.Keywords论文查重Paperyy图书馆integration;similarity detection For scientiFicprojects;Hadoop architecture*本文系中国科学技术信息研究所科研项目预研基金“面向重复立项检测的多源信息整合机制研究”(项目编号:YY201214),国家自然科学基金项目“大数据挖掘在科技项目查重中的应用研究”(项目编号:71303223),国家社会科学基金项目“网络环境下科技信息资源建设中的质量元数据及评估应用研究”(项目编号:12BTQ016)研究成果之一78数字技术重。

基于大数据挖掘的多维数据去重聚类算法分析

基于大数据挖掘的多维数据去重聚类算法分析

基于大数据挖掘的多维数据去重聚类算法分析宋鹏【期刊名称】《《现代电子技术》》【年(卷),期】2019(042)023【总页数】4页(P150-153)【关键词】大数据挖掘; 多维数据去重; 聚类算法; 数据分析; 模型建立; 减少冗余【作者】宋鹏【作者单位】湖南大学湖南长沙 410082; 湖南科技职业学院湖南长沙 410004【正文语种】中文【中图分类】TN911.1-340 引言新兴服务“云计算”“物联网”促进了人类社会的快速发展,数据信息增加的同时也带来了大量的冗余信息,面对如此庞大的数据信息,如何实现数据的快速分析和处理,处理数据之间的关系需要立即进行解决,建立数据分析模型迫在眉睫。

大数据属于非结构数据,数据分析困难,数据量庞大且结构分析方式复杂,传统的数据分析技术在分析处理效率方面存在缺陷,无法对大数据进行挖掘和分析[1]。

MapReduce 模型是进行大数据抽象分析的重要模型,利用数据挖掘技术获取信息后进行提取,以提高搜索引擎的服务效率。

对数据进行分组可以降低数据冗余度,同时也会降低系统性能,因为维度的增加,势必会降低性能。

如何更好地解决数据冗余问题,需要结合函数依赖和多值依赖。

需要注意的是,该方法虽然可以降低复杂度,一旦分析模型发生变化,所产生的数据转换格式代价巨大。

使用等价特征组与数据立方体覆盖等价来的形式对数据单元进行处理,是进行数据多维处理最合适的方法,但是容易限制开发人员思考问题的角度。

针对上述问题,亟需一种数据分析算法解决大数据所存在的混合存储、延迟加载等问题[2]。

1 大数据挖掘下的多维聚类算法分析1.1 原理分析聚类分析的数学定义为:先给定一组数据集合:X={x1,x2,…,xn },其中可以被看成是属性或者维数,根据数据间的相似程度,将数据集合分成k 类,C={C1,C2,…,Ck },k ≤N,并满足条件1,2,…,K,i ≠j。

硬化分聚类中,每个样本只有一个类别,但是,一个样本也可能会以一定的隶属度为主,ui,j 的i 和j 代表类别和样本,需要满足条件:1.2 多维聚类算法分析数据聚类分析需要根据数据本身存在的特性与维度关系,在数据不同侧面的背景下得到数据聚类的方法。

2000年度我校科研工作取得新成绩

2000年度我校科研工作取得新成绩

2000年度我校科研工作取得新成绩
佚名
【期刊名称】《广西师范大学学报:自然科学版》
【年(卷),期】2001(19)3
【总页数】1页(P54-54)
【关键词】非参数回归模型;仁教;相合性;省部级项目;交通流;研究与开发;国家级项目;校党委;自动机;杨善朝
【正文语种】中文
【中图分类】N
【相关文献】
1.我校科研工作取得新突破 [J],
2.我校科研工作取得新突破——7个科研项目获批2018年r国家社科基金年度项目和西部项目立项 [J],
3.2003年我校科研工作取得较大成绩 [J], 韩汝军
4.1999年我校科研工作取得新突破 [J],
5.我校2016年度科研工作成绩喜人 [J],
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

论文查重Paperyy图书馆数字技术基于大数据挖掘的科技项目查重模型研究*李善青,赵摘要科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。

文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用 Hadoop框架实现海量数据的快速挖掘。

文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。

关键词引用本文格式2014(2):78- 83.Study on Detection Model of Similar Scientific Project Based on BigData MiningLI Shan- qing,ZHAO Hui,SONG Li- rongAbstractthere is no way to Find out similar project eFFectively For the moment. This paper proposes a novel method oF detecting scientiFic projects similitude based on big data mining and multi -source inFormation integration. Using that method,the authors studied the huge data network consisting oF the inFormation about the project,published papers,experts and institutions,as well as the keywords;built up a detection model oF project similitude by integrating multi-source inFormation;and adopted the Hadoop to speed up big data mining. This paper presents the detection model oF project similitude and its key issues;in hope oF providing brand -new thinking and methods For detecting similar projects in scientiFic project management.Keywords论文查重Paperyy图书馆integration;similarity detection For scientiFicprojects;Hadoop architecture*本文系中国科学技术信息研究所科研项目预研基金“面向重复立项检测的多源信息整合机制研究”(项目编号:YY201214),国家自然科学基金项目“大数据挖掘在科技项目查重中的应用研究”(项目编号:71303223),国家社会科学基金项目“网络环境下科技信息资源建设中的质量元数据及评估应用研究”(项目编号:12BTQ016)研究成果之一78数字技术重。

据统计,我国科研项目重复率达 40%,另外 60%中与国外重复约占 30%以上[1]。

重复立项不仅造成科技资源的浪费,也导致恶性科研竞争,损害开拓创新的科研精神,对科技创新危害极大。

早在 2006年,科技部前部长徐冠华在《关于建设创新型国家的几个重要问题》讲话中指出,切实加强科技宏观统筹协调的重要举措之一就是“积极推动建立跨部门的科技项目数据库。

针对科技项目立项中多头立项、重复立项的问题,推进科技项目共享数据库的建立,为解决重复问题提供必要的技术支撑”。

各级科技计划主管部门对重复立项问题十分重视,研究了一些项目查重的方法和机制问题,取得了一定的进展,但总体效果并不明显。

究其原因,主要在于以下 3个方面:(1)项目数量呈现逐年快速增长的态势。

仅国家自然科学基金委员会 2013年度资助的项目就达 3.5万余项。

数量庞大的项目为查重工作带来很大挑战。

此外,基础科学研究具有创新性、不确定性、学科交叉融合等特点,不同学科领域的新观点、新概念和新知识不断涌现,科研项目管理人员需要越来越多的专业知识才能准确判断项目的相似性,这也给项目查重工作带来很大的困难。

(2)项目信息公开、共享和整合程度较低。

科技计划的项目信息和实施情况主要分散掌握在各计划主管部门内部,对外开放和共享的程度低,各计划之间的项目信息无法进行有效整合。

如国家自然科学基金在立项审查时只能在该基金资助的项目范围内进行重复性检测,而几乎无法与其他科技计划项目进行检测和查重。

解决该问题的方法是在国家层面上建立统一的集的项目定义为相似项目。

一旦项目更换标题,该方法则会失效。

后者能够较准确地发现相关 / 相似的项目,但算法实现难度较大,并且项目申请书因涉密或保护知识产权等原因一般不对外公开,很难从公开渠道获取这些信息。

因此该方法只适用于在单个计划主管部门内部实现项目查重。

文献调研发现,国外没有项目查重的概念,但在数据挖掘、文档检索等方面的研究起步早,进行了大量的研究和探索,积累了丰富的经验和成熟的技术。

国内在方法研究方面起步晚,但有针对性地开展文本挖掘方法在科技项目管理中的应用研究。

姜韶华提出一种基于文本挖掘的科研项目管理原型系统,重点研究和解决科研项目文本的切分和特征建模等问题;左川提出一种基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度;方延风提出将一种改进的 TF- IDF方法用于科技项目查重,考虑了特征词的位置和长度两种因素;吴燕提出一种基于层次聚类的科技项目分类和查重方法,在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素;林明才等提出一种改进的模糊聚类算法 RM- FCM,在计算项目相似度时考虑了不同属性的特征项对科研项目的重要性;刘荫明等从科技查新实践、地区和部门多头管理、科研论文所依托的基金项目数量等方面研究我国科研的重复立项现象,通过对科研项目的申报与审批流程进行分析,提出避免重复立项的具体措施。

上述研究工作基本都是从项目申请书入手,对申请书进行分词或将其作为整体处理,然后提取特征向量,利用特征向量的相似度表示项目的相似度。

一方面不同计划的申请书格式不同,学科领域差别较大,很难找到统一的描述数字技术划内部进行项目查重,很难进行跨计划的项目查重。

基于上述分析,本文采用一种全新的思路解决项目查重问题,首先收集项目的标题、项目所发表的论文、关键词、负责人和承担机构等要素的海量信息,构建与项目查重相关的大数据网络,为后续的分析和挖掘提供数据支撑;然后利用多源信息整合技术构建项目相似度模型,综合考虑项目的研究内容、负责人和承担单位 3种因素以提高计算项目相似度的准确性和可靠性;最后采用 Hadoop分布式处理技术加速项目相似度的计算过程,实现对海量数据的快速挖掘。

1随着海量数据获取、存储与处理方法与技术的飞速发展,大数据时代来临,并对众多领域产生影响[12]。

2007年计算机图灵奖得主 Jim Gray在 NRC- CSTB的演讲报告中提出科学研化、网络化与数据驱动为其主要特征,在学术界引起很大关注。

世界顶尖科学期刊《Nature》和《Science》分别推出专刊,围绕科学研究中的大数据问题展开专题讨论。

美国政府于 2012 年 3月 29日发布的“大数据研究与发展计划”[14]更是将大数据的发展和研究提高到国家战略的层面,将其视为信息科学领域内继信息高速公路计划之后的又一重大发展战略。

大数据挖掘在近年发展迅速,基本思想是通过包括互联网在内的多种渠道收集研究对象的多维度数据,通过对海量数据的关联分析和数据挖掘,发现被研究对象的潜在行为模式或规律。

大数据挖掘的经典应用有 Google公司论文查重 Paperyy 图书馆究的第四范式 —数据密集型科学研究,以协同推出的“流感趋势预报服务” 和奥巴马竞选 团队的“大数据选举” 。

Google 公司认为,等 对大数据管理的概念、技术和挑战等问题本文提出的项目查重方法的基本思路是从 海量数据中挖掘出与项目查重紧密相关的研究 内容、负责人和承担单位等信息,采用多源信 息整合技术对上述信息进行整合并判定项目的 相似度 。

为加速海量数据的挖掘,笔者采用 Hadoop 分布式技术提高项目查重的计算速度。

项目查重的架构框图如图 1 所示,可分为任务 解析、大数据文件、项目相似度判别模型、分 布式调度和结果展示等 5 部分。

任务解析模块 在收到用户的查询请求后将其解析和翻译为机 器可执行的指令,并提交给分布式调度模块执 行;分布式调度模块负责利用 Hadoop 框架管 理和调度计算机集群系统协同完成项目查重任论文查重Paperyy图书馆数字技术图 1务;大数据文件模块存储了与项目查重相关的海量数据,是该模型的数据基础;项目相似度判别模型通过综合关键词、负责人和承担单位等因素计算项目与查询条件的相似度;结果展示模块则通过可视化等手段将查询结果反馈给用户。

本查重模型所处理的数据对象包括 5类:项目信息、论文题录、关键词、负责人和承担单位。

5种数据对象间存在网状的关联关系,如图 2所示。

通过对上述网状数据进行加工处理,提取出与项目查重密切相关的元数据描述:项目 ID是项目的唯一标识,是实现各类数据之间关联的纽带;关键词集是一组用于描述项目研究内容的术语,是对研究内容的凝练和概括。

该数据来源于两部分:一部分来自于项目标题,可通过自动切分词技术获取;另外一部分则来源于由项目资助所发表论文的关键词,可通过论文的资金资助信息建立项目 ID与论文关键词论文查重 Paperyy 图书馆的关联关系。

由于项目数量和论文数量都十分 庞大,关键词集的构建首先通过文本智能挖掘 和抽取技术完成,然后辅以人工校验的方式保 证数据的准确性;负责人信息则直接从项目信 息数据库中抽取,但由于信息缺失,负责人身份的唯一性识别仍然是尚未得到有效解决的难◎2014 年第 2 期◎论文查重Paperyy图书馆数字技术集合之间的相似性。

项目负责人和承担单位存在的重复性直接通过检索词匹配的方式计算,即两个项目的负责人或承担单位相同,则存在重复立项问题的可能性较高。

三个维度的匹配度计算完成后,通过加权的方式进行整合,最终得到与检索条件匹配度由高到低排序的项目集合。

相关文档
最新文档