舰船资料数据库中的数据去重复删除方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
舰船资料数据库中的数据去重复删除方法
周晓芳
(广西职业技术学院,广西南宁 530226)
摘要: 舰船资料数据库的数据存在一定量的重复,严重影响舰船资料数据库的工作效率。
为了减少舰船资料数据库中的重复数据,降低存储空间,提出一种基于数据挖掘的舰船资料数据库数据去重复删除方法。
首先分析当前舰船资料数据库中的数据去重复删除研究进展,找到各种方法的存在的问题与不足,然后提取舰船资料数据库的数据特征,采用数据挖掘技术计算舰船资料数据库数据特征的相似度,最后将相似度与阈值进行比较,删除大于阈值的数据,并进行仿真验证测试实验。
结果表明,本文方法能够准确估计舰船资料数据库数据之间的相似度,可以很好地删除重复数据,且舰船资料数据库重复数据删除的速度快,具有一定的应用价值。
关键词:舰船资料;数据库系统;重复数据;数据挖掘;特征相似度
中图分类号:TP391 文献标识码:A
文章编号: 1672 – 7649(2019)7A – 0178 – 03 doi:10.3404/j.issn.1672 – 7649.2019.7A.060
Data deletion method in ship data base
ZHOU Xiao-fang
(Guangxi Vocational and Technical College, Nanning 530226, China)
Abstract: The duplication of data in warship data database seriously affects the efficiency of warship data database. In order to reduce data duplication and storage space in warship data database, a data mining-based data deletion method for warship data database is proposed. Firstly, the research progress of data deletion in warship data database is analyzed, and the drawbacks of various methods are found. Then, the data characteristics of warship data database are extracted, and the simil-arity of data characteristics of warship data database is calculated by data mining technology. Finally, the similarity and threshold are compared, and the data larger than the threshold are deleted. Finally, the simulation and validation experiments are carried out. The results show that this method can accurately estimate the similarity between data in warship data data-base, and can delete duplicate data very well. Moreover, the speed of deleting duplicate data in warship data database is fast, which has certain popularization value.
Key words: warship data;database system;duplicate data;data mining;feature similarity
0 引 言
近些年来,随着数据处理技术、数据管理技术、分布式处理技术的不断应用,数据库技术越来越成熟,在舰船管理领域得到广泛应用,其中舰船资料管理就是其中一个重要的应用方向。
由于每天都有大量的资料产生,这样舰船资料数据库的规模越来越庞大,占用了大量的存储空间。
同时由于各种因素的影响,舰船资料数据库中的数据重复比较严重,这些重复数据会对舰船资料数据库的工作效率产生严重影响,同时浪费了一些存储空间,并且数据之间也会产生干扰,因此必须删除这些重复数据。
改善舰船资料数据库数据质量,舰船资料数据库数据去重复删除方法的设计具有重要的理论和实际意义[1]。
针对舰船资料数据库数据去重复删除问题,当前存在大量的删除方法,如基于欧式距离算法的舰船资料数据库数据去重复删除方法,其通过计算舰船资料数据库数据特征间的欧式距离,然后根据距离值判断数据是否重复,对于小规模舰船资料数据库,该方法的工作效率高,但是对于大规模舰船资料数据库,数据去重复删除时间长,无法满足当前数据量激增的变
第41 卷第 7A 期舰船科学技术Vol. 41, No. 7A 2019 年 7 月SHIP SCIENCE AND TECHNOLOGY Jul. , 2019
收稿日期: 2019 – 05 – 12
作者简介: 周晓芳(1980 – ),女,工程硕士,讲师,主要从事软件工程数据分析方向。
化趋势[2]。
随后出现了基于矢量余弦值的舰船资料数据库数据去重复删除方法,通过计算舰船资料数据库数据特征间矢量余弦值实现数据是否重复的度量,该方法同样存在删除时间长、速度慢等缺陷[3]。
近年来由于机器学习理论研究的不断深入,出现了基于支持向量机的舰船资料数据库数据去重复删除方法,效率得到了大幅度的提升,且数据去重复删除精度很高,但是其整体性能与支持向量机的参数确定相关,当前参数确定问题一直没得到有效的解决,使得舰船资料数据库数据去重复删除效果有待进一步改善[4]。
为了减少舰船资料数据库中的数据重复,降低存储空间,提出一种基于数据挖掘的舰船资料数据库数据去重复删除方法,并进行仿真验证测试实验。
结果表明,本文方法的舰船资料数据库数据去重复删除精度高,速度快,具有十分显著的优势。
1 舰船资料数据库中的数据去重复删除方法
1.1 舰船资料数据库中的数据去重复删除流程
本文方法的舰船资料数据库中的数据去重复删除思想为:首先从舰船资料数据库提取数据,并对数据进行处理,得到相同形式的数据,然后提取舰船资料数据库数据的特征,组成特征向量,最后采用支持向量机计算舰船资料数据库数据的特征相似度,采用粒子群算法确定支持向量机的参数,并将舰船资料数据库中的数据特征相似度值与阈值进行比较,确定是否为重复数据,如果是重复数据则删除之,具体流程如图1所示。
1.2 提取舰船资料数据库中的数据特征
舰船资料数据库数据字段权值集合可表示为:
E =(w 1,w 2,···,w n )。
(1)
w i 式中:为舰船资料数据库数据第i 个字段的权值;
n 为总字段数量。
字段在舰船资料数据库数中的权值定义如下:
w i =F i ×lg (n
D i )。
(2)
式中:F i 为字段的出现频率;D i 为所有字段的出现频率。
采用舰船资料数据库数据字段权值作为特征。
然而在通常情况下,舰船资料数据库数的字段数据量比较大,其中只有部分关键字段对舰船资料数据库中的数据去重复删除有作用,还有一些字段没有什么作用,通过主成分分析算法去掉无用的字段,选择部分关键字段特征组成舰船资料数据库中的数据去重复删除特征。
1.3 计算舰船资料数据库中的数据特征相似度
T ={(x 1,y 1),···,
(x l ,y l )}∈(R n ×Y )l 当前计算舰船资料数据库中的数据特征相似度方法很多,本文采用支持向量机计算数据特征相似度。
舰船资料数据库中的数据集合为:,其中x i 表示舰船资料数据库中的数据特征,y i ∈{–1,1}表示舰船资料数据库中的数据类别,舰船资料数据库中的数据去重复删除分类超平面可以表示为:
G (x )=ω·x +b 。
(3)
式中:w 为法向量;b 为偏向量。
由于舰船资料数据库中的数据去重复删除精度越高,那么||w ||的最小化,则可以得到:
min w ,b 1
2∥ω∥2,s .t .
y i ((w ·x i )+b )≥1,i =1,···,l 。
(4)
引入拉格朗日乘子α和核函数,可以得到舰船资料数据库中的数据特征相似度计算公式为:
G
(x )=
l ∑i =1
αi y i ⟨x i ,x ⟩+b 。
(5)
ωω由于支持向量机参数和b 的值影响舰船资料数据库中的数据特征相似度计算准确性,本文采用粒子群算法确定和b 的值。
1.4 舰船资料数据库中的数据去重复删除步骤
1)从一个舰船资料数据库中随机选择部分数据作为研究对象,并提取数据特征,组成一个集合。
图 1 舰船资料数据库中的数据去重复删除流程Fig. 1 Data deletion process in warship data database
第 41 卷周晓芳:舰船资料数据库中的数据去重复删除方法
· 179 ·
2)采用人工方式对舰船资料数据库数据类型进行标记,它们和数据特征向量组成支持向量机的学习样本。
ω
3)采用粒子群算法确定和b的值。
ω
4)利用确定了的和b的值,构建支持向量机分类超平面,得到舰船资料数据库中的数据特征相似度计算模型。
5)设置舰船资料数据库中的数据特征相似度的阈值。
6)舰船资料数据库中的数据特征相似度的值与阈值进行比较,大于阈值,则表示该数据为重复数据,删除之,不然为非重复数据,保留下来,不做删除处理。
2 仿真测试
2.1 测试对象
为了分析数据挖掘的舰船资料数据库数据去重复删除方法的有效性,选择5个舰船资料数据库作为测试对象,并随机从5个的舰船资料数据库中选择一些数据进行仿真实验,数据数量如表1所示。
选择传统支持向量机的舰船资料数据库数据去重复删除方法进行对比测试,其参数采用随机方式确定。
2.2 舰船资料数据库数据去重复删除精度比较
采用本文方法和对比方法进行舰船资料数据库数据去重复删除操作,统计它们的舰船资料数据库数据去重复删除精度,结果如图2所示。
可以看出,本文方法的舰船资料数据库数据去重复删除精度平均值为95.32%,对比方法的舰船资料数据库数据去重复删除精度平均值为92.53%,可见本文方法的平均精度提升了2.79%,降低了舰船资料数据库数据去重复删除出现错误概率,体现了本文方法的优越性。
统计2种方法的舰船资料数据库数据去重复删除时间,结果如图3所示。
对舰船资料数据库数据去重复删除时间进行对比发现,本文方法的舰船资料数据库数据去重复删除时间大幅度降低,可以满足大规模舰船资料数据库数据去重复删除要求。
3 结 语
为了提高舰船资料数据库中的数据重复删除精度,提出了一种基于数据挖掘的舰船资料数据库数据去重复删除方法,仿真验证测试结果表明,本文方法能够准确、快速地删除舰船资料数据库重复数据。
参考文献:
郭强. 基于Hadoop的重复数据删除技术研究[J]. 现代信息科技, 2019, 3(3): 142–144.
[1]
刘红燕, 咸鹤群, 鲁秀青, 等. 基于用户定义安全条件的可验证重复数据删除方法[J]. 计算机研究与发展, 2018, 55(10): 2134–2148.
[2]
贺秦禄, 边根庆, 邵必林, 等. 云环境下应用感知的动态重复数据删除机制[J]. 西安交通大学学报, 2018, 52(10): 24–30. [3]
李向前. 一种基于重复数据删除的Oracle数据库备份系统[J].
电脑知识与技术, 2013, 9(1): 5–7, 14.
[4]
表 1 5个的舰船资料数据库的数据量
Tab. 1 Data volume of five ship data bases 舰船资料数据库编号数据量
1 2 000
2 5 000
330 000
4 1 000
51000
图 2 舰船资料数据库数据去重复删除精度Fig. 2 Accuracy of data deletion in warship data database
图 3 舰船资料数据库数据去重复删除时间
Fig. 3 Data deletion time of warship data database
· 180 ·舰船科学技术第 41 卷。