关键属性组的相似重复记录检测方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第17卷第19期2017年7月 1671 — 1815(2017)19-0065-07科学技术与工程
Science Technology and Engineering
Vol. 17 No. 19 Jul. 2017
©2017 Sci. Tech. Engrg.
关键属性组的相似重复记录检测方法研究
宋国兴1>2’3周喜M马博M赵凡M
(中国科学院新疆理化技术研究所1 ,乌鲁木齐830011;
中国科学院大学2,北京100049;新疆民族语音语言信息处理实验室3,乌鲁木齐830011)
摘要对相似重复记录的检测是数据预处理中的关键环节。
针对海量数据相似重复记录检测过程中,记录属性维度过高 导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。
最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了 所提出算法的有效性。
关键词统一互信息 关键属性组 降低维度 相似重复记录 噪声属性
中图法分类号TP391. 1; 文献标志码A
进入大数据时代,每时每刻都在产生大量的数 据,互联网企业和相关科研单位要想从海量数据中 获取高价值信息,首先要进行数据预处理,提高数据 质量。
数据预处理要解决的问题之一就是高维相似重复i己录(high dimension duplicate records)检视[I。
1],即运用数据挖掘或者机器学习方法,检测出存储在 数据库中描述同一事物,但是因为记录的属性维度 较高,在检测记录的相似性过程中噪声属性将关键 属性的作用“淹没”,导致数据库系统无法辨别的记 录。
这些记录如果不加处理,不仅会造成存储空间 上的浪费,而且还有可能导致错误的决策。
在这种 背景下,相似重复记录的检测问题受到了大数据处 理领域研究者的广泛关注。
在描述一条记录时,不同的属性对描述准确性 的贡献不同,比如,码属性可以唯一表征一条记录,而非码属性只能描述记录的某些特征。
同样,在检 测两条记录是否为重复记录时,也要着重考虑关键 属性,其次再考虑非关键属性。
对高维属性描述的
2016年12月30日收到新疆维吾尔自治区高技术计划项目
(201512103)、新疆维吾尔自治区重点实验室项目 (2016D03019)、新疆维吾尔自治区高层次人才引进工程 (Y639401201)和中国科学院西部博士项目(XBBS201315)资助 第一作者简介:宋国兴(1989 —),男,山东昌邑人,硕士研究生。
研 究方向:大数据分析、数据挖掘。
E-mail: sgx805560893@。
引用格式:宋国兴,周喜,马博,等.关键属性组的相似重复记 录检测方法研究[J].科学技术与工程,2017, 17(19) :65—71
Song Guoxing, Zhou Xi,Ma Bo,et al. Similar duplicate records detection based on key attribute group [J]. Science Technology and Engineering, 2017, 17(19) :65—71记录进行相似重复记录检测时,如果属性过多将导 致维数灾难,使检测效率和准确性大大降低;但是太 少的属性又不能反映记录的总体信息。
所以,提出 了一种基于关键属性组的检测方法,选取对描述记 录贡献度较高的属性构成关键属性组,同时排除噪 音属性,以实现属性约简,从而根据关键属性组来提 高检测的精度和时间效率。
1相关工作及背景知识
l.i相关工作
在日益注重数据价值的时代,相似重复记录的 存在不仅会浪费大量存储资源,还会对数据价值的 发现和利用产生影响。
所以,相似重复记录的检测 问题一直受到学术界的广泛关注m。
关于相似重 复记录检测问题,已经提出了很多有效的算法。
基于“排序&合并”的算法[3]。
这类算法选取 记录的某个或者几个属性作为排序属性,根据属性 值的字典顺序对记录进行排序。
通过排序将属性值 相似的记录排列在相近位置,然后对排序较近的记 录进行合并。
算法的排序效率高,结合多趟排序也 可以获得较高的准确率。
基于滑动窗口的算法[4]。
在检测两条记录的 相似度时,以滑动窗口内的属性为单位,而不是逐个 属性进行比较。
使用这种方法可以减少属性比较的 次数,提高时间效率。
基于编辑距离的算法[5]。
这类算法以经典的 编辑距离算法为核心,首先计算对应属性值的编辑 距离,再通过求和得到记录之间的编辑距离。
将记 录之间的编辑距离和设定的阈值比较来判断两条记 录是否为相似记录。
基于编辑距离算法计算简单,对于属性值格式统一的相似记录检测时具有明显的
66科学技术与工程17卷
优势。
基于q-gram的算法[6]。
该算法将属性值转换 为空间坐标值,把记录映射为空间的点,然后根据空 间点之间的距离对其进行聚类,最终将相似重复记 录聚为一类。
这类算法具有较好的伸缩性、灵活性。
这些算法除具有自身的特点之外,还具有一个 共同点:在进行相似记录检测时考虑记录的所有属 性。
因此,针对属性个数较少的记录进行相似度检 测时,这些算法是有效的。
但是,在检测高维属性描 述的记录时,由于忽略了属性描述记录重要性的差 异和对噪声属性的计算,就会存在低准确率、低效率 的问题[7]。
为此针对高维属性记录的相似检测提 出了基于关键属性组的相似重复记录检测算法。
1.2背景知识
现提出的基于统一互信息的关键属性组查找算 法以信息论中互信息[8’9]相关知识为基础。
根据香 农信息论,熵是一种描述某一变量不确定性的物理 量,值越大,变量的相似度越高;反之,熵值越小,变 量相似度越低。
一个随机变量Z的取值集合 />(幻表示Z取值%时的概率,那么随机变量Z的熵 定义为
E(x)= ~ P^x)(O
e S x
对于给定的随机变量z和F,在r= y的前提 下,随机变量Z的条件熵定义为
E(x\Y)= - Y,1r)(2)
x e y e
条件熵和熵之间的关系为
E(X\Y)= E(XY)- E(Y)(3)
互信息用来衡量任意两个随机变量Z和F之 间的统计依存关系,互信息越大,变量间的依存度就 越高,互相之间的联系也就越密切[1()]。
随机变量Z 和F的互信息定义为
/(^F) = (4)
随机变量Z和F的互信息和熵之间的关系用
下式表示:
I(X J)= E(X)-E(X\Y)= E(Y)-E(Y\X)= E(X)+ E(Y)- E(XY)(5) 2基于统一互信息的关键属性组查找 算法
由互信息和熵的关系公式知,互信息可以由熵 计算得到。
因此,在计算互信息之前需要先计算熵 值,由熵值计算得到互相信息值,然后通过互信息来 制定关键属性的选择标准。
为了方便描述熵和互信信息的计算,假设记录w是由属性A,^,…,4描述的向量,即
及=(乂1,乂2,…,4 ) 〇
2.1属性信息熵计算方法
信息熵值的计算是基于概率统计原理的,所以 计算熵值的传统方法需要额外开辟存储空间来临时 存放每次统计的中间结果[11]。
但是相关研究表明,这种冗余存储是可以通过改变统计方式来避免的[12]。
现采用排序的方法,按照属性值进行排序,把相同的属性值排序在一起,最后进行一次统计。
下面说明属性信息熵的计算方法。
属性4取值 为《的概率/>(a),其值为j9(a)=~/〃,其中^表示数据集中的记录总数,〜表示属性4取值为《的记 录数。
根据式(6)可以计算属性4的熵值。
E(A)= ~-
X^ =
a e5a a e 5a ^^
log n - -^-^n a\og n a(6)根据上面的描述,计算属性信息熵的总体思想 是:首先根据待计算属性的值对记录进行排序,使相 同属性值的记录聚集在一起,然后统计属性值个数 和记录总数,最后根据熵值计算公式进行计算。
对应的计算流程如图1所示。
图1属性熵值计算流程
Fig. 1 Attribute entropy calculation
2.2关键属性选择标准
关键属性的选择需要一种准则作为衡量标准,信息增益(information gain)法就是综合考虑某一属 性和目标属性来作为一种准则,但是信息增益法[13]没有考虑到非目标属性之间的相互关系,这样在单 独衡量单个属性和目标属性的过程中,
很容易引入
宋国兴,等:关键属性组的相似重复记录检测方法研究67 19期
噪声属性。
例如,在现有的特征选择经典算法中,常 用二维互信息[14]来间接估计/(C;a,s)。
max/( C;a,S)=max\I(C;S)+I(C;a\S)(=
I(C;S)+max/( C;a I S)(7) 由式(7)可知,/(C;a,S)的最大化与/(C;al S)的最大化是等价的。
/(C;a I S)反映了在已知S的前 提下,属性《可以提供的新信息,即求解/(C;a I S)最大值的过程就是逐个衡量属性能否提供最多信息 的过程。
但是,如果仅从属性能否提供最多信息角 度选择属性,得到的属性很可能与类属性的相关性 较小,即/(C;a)较小。
在这种情况下,选择的属性 很有可能是噪声属性,对后续相似重复记录检测的 准确率产生影响。
综上考虑现有算法存在的缺点,提出一种综合 考虑属性所能提供的信息量/(C;a|S)和该属性与 类属性的相关程度/(C;a)的算法,即统一互信息(unified mutual information,UMI)关键属性组查找算法。
统一互信息的定义如下:
/U M I(C;al S)= (1 -w)I(C;a)+wI(C;a\S)
(8)式(8)中,互信息/(C;a)表示属性a与类属性C的相关度;/(C;a|S)表示从属性集合S中选取一些属 性的条件下,候选属性a所能提供的关于类属性C 的新信息量e[0,1]为混合系数。
3算法设计
3.1关键属性组查找
现以启发式的序列前向搜索算法[15]选择待衡 量属性,用统一互信息作为属性在检测记录相似性 过程中重要程度的标准,具体步骤如下。
步骤1初始化:*^。
A一V属性,5人一。
步骤2 Va E S V计算/(C;a)。
步骤3选择maxj/(C;a)丨对应的属性(2,5^—S U{a| ,S,0^S,0/j a|0
步骤4 repeat4. 1,4.2 ,直到满足条件。
4-1 Va e S'0,i m i vm(C;a\S);
4.2选择maxj/U M I(C;a I S)丨对应的属性a,
U丨^|■乂〇
步骤5输出特征属性集合S,即关键属性组。
其中,终止条件满足下面两种之一即可。
(1) < &A/(C;S)为添加属性a引起的/(C;S)的增长量。
(2)的具体取值根据实际数据训练确定,现在a、yS分别取0.06,0.9,并采用(1)
作为终止条件。
在应用统一互信息计算属性的重要程度时
的选取是很关键的因素。
一个好的》值要满足两
个条件:①算法初期,要保证/(C;a I S)起主要作
用;②算法后期,要尽可能减少噪声属性,即尽可能
使得/(C;a)起主要作用。
基于这两个条件,本算
法中定义》的初值为0.9,并且是随着原始属性集
合S'中属性个数减少的递减的函数,即
式(9)中,I表示属性集V包含的属性个数;I
I表示原始属性集SD中属性的个数;w v i表示删
除属性a前的混合系数表示计算属性a的统一
互信息/U M I(C;a l S)的混合系数。
3.2相似重复记录检测
在实际应用中,一条记录的属性值通常包含英
文和中文,但都是用内码的形式存储在计算机内。
所以,为了进行统一处理,根据节3. 1得到关键属性
组后,依据关键属性组,对中英文属性值编码,然后
进行相似重复记录检测。
3. 2. 1 属性值对应的内码确定
在计算机内部,字符是以内码的形式表示的,其 中,英文字符用ASCII编码,使用8 bit存储,汉字以
国标码表示,存储形式是区位码+A0A0H。
为了避
免两种编码方式冲突,把汉字编码的最高位设置为
1,所以字符与内码的对应关系可以用如下方法
计算:
字符C为英文字符时,对应的内码为
innerCode(c) = ascToDec(c) (10)
字符c为汉字时,对应的内码为
innerCode(c) = hexToDec(hh - BO)x94 +
hexToDec (hl-Al)(11) hh是汉字字符C的国标码高位,h i是汉字字符
c的国标码低位,ascToDec()函数将字符ASCII码转
换成对应的十进制数值,hexToDec()函数将十六进
制转换成对应的十进制数值,“94”表示国标码每个
区有94个字符,B0A1H是第一个汉字的国标码值。
3.2.2记录检测算法思想
(1)计算数据集中关键属性组中属性字段的内
码序值,根据属性字段的内码序值对数据集中的记
录排序。
(2)选取某个属性值的内码序值进行比较,把 内码序值相等或其均值在一定范围内的记录进行聚
类,从而把大数据集划分成多个数据子集。
(3)利用字段匹配对各数据子集的记录进行
68科学技术与工程17卷
相似度检测,并对检测出的相似重复记录进行
标记。
(4)为了提高检测的精度,选择其他属性值重 复(2)和(3 ),对数据集再次聚类,同时对相似记录
重复标记,避免记录漏查。
(5)输出检测出的相似重复记录。
3.2.3算法伪代码
//计算属性字段内码序值,并进行聚类
RecordCluster( X)
I
select(/) ;//选择属性字段/
for( f 二l;i< 二n;i+ + )//属性字段有 n■位
v\_k~\ [/i] + = innerCode();
//v[糾[A]存储第A条记录第A个属性字段内码序值
S〇rt(X,z〇][A]);//按字符内码序值对数据集X排序
Start_mark = W + 1 ;/ * starLmark指向数据集中未被聚类的
记录位置,W表示记录数*/
for(f = l;i< = = start_mark) //根据字符内码序值
//进行聚类
|X t = ^U |X;丨;//依次取X中记录放入小数据集'中
return (X l,X2,---,X J;
1
//任意两条记录第&个字段尤,和X;7;字段匹配
sim Field(X^,X.J
I
characterProcess(X认,X;7;) ;//字符化处理
沢X心X;?£e£A〇//字段由英文(包括数字)构成
return EnSimField(X^ );
else if(X^,X;7£e C//)//字段由汉字构成
return ChSimField(X^ ,X;7,);
else
I//字段包含英文和汉字,将其拆分为英文和汉字
X i k—^;
X jk y^-jkl;
return
(EnSimField(XiM,X;H ) + ChSimField(X;,2 ,X;,2) )/2;
1
1
//相似重复记录检测^为相似度阈值 DetectDuplicateRecord {X ,s)
I
muldect_flag 二 true;//多趟检测标记
for(i -0;1<-^;1+ + )
X,. duplicate一flag = 0 ;
//记录的重复记录标志,〇代表不重复
while( muldect一flag)
I
RecordCluster(X);
SimRecord(X; ,X;) -0;
for (A: = 1 ;k <= p;k+ + )
SimRecord(X; ,X; ) + -SimField(X;fc,Xjk );
if( SimRecord(X; ,X;-) > s)if( meetcondition)//满足多趟检测结束条件 muldect一flag = false;
output(X i);
3.2.4算法有效性分析
传统的相似重复记录检测算法除了需要大量的 额外存储空间以外,检测过程还会涉及大量的频繁 磁盘交换,所以会导致较高的时间复杂度。
在处理 大数据量、高维属性的记录时,空间复杂度和时间复 杂度会指数级增长。
内码序值聚类算法较传统相似重复记录检测算 法的优势在于:计算机根据字符的内码进行属性字 段排序速度快,通用性强;可以降低字符的交换、同音、拼写错误等因素对检测准确率的影响;利用字符 内码值的聚类速度快,聚类算法也减少了记录之间 的比较次数,进一步提高了效率。
4实验
4.1实验条件
实验数据:由于本文算法是针对由高维属性描述的记录的相似性检测,所以选取某地区常住 人口信息作为实验数据,每条记录包含82个属 性,共10万条。
同时,通过人工和软件相结合的方式处理数据,使其包含一定数量的重复记录。
实验数据分为两部分,第一部分是训练数据集,包 含〇. 8万条记录;第二部分是实验数据集,数据集 描述如表1。
表1数据集描述
Table1Data set description
编号数据集规模/l〇4条重复记录数/条
10. 1115
20.5523
3 1.0 1 105
4 2.0 2 410
5 4.0 4 765
68.08 213
实验环境如表2。
表2实验环境
Table2Experimental environment
项目规格项目规格
CPU Intel(R) Core
(TM)2 Duo操作系统Windows 7
CPU 主频/GHz 2. 93数据库软件MySQL 内存容量/GB4编程语目Java 硬盘容量/GB 320
19期宋国兴,等:关键属性组的相似重复记录检测方法研究
69
据集按照节3. 1得到关键属性组,然后在实验数据 集上将对基于原始数据所有属性的相似重复记录检 测算法(记为
RawData -Based )和基于关键属性组的
算法(记为KeyAttributeGroup -Based )在准确率、召回
率和运行时间两个方面进行比较实验《
(1)准确率对比。
准确率表示正确检测出的相似重复记录占检测 出的相似重复记录的比例。
设及p表示正确检测出的 相似重复记录条数,\表示检测出的相似重复记录 条数,则准确率可表示为
precision = —£
( 12)
K a
准确率的对比如图2。
4.2
实验结果与分析
4. 2. 1
U M I 关键属性组查找算法有效性验证
相似重复记录检测是从记录数据集中寻找描述 同一实体的记录的过程,这些描述同一实体的记录 集可以当作一个类,从记录中选取的关键属性组则 为描述该类的特征。
所以,本实验把根据关键属性 组得到的分类准确率作为关键属性组查找算法优劣的衡量标准。
分类器选用w eka 中提供的4种分类 算法(见表3),各算法均使用weka 默认参数。
表3
实验中使用的分类器及其算法
Table 3The classifier used in the experiment
分类器
分类幻U ;NB
朴素贝叶斯分类算法
KNN 尺近邻分类算法
NN BP
人胃神经网络分类算法
C 4. 5
决策树
从实验数据中选取1 〇〇〇条重复记录,这1 〇〇〇
条重复记录是对1〇〇个实体的描述,即有1〇〇个类。
选取包括本文U M I 算法在内的5种基于互信息的 属性选择算法进行比较实验,来验证U M I 选择。
实
验中涉及的算法见表4。
表4
实验中涉及的算法
Table 4Algorithms involved in the experiment
算法簡记
算_名称IG
倍总玳益法
M IFS M IFS 法
0FS-M I OFS-M I f 去mRM R 离散增说小冗余M 大力:f i 'f 息法
UM I
文本UMI
算法
从5种属性选择算法在对应的分类器的准确率 实验结果(表5)中可以发现,在5种分类方法中,根 据本文算法得到的关键属性对应分类结果的准确率
都是最高的,这也就说明了 U M I 关键属性选择算法 的到的关键属性组最能够准确的描述一个记录。
表5
各属性选择算法的分类准确率
Table 5 Classification accuracy of each attribute
selection algorithm %
属性选择
算法
NB
KNN
NN
C 4. 5
IG
72.5681.2275.0872.98M IFS 66.3281.7876.5474. 880FS-M I 68.5385.4775.2573.02M rm r 71.4683.2679.9670. 82UM I
75.66
88.79
82.50
79. 86
4. 2. 2
基于关键属性组的重复记录检测算法实验
验证
为了验证本文算法的有效性,首先通过训练数
0.1万条0.5万条1万条
2万条4万条8万条♦ RawData—based 80.4371.0259.5750.9645.5843.21HIHKeyAttributeGroup-based 88.1582.7179.63
75.78
74.22
69.96
图
2
准确率对比图
Fig. 2 Accuracy comparison chart
由图1可知,尽管随着记录数目的增多,两种算 法相似重复记录检测的准确率都会降低,但本文算 法的准确率较对原始数据进行的相似重复记录检测 的准确率有显著的优势,尤其是在数据量较大时
(8万条记录提升了大约1倍)这种优势更明显,并
且下降的趋势也较为平缓。
原因主要在于两个方面:一是本文算法只关 注对相似重复记录检测起关键作用并且能够全面 描述记录的属性,即本文提出的关键属性组,减少 了属性内码序值比较时的误差是过滤掉噪音 属性,所以避免了噪声属性对相似重复记录检测 准确率的干扰基于实验准确率对比和原因分 析,也说明本文提出的关键属性组查找算法查找 出的关键属性组完全能够准确地描述记录,而不 需要过多的属性。
(2)召回率对比。
召回率是指实验结果中检测出的相似重复记录 条数占本组实验数据中相似重复记录条数的比例。
每组实验召回的相似重复记录条数如表6。
o o o o o o o o o o
987654321
%/鞒摆
樂
表6召回记录数
Table 6 Recalled record number
“丨》1丨11氽数/条
编号
里反[求
数/条
Raw Data-based Key A ttribute Group-based 11159310625233674633 1 1056559184 2 410 1 103 1 8185 4 765 2 035 3 79368 213
2 998 6 110
对应的召回率的对比如图3。
较小时,计算过程的I /O 时间较小;随着数据量的增 多,所需的存储空间和计算过程的I /O 时间都会增
长,但是本文提出的算法相对较缓慢,并且两种算法 的时间差会越来越大。
导致这种结果的原因在于基 于关键属性组的算法通过属性降维,不仅节省了大 量的存储空间,还避免了非关键属性的比较,从而降 低时间复杂度,随着记录数目的增多,这种优势会越 明显。
通过对准确率、召回率和时间效率的综合分析, 本文提出的基于关键属性组的相似重复记录检测算 法具有明显的综合优势。
5
结语
相似重复记录检测是数据预处理过程的重要步 骤。
对大数据背景下由高维属性描述的记录进行相 似度检测时,非关键属性不仅会干扰关键属性对记 录相似性检测的重要性,降低检测准确度,非关键属 性的比较还会严重影响时间效率,所以本文提出通
过基于统一互信息的方法得到记录的关键属性组, 依据关键属性组的属性进行记录的相似度检测。
该 算法的优点在于既可以保证关键属性组属性全面描 述记录信息,又降低了属性维度,减少了噪音属性对 相似重复记录检测准确率和时间的影响,但是不足 之处在于,随着待检测记录数量的增多,算法花费的 时间会快速增多,这也是后续工作需要解决的问题。
参考文献
1周典瑞,mi 选炎.海数据的相似u r n 检测灯法.H i m
应
用,2013;33(8) :2208—2211
Zhou Dianrui, Zhou Lianying. Algorithm for detecting approximate
duplicate records in massive data. Journal of Computer Applications, 2013 ;33(8) :2208—2211
2
郭文龙.一种改进的相似取泌检测笕法.u i r 机成川4软 件,2014;(1) :293—295
Guo Wenlong. An improved detection algorithm for similar and duplicated records. Computer Applications & Software, 2014; ( 1 ): 293—295
3
Hemanaez M A ,Stolfo S : J. Real-world data is dirty : data cleansing and the merge/purge problem. Data Mining and Knowledge Discovery,1998;2(1) :9—374
陈爽,习兴奍,宋金1<:,等.坫于伸缩窗口和等级调整的SNM 改迸方法.计T):机说川研究,2013 ;30(9) :2736—2739
Chen Shuang, Diao Xingchun, Song Jinyu, M al. Amelioration method of SNM based on flexible window and ranking adjusting. Application Research of Computers, 2013; 30(9) :2736—2739 5
Chandel A, Hassanzadeh 0, Koudas et al. Benchmarking declarative approximate selection predicates. Computer Science, 2009;11 (4) :353—3646
韩京宇,徐、'/:臻,朮逸斗一种大数据〖i t 的相似记汆检测7/法.汁 算机研究与发展,2005 ;42( 12) :2206—2212
V
0.1万条0.5万条1万条
2万条4万条8万条-4—RawData-based
2.797.3114.5519.126.0238.81-■-KeyAttributeGr
oup-based
1.52
4.43
8.92
13.15
17.79
22.61
图
4时间效率对比图
Fig. 4 Time efficiency comparison chart
根据时间效率对比图,在数据量较小时,两种算 法的运行时间较小且非常接近,主要是因为数据量
0.1万条〇
_5万条1万条2万条4万条8万条—RawData-based
65.7959.3750.2248.3545.7743.95KeyAttributeGro
up-based
88.57
84.38
80.07
78.15
75.44
73.25
图
3召回率对比图
Fig. 3 Recalled ratio comparison chart
由表6和图3可以发现,随着实验数据集记录 数的增加,复杂度也会增加,两种算法的性能不可避 免地出现下降,本文算法下降较为平缓,并且一直保 持较高的召回率。
(3)时间效率对比Q 时间效率的对比如图4。
70
科学技术与工程
17卷
%/褂
回
Rn
宋国兴,等:关键属性组的相似重复记录检测方法研究71 19期
Han Jingyu, Xu Lizhen, Dong Yisheng. An approach for detecting similar duplicate records of massive data. Journal of Computer Research &Development, 2005;42(12) :2206—2212
7 Deepa K, Rangarajan R, Senthamil Selvi M. Automatic threshold
selection using PSO for GA based duplicate record detection.
International Journal of Computer Applications, 2013 ;62 ( 4 ):22—27
8 Shannon C E, Weaver W. The mathematical theory of communication.
Urbana, USA:University of Illinois Press, 1949
9朱雪龙.应用信息论基础,北京:清华大学出版社,2000 Zhu Xuelong. Fundamentals of Applied Information Theory, Beijing:Tsinghua University Press, 2000
10黄卫春,范少帅,熊李艳,等.基于特征选择的人物关系抽取方 法.科学技术与工程,2015; 15(3) :254—259
Huang Weichun, Fan Shaoshuan, Xiong Liyan, et al.Method of character relation extraction based on feature selection. Science and Technology and Engineering, 2015;15 (3) :254—259
11王克朝,王甜甜,王知非,等.基于结构特征聚类的相似代码检
索方法•科学技术与工程,2015; 15(11) :221 —225
Wang Kezhao, Wang Tiantian, Wang Zhifei, et al.Similar code structure, feature clustering retrieval method. Based on Science Technology and Engineering, 2015;15 (11) : 221 —225
12 Wang H. Duplicate record detection for data integration. Innovative
Techniques & Applications of Entity Resolution, 2014 ;10 (3): 257—259
13董微,刘学,倪宏.基于信息增益的自适应特征选择方法.
计算机工程与设计,2014; (8) :2856—2859
Dong W ei, Liu Xue, Ni Hong. Adaptive feature selection method based on information gain. Computer Engineering & Design, 2014;
(8) :2856—2859
14 Gondy L A, Thomas C R B,Bayes N. Programs for machine
learning. Advances in Neural Information Processing Systems, 1993;79(2) :937—944
15 Han J, Kamber M. Data Mining :concepts and techniques. New
York, Morgan Kaufman, 2000
Similar Duplicate Records Detection Based on Key Attribute Group
SONG Guo-xing1’2’3, ZHOU Xi1’3, MA Bo1’3, ZHAO Fan1’3
(Xinjiang Institute of Physical and Chemical Technology Chinese Academy of Sciences1 ,Urumqi 830011, P. R. China;
University of the Chinese Academy of Sciences2 , Beijing 100049, P. R. China;
Xinjiang Laboratory of Minority Speech and Language Information Processing3 , Urumqi 830011 , P. R. China) [Abstract ] The detection of similar duplicate records is a key link in data preprocessing. In the process of similar duplicate records detection for massive data, for the problem of low precision and low time efficiency caused by high attribute dimension of a record, a key attribute group search algorithm based on unified mutual information is proposed. And the purpose of accurately detecting similar duplicate records and improving time efficiency is achieved. Finally, on the real data set, the accuracy and efficiency of the algorithm are compared with the similar duplicate records based on all attributes of the original data, and the validity of the proposed algorithm is verified. [Key words ] unified mutual information key attribute group dimension reduction similar duplicate records noise attribute。