一个基于属性相似性的聚类分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可以是单个对象, 也可以是多个对象组成的 类, 或者其中一个表示单个对象, 而另一个表
示一类。 ( 下转第 “ 页)
为属性的平均权重。a是 S 的第 k ; 、 * 个属性,
・6 ・
《 电脑与信息技术》02 20 年第 4 期
因考虑到安全问题而未予列出。
4 算法测试与优化
完成算法设计后进行程序编码, 编译后 得可执行的目标码。在实际使用前还需对算
一个基于属性相似性的聚类分析方法
李广原, 李文敬
( 广西师范学院信息技术系, 南宁 500) 301
摘 要: 聚类分析是数据挖掘技术中的一类常见的方法。对于一类数值属性的挖据, 聚类之后, 常出现所谓的孤立点。 然而, 有的孤立. 点其实并不孤立, 它可能仍属于某个 已 确定的类, 文章提出了一个基于属性之间相似关系的聚类分析万法, 并对此进行 了
如果
式二(I 1 I A a , A 一r ; 、 ; I ; I 二 i ; >
} A 一 , 止 ,份 二 B. 不牛 胃 >
};+}A { ’ A} A ; 一厂
下丁兴井t二 1之口 , ) () 4
V ) j V7 j.}j , i , jV2 .Vm 其中V 为属性 .S =( , ,. ) i a的值。我们把 SI, ‘ i s看成是 m维空间的一
个点, 则它们之间相似度的大小可用它们之
称 K D 是从大量数据中提取可信的、 D, 新颖
的、 有效的并能被人理解的模式的处理过程, 这种处理是非常繁琐的过程。数据挖掘的方 法大致可分为机器学习方法、 统计方法、 神经
我们记
A 二{ a为重要属性} I 、 A n r , a () 1 A _ 成闷 为次要属性 } ; { 不 () 2 即 S= A U 对某一对象 SE , ; ; ; A ; S 我们
类分析方法。 对于给定的属性集, 各属性在某 个对象 S 中的重要性一般来说是不相同的, 、 我们用一个阂值来代表属性在对象中的重要 程度, 我们称为属性的权重。 我们的方法是基 于这样一个假设: 对于两个对象, 如果它们之 间具有越多的相同属性且相同属性的权重较 大, 则它们越相似。我们给出以下定义: 定义 1 设 =(l ,. n S S12.Ir为给定的 5 1 .S )
下面我们给出基于属性相似性的聚类方
法的基本策略。如果某一对象的重要属性与 某类中心点的重要属性相同的比例大于某个 值且重要属性个数占到全部属性的某一定值
时, 我们把它们划归为同一类 , 否则它们属不 同的类。 基于属性相似性的聚类算法如下:
5 结束语
在算法设计和程序编码完成后, 建立好 应用系统的测试环境。 将加/ 解密程序嵌入应
用系统进行测试, 经全面测试后再投入到应 用系统的生产环境中。 加/ 解密程序投入生产环境已经一年多, 从运行情况来看, 其速度满足了系统正常运 行时的要求, 算法其它方面的性能满足要求, 应用系统运行正常。 参考文献 :
几里得距离, 如果把相似度的计算方法写成
下式
如果对任一 a , i 0i z rVl t , Sa +, +…+A )M } ,, ./
di ) , 1 V z V1 i +I i+…+ (, =I j 一V I i z 】 一V I、 i V二 n 一V }
・5 ・
d ij “N(r i’ V 一 z +…+(, V ) iz (, ) V 1 +(r V ) ; ) 一V z V 一 iZ 。 n
这里的V Vk =12", 分别为对 , ik ,," , ( "m) 象S S 的第K个属性的属性值, , 上式为欧
外界进行信息交流。可是, 数据大量的涌入, 增加了我们获取有用信息的难度。如何从大 量的数据中获得有价值的信息, 采用传统的 数据库技术已显得无能为力。数据的迅速增 加与数据的分析处理方法滞后的矛盾越来越
大, 人们希望能够在对已有的大量数据分析 的基础上进行科学研究、 商业决策或企业管 理, 数据挖掘正是在这一背景下诞生的。 实践 证明, 数据挖掘已在多个领域里取得了成效。
[] C /P L ME TO . IY C R . 6 1 T P I I E N I N U S S P 19. MP N O 9 [] S S E A T IU E O R M .U IY 2 Y T M T R B T P G A R NS S
C . ORP 1 9 . 6 9
在开始设计算法时, 应对算法的理论基 础进行透彻分析, 看是否能达到自己的设计 目的。 考虑到算法的实现特性, 在完成程序编 码后, 还需再次对算法的程序编码进行评价。 () 2算法速度测试
编一程序循环调用加/ 解密算法 , 取平均 值可得每次算法调用的执行时间。这样可评 价加/ 解密操作的运算量。
网络方法和数据库方法。
间的距离d , 来度量。 i) (j 距离越大, 相似度越
小; 反之 , 相似度越大 。
收稿日期:02 0 一 1 20 一 5 1 作者简介: 李广原, 硕士, 男, 讲师, 研究方向: 信息检索、 数据库技术; 李文敬, 讲师。 男,
《 电脑与信息技术》02 20 年第 4 期
I - A
I A ; ‘ A! A } ;十} 一厂
取值, 对于d ES , IV ,22.,l S , S=(ll , ,./ k nV . l , ; V )A表示对象 S 中属性 a 的权重,i , ,, n ; ‘ , Ac ,- [ 1」 01 。 定义 2 对任一 SES S二(i i , ,, AV , l 益
则成为曼哈坦距离, 此外, 还有明考斯距 离, 其定义如下:
di ) I j“ i v I v 一Y V 一 iq ቤተ መጻሕፍቲ ባይዱj二( i l+}z , , , ! +…
+}。 V V一 }4/ ; .) n 4 。] I
这里的q 是一个正整数。当q 时, =1 它 表示曼哈坦距离, =2 表示欧几里得 当q 时,
距离 。
2 基于属性相似性的聚类分析方法
对于一类数据属性的挖掘, 经过聚类之 后常出现一些所谓的孤立点。孤立点是这样 的一些数据, 对于一个给定的聚类方法, 经过 聚类之后, 它们不属于任何一类。其实, 有的 孤立点并不孤立。下面我们给出一个新的聚
( a取值为 04 可视不同情况定)则 a 为 ., , ; * “ 重要” 属性 , 否则为“ 次要” 属性。其中,* 凡是 属性 a的权重。 ; , 此外, 对于一个已给定的类, 为了简化计 算, 我们选取该类的“ 中心点” 来代表该类。 “ 中心点” 的选取, 可选择在空间分布上属最 “ 核心” 的点, 也可取该类所有对象的各属性 的平均值作为该中心点的属性。当然后一种 情况的这个点是一个“ 虚点”但这不影响我 , 们的做法。 据以上定义及假设对V ES i ,, S ; (=12 -,)‘ -nS 可表示为 - S_ , a为重要属性 } I ; 1; {a , . U 仪aI } i a为次要属性 : o ,。 , ; 分别为属性 a a的权重) } ; ;
() 解密输出结果比对 3加/ 检查加/ 解密输出值是否在预测区域, 并 检查程序运算的正确性。 () 4相关性分析 取一组加/ 解密输出值, 算出这些值之间
( 止接 第 6页)
e df ni edo nd
V , 1 Vn d A+A+…+从 )M z…,. . , 二(t r , )称 I z /
其中,E ,]夕 [. ]a月 061;E 31,, 取 a [. 0 , 值可视实际情况而定,A;,A II; I; I, A } I , 分别 为集合A; ; , ;A, 元素的个数。 , A 则S S同 属一类, ;; , 否则自 成一类。S S ; , ;
离的计算方法, 如欧氏距离, 明考斯基距离
1 数据挖掘及聚类分析
数据挖掘又叫数据库 中的知识发现 , 简
等 下作 要 介 [ 。 面 简 的 绍l U 0
对于任意两个对象 S, ij S, a a, A二( 2
…, ) 。 为对象的属性集,i iV , 、 S ( i ., = , . V i . 2
探讨。
关键词 : 数据挖据; 聚类分析; 相似度; 属性 A s atCutr a s i a p l m to i D t Mi n ' T cnl y T bt c: ls a l i s o ua ehd aa n gs h o g , o r e n y s p r n i e o sm dt atb t ,f r s r g te ae ul e eg sm s o e a r ue a e c t i ,hr r u a y re e ae a t i s t l en u e s l m o o一cld l o tes be H w vrsm o tes nt l eMab te ae o g a ulr po l i r m. ee, e lr ae i a . y e y bl t o o ui r o s t o h r e n o df i c s. e pr cs wt ti pol b peet g nwy s r ei t l sT p e d ue h s be y sni a l c t n e a h a i s i h r m r n e l e u aa s meh d sd te iry te r ue. nl i to b e o h s l i o h atb t y s a n i a t f t i s m K y rs t miig c se aa s ; i r yat b t e w d ;aa nn ; tr l i s l i ; iue o d l u n y s i at t m r 计算机技术的迅猛发展以及网络的普 及, 使人们有了更多的机会和便捷的方法与 所谓聚类 就是把给定一对象集合分组 , 成为由类似对象组成的多个类的过程。方法 是根据对象间的相似程度而归于一个类别, 两对象是否归于同一类, 要看它们的相似度 如何。 当它们之间的相似度大于某一值时, 则 归于同一类, 否则, 两对象分属不同的类。在 聚类分析方法中, 又可分为基于划分的方法、 基于层次的方法、 基于密度的方法、 基于网格 的方法和基于模型的方法。对于一类数值属 性的挖掘方法, 目前较常用的是基于几何距
法和程序进行分析、 测试与优化。
的自 相关性值, 看输出统计值是否满足相关 技术分析指标。 () 5算法优化 通过对算法的分析、 速度测试和对加/ 解 密输出值的统计分析, 找出算法需改进的环 节并进行优化。 重复以上过程, 直到算法和程
序都满足要求。
() 1算法理论分析
对象集, A=(,a, a ) a,z一,. 为属性 集, V= ( 1 z.I .为属性值集, V , ,. ) V .V 其中 V 为 a 的 ‘ ‘
也有S=A U ; ; } ; ; A A, 意义同上, A 对任意
的两个对象 S,; S设 ; E S A 门 ; ; ; ; A =A () 3
示一类。 ( 下转第 “ 页)
为属性的平均权重。a是 S 的第 k ; 、 * 个属性,
・6 ・
《 电脑与信息技术》02 20 年第 4 期
因考虑到安全问题而未予列出。
4 算法测试与优化
完成算法设计后进行程序编码, 编译后 得可执行的目标码。在实际使用前还需对算
一个基于属性相似性的聚类分析方法
李广原, 李文敬
( 广西师范学院信息技术系, 南宁 500) 301
摘 要: 聚类分析是数据挖掘技术中的一类常见的方法。对于一类数值属性的挖据, 聚类之后, 常出现所谓的孤立点。 然而, 有的孤立. 点其实并不孤立, 它可能仍属于某个 已 确定的类, 文章提出了一个基于属性之间相似关系的聚类分析万法, 并对此进行 了
如果
式二(I 1 I A a , A 一r ; 、 ; I ; I 二 i ; >
} A 一 , 止 ,份 二 B. 不牛 胃 >
};+}A { ’ A} A ; 一厂
下丁兴井t二 1之口 , ) () 4
V ) j V7 j.}j , i , jV2 .Vm 其中V 为属性 .S =( , ,. ) i a的值。我们把 SI, ‘ i s看成是 m维空间的一
个点, 则它们之间相似度的大小可用它们之
称 K D 是从大量数据中提取可信的、 D, 新颖
的、 有效的并能被人理解的模式的处理过程, 这种处理是非常繁琐的过程。数据挖掘的方 法大致可分为机器学习方法、 统计方法、 神经
我们记
A 二{ a为重要属性} I 、 A n r , a () 1 A _ 成闷 为次要属性 } ; { 不 () 2 即 S= A U 对某一对象 SE , ; ; ; A ; S 我们
类分析方法。 对于给定的属性集, 各属性在某 个对象 S 中的重要性一般来说是不相同的, 、 我们用一个阂值来代表属性在对象中的重要 程度, 我们称为属性的权重。 我们的方法是基 于这样一个假设: 对于两个对象, 如果它们之 间具有越多的相同属性且相同属性的权重较 大, 则它们越相似。我们给出以下定义: 定义 1 设 =(l ,. n S S12.Ir为给定的 5 1 .S )
下面我们给出基于属性相似性的聚类方
法的基本策略。如果某一对象的重要属性与 某类中心点的重要属性相同的比例大于某个 值且重要属性个数占到全部属性的某一定值
时, 我们把它们划归为同一类 , 否则它们属不 同的类。 基于属性相似性的聚类算法如下:
5 结束语
在算法设计和程序编码完成后, 建立好 应用系统的测试环境。 将加/ 解密程序嵌入应
用系统进行测试, 经全面测试后再投入到应 用系统的生产环境中。 加/ 解密程序投入生产环境已经一年多, 从运行情况来看, 其速度满足了系统正常运 行时的要求, 算法其它方面的性能满足要求, 应用系统运行正常。 参考文献 :
几里得距离, 如果把相似度的计算方法写成
下式
如果对任一 a , i 0i z rVl t , Sa +, +…+A )M } ,, ./
di ) , 1 V z V1 i +I i+…+ (, =I j 一V I i z 】 一V I、 i V二 n 一V }
・5 ・
d ij “N(r i’ V 一 z +…+(, V ) iz (, ) V 1 +(r V ) ; ) 一V z V 一 iZ 。 n
这里的V Vk =12", 分别为对 , ik ,," , ( "m) 象S S 的第K个属性的属性值, , 上式为欧
外界进行信息交流。可是, 数据大量的涌入, 增加了我们获取有用信息的难度。如何从大 量的数据中获得有价值的信息, 采用传统的 数据库技术已显得无能为力。数据的迅速增 加与数据的分析处理方法滞后的矛盾越来越
大, 人们希望能够在对已有的大量数据分析 的基础上进行科学研究、 商业决策或企业管 理, 数据挖掘正是在这一背景下诞生的。 实践 证明, 数据挖掘已在多个领域里取得了成效。
[] C /P L ME TO . IY C R . 6 1 T P I I E N I N U S S P 19. MP N O 9 [] S S E A T IU E O R M .U IY 2 Y T M T R B T P G A R NS S
C . ORP 1 9 . 6 9
在开始设计算法时, 应对算法的理论基 础进行透彻分析, 看是否能达到自己的设计 目的。 考虑到算法的实现特性, 在完成程序编 码后, 还需再次对算法的程序编码进行评价。 () 2算法速度测试
编一程序循环调用加/ 解密算法 , 取平均 值可得每次算法调用的执行时间。这样可评 价加/ 解密操作的运算量。
网络方法和数据库方法。
间的距离d , 来度量。 i) (j 距离越大, 相似度越
小; 反之 , 相似度越大 。
收稿日期:02 0 一 1 20 一 5 1 作者简介: 李广原, 硕士, 男, 讲师, 研究方向: 信息检索、 数据库技术; 李文敬, 讲师。 男,
《 电脑与信息技术》02 20 年第 4 期
I - A
I A ; ‘ A! A } ;十} 一厂
取值, 对于d ES , IV ,22.,l S , S=(ll , ,./ k nV . l , ; V )A表示对象 S 中属性 a 的权重,i , ,, n ; ‘ , Ac ,- [ 1」 01 。 定义 2 对任一 SES S二(i i , ,, AV , l 益
则成为曼哈坦距离, 此外, 还有明考斯距 离, 其定义如下:
di ) I j“ i v I v 一Y V 一 iq ቤተ መጻሕፍቲ ባይዱj二( i l+}z , , , ! +…
+}。 V V一 }4/ ; .) n 4 。] I
这里的q 是一个正整数。当q 时, =1 它 表示曼哈坦距离, =2 表示欧几里得 当q 时,
距离 。
2 基于属性相似性的聚类分析方法
对于一类数据属性的挖掘, 经过聚类之 后常出现一些所谓的孤立点。孤立点是这样 的一些数据, 对于一个给定的聚类方法, 经过 聚类之后, 它们不属于任何一类。其实, 有的 孤立点并不孤立。下面我们给出一个新的聚
( a取值为 04 可视不同情况定)则 a 为 ., , ; * “ 重要” 属性 , 否则为“ 次要” 属性。其中,* 凡是 属性 a的权重。 ; , 此外, 对于一个已给定的类, 为了简化计 算, 我们选取该类的“ 中心点” 来代表该类。 “ 中心点” 的选取, 可选择在空间分布上属最 “ 核心” 的点, 也可取该类所有对象的各属性 的平均值作为该中心点的属性。当然后一种 情况的这个点是一个“ 虚点”但这不影响我 , 们的做法。 据以上定义及假设对V ES i ,, S ; (=12 -,)‘ -nS 可表示为 - S_ , a为重要属性 } I ; 1; {a , . U 仪aI } i a为次要属性 : o ,。 , ; 分别为属性 a a的权重) } ; ;
() 解密输出结果比对 3加/ 检查加/ 解密输出值是否在预测区域, 并 检查程序运算的正确性。 () 4相关性分析 取一组加/ 解密输出值, 算出这些值之间
( 止接 第 6页)
e df ni edo nd
V , 1 Vn d A+A+…+从 )M z…,. . , 二(t r , )称 I z /
其中,E ,]夕 [. ]a月 061;E 31,, 取 a [. 0 , 值可视实际情况而定,A;,A II; I; I, A } I , 分别 为集合A; ; , ;A, 元素的个数。 , A 则S S同 属一类, ;; , 否则自 成一类。S S ; , ;
离的计算方法, 如欧氏距离, 明考斯基距离
1 数据挖掘及聚类分析
数据挖掘又叫数据库 中的知识发现 , 简
等 下作 要 介 [ 。 面 简 的 绍l U 0
对于任意两个对象 S, ij S, a a, A二( 2
…, ) 。 为对象的属性集,i iV , 、 S ( i ., = , . V i . 2
探讨。
关键词 : 数据挖据; 聚类分析; 相似度; 属性 A s atCutr a s i a p l m to i D t Mi n ' T cnl y T bt c: ls a l i s o ua ehd aa n gs h o g , o r e n y s p r n i e o sm dt atb t ,f r s r g te ae ul e eg sm s o e a r ue a e c t i ,hr r u a y re e ae a t i s t l en u e s l m o o一cld l o tes be H w vrsm o tes nt l eMab te ae o g a ulr po l i r m. ee, e lr ae i a . y e y bl t o o ui r o s t o h r e n o df i c s. e pr cs wt ti pol b peet g nwy s r ei t l sT p e d ue h s be y sni a l c t n e a h a i s i h r m r n e l e u aa s meh d sd te iry te r ue. nl i to b e o h s l i o h atb t y s a n i a t f t i s m K y rs t miig c se aa s ; i r yat b t e w d ;aa nn ; tr l i s l i ; iue o d l u n y s i at t m r 计算机技术的迅猛发展以及网络的普 及, 使人们有了更多的机会和便捷的方法与 所谓聚类 就是把给定一对象集合分组 , 成为由类似对象组成的多个类的过程。方法 是根据对象间的相似程度而归于一个类别, 两对象是否归于同一类, 要看它们的相似度 如何。 当它们之间的相似度大于某一值时, 则 归于同一类, 否则, 两对象分属不同的类。在 聚类分析方法中, 又可分为基于划分的方法、 基于层次的方法、 基于密度的方法、 基于网格 的方法和基于模型的方法。对于一类数值属 性的挖掘方法, 目前较常用的是基于几何距
法和程序进行分析、 测试与优化。
的自 相关性值, 看输出统计值是否满足相关 技术分析指标。 () 5算法优化 通过对算法的分析、 速度测试和对加/ 解 密输出值的统计分析, 找出算法需改进的环 节并进行优化。 重复以上过程, 直到算法和程
序都满足要求。
() 1算法理论分析
对象集, A=(,a, a ) a,z一,. 为属性 集, V= ( 1 z.I .为属性值集, V , ,. ) V .V 其中 V 为 a 的 ‘ ‘
也有S=A U ; ; } ; ; A A, 意义同上, A 对任意
的两个对象 S,; S设 ; E S A 门 ; ; ; ; A =A () 3