基于改进遗传算法与Apriori算法的岸桥机械关联规则挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于改进遗传算法与Apriori算法的岸桥机械关联规则挖掘潘海洋;薛超飞
【摘要】基于对传统遗传算法的关联规则挖掘,提出了改进型遗传算法.该算法提出了一种自适应变异率方法,并改进了个体选择方法.最后,将其应用到岸桥机械数据关联规则挖掘中进行实验,并用Apriori算法验证了该方法的高效性和可靠性.
【期刊名称】《现代制造技术与装备》
【年(卷),期】2016(000)003
【总页数】2页(P39-40)
【关键词】遗传算法;Apriori算法;岸桥机械;关联规则
【作者】潘海洋;薛超飞
【作者单位】上海海事大学物流工程学院,上海 201306;上海海事大学物流工程学院,上海 201306
【正文语种】中文
随着信息时代的到来,各行各业大量的数据积累形成了大数据的仓库。

所以,急需智能地把这些数据信息转换成有用参考信息的技术,辅助决策层进行决策。

关联规则挖掘是数据挖掘领域的一个重要内容,但传统的遗传算法存在一定的缺陷,容易导致算法过早收敛而陷于局部最优困境,或收敛时间过长而消耗大量的搜索时间。

因此,本文提出了一种改进的遗传算法。

该算法采用自适应变异率和改进的个体选择方法克服上述缺陷,并将这种改进的遗传算法用于关联规则的挖掘[1-2]。

目前,广泛使用的关联规则算法是Apriori算法或其改进算法。

数据挖掘关联规则
问题发掘支持度S和置信度C分别大于用户最小支持度和最小置信度的关联规则。

支持度是包含X和Y的数所占总体的百分比。

置信度是包含X和Y的数与包含X
数的百分比。

找到所有支持度大于用户最小支持度的项集,称为频繁项集。

然后,从找到的频繁项集中构造其置信度大于用户最小置信度的关联规则[3]。

遗传算法是一种基于自然选择和生物遗传机制的优化技术。

它依靠自然随机算法逼近问题的最优解,具有很好的全局搜索能力,已经成为优化、搜索和求解非确定多项式问题的有力工具。

然而,算法中早熟问题不可忽视,主要表现在两方面:群体中所有的个体都陷于同一极值而停止进化;接近最优解的个体总是被淘汰,进化过程不收敛。

1.1 自适应变异率的改进
在遗传算法进化的早期阶段,提出了一种自适应变异率方法,变异率如下所示:
其中,变异率是n+1代,初始为,为个体i种群的适应度,是种群的最高适应度,是n+1代种群的最高适应度,m为种群总体数量,λ为变化系数。

该变异率便于
进化中新的基因导入,避免了优秀的基因因为过度变异造成收敛时间过长,进而提升其进化性能。

1.2 个体选择方法的改进
传统的遗传算法采用轮盘赌方式选择交叉组。

这样进化初期,可能个别适应度特别高的个体复制出很多后代,所带的基因就会很快占据在种群中。

因而,在后期的进化中,其中的搜索陷入局部最优解。

因为适应度大体相同,复制最后的淘汰作用降低。

本文提出一种改进的选择淘汰方法,应用于遗传算法的后期:适应度大小对待筛选个体排序;复制2份前1/4个体,复制1份前1/4到2/4的个体,随后进行
下次选择;留下前2/4到3/4部分个体,随后进行下次选择;淘汰前3/4到4/4
的部分个体,不进行下次选择[4]。

1.3 其遗传算法用于关联规则挖掘
将改进的遗传算法用于岸桥机械关联规则挖掘:选取20份岸桥实时状态健康评价表中8个主要监测点,采用文章中提出的改进遗传算法分析其关联规则,其编码
如表1所示[5]。

按照“良好、预警、危险、停机”四种状态,采用十进制编码“良好=3,预警=2,危险=1,停机=0”。

将岸桥实时状态的健康评价表中8个主要监测点表示为8位的十进制数字,如“30313213”表示岸桥的前大梁外端区域振动、海侧门架横梁区域振动、左侧起升电机振动烈度、小车电机振动烈度状态良好,岸桥的右侧起升电机振动烈度有预警状态,陆侧门架横梁区域振动和起升减速箱高速轴振动烈度有危险状态,前后大梁铰接区域振动有停机状态。

对于上述数据用Matlab进行实验分析,随机生成N=20的初始种群,适应度函数中α=2.5,β=0.5,初始变异率
=0.05,自适应变异率公式中λ=1.5,交叉率=0.7,进化终止条件为fmax-fmin
<0.05或者进化300代[6]。

对运算结果进行合并相似规则的处理,可以得到如表2所示的结果。

1.4 Apriori算法对比验证[7]
提取20份岸桥健康评价表中测点的“预警状态”情况,也表示为8位的十进制数字,如“10040670”表示预警状态的测点有前大梁外端区域振动、陆侧门架横梁区域振动、右侧起升电机振动烈度、起升减速箱高速轴振动烈度。

将提取的数据输入Matlab中,以“testdata.mat”命名保存。

同样,设置其最小支持度为0.2,
最小置信度为0.8。

使用Apriori算法对其关联规则进行挖掘。

部分主程序如下:load'testdata.mat'%读入事务矩阵(每行代表一个事务,每列代表一个项)PrintTransactions(testdata);%打印出事务
min_sup=4;%初始化最小支持度
min_conf=0.8;%初始化最小置信度
[rules_left,rules_right]=Apriori(testdata,min_sup, min_conf);%运算
Apriori算法
PrintRules(rules_left, rules_right);%打印强关联规则
得到的频繁项集和支持度截图如图1所示,关联规则如图2所示。

通过图1和图2可以得出,根据Matlab实验要求的支持度都大于等于0.20,置信度都大于等于0.80的三个关联规则基本与表2的结果吻合,海侧门架横梁区域振动与小车电机振动同时出现预警状态最频繁,其次是前后大梁铰接区域振动与左侧起升电机振动、前大梁外端区域振动与起升减速箱高速轴振动。

针对传统遗传算法所存在的容易过早收敛问题,提出了一种自适应变异率算法,并应用于进化的早期阶段,以避免进化早期出现的高适应度个体的过度复制而陷入局部最优值。

进化后期,个体相似度很大,轮盘赌方式的淘汰能力减弱,于是提出了一种改进的个体选择方法。

将算法应用于岸桥机械数据的关联规则挖掘中,并用Apriori算法进行验证,得出了一致的关联规则结果。

该方法只应用于简单的岸桥机械数据,但在实际应用过程中,可以根据具体情况在本文所选的指标上进一步修改,从而可以获取更多实用有价值的岸桥信息。

【相关文献】
[1]郑继刚,王边疆.数据挖掘研究的现状与发展趋势[J].思茅师范高等专科学校学报,2010,26(1):35-38.
[2]张莉.数据挖掘研究现状及发展趋势[J].赤峰学院学报:自然科学版,2014,30(9):14-15.
[3]潘俊辉,王辉.一种基于改进的遗传算法的关联规则挖掘及应用[J].齐齐哈尔大学学报:自然科学版,2011,27(2):11-14.
[4]S.Narmadha,S.Vijayarani.Protecting Sensitive Association Rules in Privacy Preserving Data Mining using Genetic Algorithms[J].International Journal of Computer Applications,2011,(33):37-39.
[5]Song Xiaona,ZHU Qiliang.The Application of Genetic Algorithms in Data
Mining[J].Science & Technology Information,2008,(17):401-402.
[6]温正.精通MATLAB智能算法[M].北京:清华大学出版社,2015:143-192.
[7]吕德文.MATLAB遗传算法工具箱的研究与应用[J].湖南农机,2013,40(3):130-131.。

相关文档
最新文档