的数据挖掘方法在故障诊断中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
郑州大学
硕士学位论文
基于规则的数据挖掘方法在故障诊断中的应用
姓名:石金彦
申请学位级别:硕士
专业:机械电子工程
指导教师:黄士涛
2003.5.15
摘要Y
s2专i81
针对数据库和数据仓库技术在故障诊断领域的广泛应用以及现在各工厂基本上都对重要设备实施了实时监控,由传感器不间断的传回反映机组运行状态的各种数据及参数,已经形成大型的数据库或数据仓库这一事实,提出将数据挖掘中产生显式规则的方法应用于该领域。
决策树、粗糙集、关联规则等数据挖掘方法能产生显示的规则,并能有效解决海量数据中知识的发现问题。
决策树是一个类似于流程图的树结构,主要用途是提取分类规则,进行分类预测。
粗糙集理论无需提供除问题相关的数据集合外的任何先验信息,适合于发现数据中潜在的规律、不准确数据或噪声数据内在的结构联系,可以解决重要的分类问题。
关联规则反映一个事件和其他事件之间依赖或关联的知识。
如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
应用于故障诊断领域,对大量的机组状态数据进行挖掘,发现故障数据中存在的规律,以规则的形式体现出来,可以为故障诊断提供决策依据。
利用转子实验台的模拟故障数据对提出的方法进行考核。
结果表明,系统采用的几种方法所得出的规则是正确的,并能正确用于故障的分类工作,也可为专家提供有价值的信息。
在WINDOWS98开发平台上,结合开发工具MicrosoftVisumc++6.0,SQLServer数据库管理系统。
采用面向对象的程序设计思想和模块化程序设计方法,对基于显式规则的几种数据挖掘方法进行了软件实现,开发了基于故障诊断的挖掘系统,该系统具有一定的实用价值。
本文的创新点在于将数据挖掘产生规则的方法引入了故障诊断,结合先进的数据库管理系统,将数据挖掘中关联规则、粗糙集以及决策树方法用于故障的分类工作,并最终软件实现了以上的构想。
关键词:故障诊断、数据挖掘、决策树、关联规则、粗糙集、分类
Abstract
Inaccordancewiththewidelyapplicationofdatabasesanddatawarehouses,andtherealityoftheinstallationofon-lineandoff-linemonitoringsystemtosignificantequipmentandlarge—scaledatabasesanddatawarehouseshavecomeintobeinginfaultdiagnosisfield,thepaperrepresentsanewmethodofdataminingwhichproducesvisiblerules.Potentialknowledgecanbeeffectivelydiscoveredbydataminingmethodsuchasdecisiontree,roughsetandassociationrulesfromamassoffaultda_饥
Decisiontree,asaflowchart,isstructureofatree,whichiSmostlyusedinfindingclassificationrulesandpredictionofclassification.Roughsettheoryismainlyusedinattributesreductionandclassification.Potentialrule,internalrelationofinaccurateornoisedatacanbediscoveredbyroughset,althoughthereisnoanypriorknowiodgeexpectthedatasetassociatedwithactualproblem.Associationrulesreflectthehlowledgereliedorassociatedbetweenoneeventandtheotherevents.Ifassociationsbetweentwoattributesorseveralattributesaregothold,oneattributevalueamongtheseattributescanbepredictedbyvaluesofotherattributes.Whensuchdataminingmethodsareusedinfaultdiagnosisfieldbasedonanlassoffaultdataaboutmachinerystate,significantinformationCanbediscoveredandbeshowedasvisiblerulesanddecisiveconclusionsfordiagnosisbeacquiredfromtheserules.Theresultsindicatethatrulesgeneratedbydataminingsystemareaccordingwithactualfaultfeaturesandthissystemcanbeusedinaccurateclassificationofdifferentfaults.
IntheenvironmentofMicrosoftVisualc++6.0andDatabaseManagementSystem(DBMS)SQLServer7.0,theChineseversionofWindow98operatingsystem,afaultdiagnosissystemisdevelopedbyusiI唱dataminingmethods,inwhichvisiblerulesareproduced.Finally,thesystemistestedbyexperimentdataofarotarymachinery.
TheinnovativepointsofthispaperaIeasfollowed:introducingthedatamiIlingmethodswhich
dataminingproducevisiblerulestofaultdiagnosis,developingthefaultdiagnosissystembasedon
withMvanceddatabasemanagementsystem,usingassociationrulesandroughsetandcombining
decisiontreetoclassifyfaults.
Keywords:FaultDiagnosis;DataMining;KDD;DecisionTree;AssociationRules;RoughSet;Classification
Il
第一章绪论
§1。
1故障诊断的发展现状
随着工程设备自动化程度的提高,其结构日趋复杂,一旦出现故障,会产生链式反应,以致整个设备损坏,不仅造成巨大经济损失,而且会危及人身安全。
大型机组如各炎大型汽轮发电梳组、离心糕缩瓿缀等大型酉转瓿搬及一些大毽往复掇缀,摇大型柴演发电橇组,它们是电力、石化、冶金、汽车和造船等国民经济重要部门的关键设备,保障其安全、稳定、长期、满负荷运行将产生巨大的缀济效益和社会效益。
工程实践使人们认识到,要使设备虿靠、有效,充分发簿箕效蕴,登绥发震工裰篮溅箨敖黪诊鼗按零。
大型机组成套设餐一般包括缀多环节,影响其安全运行的因素众多,通过使用锫种设备对机组运行的过程状态参数进行信号的懿测与分析是判断设备是否正常运行、是磷存在潜在放漳及预瓣教障发震趋势等趣舔豹有力手段,繇设备静舅常或薇障楚在设备运行中逶过其状态信号变化反映出来的。
这些状态信号就是设备在运行中出现的务种物理的、化学的现象,如振动、噪声、潞升、油耗、变形、功耗、磨损、气味等等,而现实中应用最多的罴祝禳缀动傣号,缀动蕊号含旁辜鬻兹信息。
对于旋转设备来说,浚鸯任褥~静僖怠麓像振动那样对设备状态具裔更直接的反应tt]。
状态信号的获取主要韪依靠传感器或其它检测手段进行故障信号的检测。
主要有以下三个过程:信号提取、中阕变换、数据采集。
信号捷取怒逶过传感器探溺头壹接感翔被测对象参数灼变化。
中阀变换主要完成由探测头取锝的信号的变换与传输。
数据采集就是对中间变换的连续信号进行离散化的过程。
能够采集歪Ⅱ足够长的客观反映设备运行状态的信怠,是诊断静关键牡J。
诊断敬障就是瓢获态信号串提取每设备散障有关酌特徭倍怠,进行特链提取,然詹根据所提取购特挺判别设备状态存无异常,并根据她信息期其它补充测试的辅助信息寻找故障源。
根据这魑信息和故障对系统的性能指标影响程度做出估计,综合给磷故障等级。
我国故障诊叛技术起步较晚,但发展较快。
大机组设备故障诊叛技术在我图的发展过程大致有三个阶段:FFT分析仪阶段,计算机辅助监测分析阶段,网络化监测诊断阶段m。
20嫠纪粥年代戳来,大梳维蓝测系统静一个重要发震方向就是网络亿。
在蓝滋系统静开发方嚣,人们已经进霉亍了大量豹砑究,并开发了许多摆废的仪器设罄。
以个人计算枫为基础开发的在线监测系统,由于性价比高、柔性好、开发周期短,近年来在国内外日益受到重视。
在分析方法上,出现了多萃孛多祥的信弩分轿处理方法,如全患谱分析技术、小波分析技术、享枣经刚络诊断技术、时频分析技术等等,且更热注熏振动蜻值、频率、楣位信息的全面、综合利用。
从传统的分析方法,如相关分析、时域波形、轴心轨迹、AR谱分析、FFT谱分轿掰一些较新静分析方法,如主分蹩分轿、时频分析、全慧谱分析、辖心鞔迹的计算机模拟等,均被暾用于牧障诊颧领域,磐取褥了很好熬应用效果。
蠖兹,国内懑畜多秘在线式大型飒缀计箕规监测和诊断系统,其基本功能镪括鉴测诊断和机组保护。
大部分工厂妪本上已对麓要设备安装了在线或离线脏测系统,由传感器不停的传回反映祝组运行状态的数据,随着计辩祝和数据障技术的逐猛发展,根据现有的数握瘴藏数摄仓库技术采存臻设备状态缤号数据成为一嵇趋势,逝传缝款文件存储数攥上秀到了~个新的水平。
能否有效的利用这些海量的数据,从中发现一贱新的知识,进而掌握机器运行的内在婉律悭,便成为摆在科研人员面前的一项十分紧追的课题。
§1.2信鸯分析方法简介
基础的分析方法为经典信号分析法,它的信芍特征提取楚基予傅立旰变换进行的。
基予缮立时交换豹痿学分叛发震较镘。
1965车,Cooly移Tukey提墩FFT算法,经典售号分析方法得到迅速发展,并在设备状态监测和故障诊断中发挥巨大的作用。
经典信号分析方法实际上是提取能爨在不问频段上的分布情况,以此作为诊断的依据。
运用FFT可以进行频漤分援、相关分极、包络分掇秘錾叛谱分辑等。
它移在善于缺黪,主要是茭频率戏分的分辨率不高、谱图有畸变、随机起伏明显、不光滑、不适于短数据,有混叠效应和缴波现象14】。
然而,它依然是当今应用最广泛也璇有效的方法。
分辨率较毫瓣现代谱分据方法窭臻在1967年。
Burg提出瓣最大麓谱分辑方法,跫最早开发的现代谱分析方法,邂用于短数据。
1968年Parzen提出了自阐归(AR)谱估计方法。
1971年,YanDenBas证明了最大熵谱估计法与AR谱估计等效,自此展开了对AR谱估计静深入醣究及对其它搂型翅涛动乎均(淞)模型、鑫疆翔溪动平均(矗R溅)模型懿磷究。
它秘构成了现代谱估计的参数模型法。
这些方法是通过建立特征信号的参数模型来提取征兆的,在实践中已得到广泛应用。
与非参数模型法(FFT)和比,参数模型法需要的采样数据短,没有熬密豹影褊,露虽熊将蕴含在采样数握孛豹尼警全舔绩惠凝聚奁少数咒令模凝参数之中。
它们与1969年Capon提出的墩大似然谱估计方法以及奇异值分解处理法构成现代谱估计的主要内容。
然而它也存在一系列的问题比如对信噪比敏感、定阶困难、不便作频率成份斡皤篷稻福像分析。
人工衡能是近20年来获褥飞速发展的学科,它研究如何用计算机来模拟人类思维的活动。
其最为成功的志向实用是在其功能模拟领域出现的专家系统技术。
80年代以来专家系绫渗透劐惫捂敖簿诊繇在连凡孚所有翡镁蠛。
它稳搦了专家积累鹃丰富实黢经验,能模仿专家分析问题和解决问题的思路,丽且能够解释自融的推理过程,解释结论是如何获得的。
它存在知识获取“瓶颈”问题。
专家知识具谢局限性,专家知识表述规则化有相当犬韵难度fs3。
系绞缺乏鑫学习巍蠢完善能力,现行熬敲簿诊甑专家系统在遮霉亍{霪程中不易从诊断的实例中获得新的知识并扩充知识库‘“。
20世纪50年代研究者们提出感知模型,这是神经网络的雏形。
模拟人脑结构的人工糖经瓣络(ANN)方法趸~稗耨静敖障诊赣方法。
毒聿经瓣络的翔浚只要弼顿竣专家解决瓣题的实例或范例来训练神经网络丽不必整理、总结以及消化领域专家的知识。
神经网络零身
其有热组织、鸯学习、窦适疲的特点川。
它熬懿识获取与专家系统穰比,甄具有更多豹时间效率,又能保证更高的质量。
神经网络的知识推理是通过神经元之间的相互作用实现的。
网络同一层的推理是并行的,不同层的推理题串行的。
在神经网络中,允许输入偏离学习撵本,只要输入模式接透予菜一撵本豹羧入攘式,粼辕壤选会接近学习样本豹输出模式,即ANN具有联想记忆能力。
在许多领域的故障诊断系统中都取得较好的效果。
在我国,如西安交通大学、东jB大学等在大型旋转机械故障诊断中,都成功成用了神经黼络技术。
徨是它夔渗叛接璞过程不暴解释,袋乏逶爨度。
嚣{;蓼,为炎觳瑷窍智熊诊聚方法熬弱袋性,人们正致力于研究一种功能更强的混合智能诊断系统。
如将ANN与专家系统相结合,用神经网络来解决专家系统的知识获取。
将模糊理论与ANN栩结合,提出了一种基于模糊理论瓣神经溺终数障诊鼗方法。
FFT的不足之处在于只用于稳态信号分析,因此对于非稳态信号,在工程诊断中引入了小波分析技术。
法国工程师Morlet禚1984年首先应用小波变换分析地震波的局部性。
,l、波分辑滚于信鼍分桥,函数戆镩缩和乎移。
楚Fourier分辑、Gabor分爨、短辩Fourier分析发展的直接结果18】。
它克服了傅立时变换不适用于aE平稳信号分析、不能同时进行时间一频率局域性分析,也克服了窗口傅立叶变换(Gabor变换)的时频窗口大小围定不变,只透会分辑掰有特征尺度大致裙鬻静各耱过程,窑瓣没鸯逶应链,不适于分耩多尺度信号过程和突变过程等缺点。
小波分析建信号处理领域巾的一个主臻研究课题,是一项很肖发展前景的技术。
蠹子数罐痒技术窝阙络静高速发展,大量信怠豹产生耱较豢导致了莹惑瀑炸,怎样得出人们需要的信息成为技术娥题,却又匙现了知识缺乏的现象州。
从大量数据中提取出可信、新颖、有效的并能被人理解的模式的处理过程一数据挖掘技术,有效的解决了上述难题。
对海量数据分辑帮楚理爨有优势静数据挖掘技本在敌簿诊断领域翡痤麓氇逐渐成为一个热门课题。
数搬挖掘技术利用许多机器学习方法如实例学习、模式识别、决策树、遗传算法、粗糙集等已发展成熟的算法,已缀被广泛应用于实际的~些系统开发之中。
数据挖掇在我国莛步较浚,餐鏊前溅经有帮分稀研攀位蠢糯薪兴豹数锯挖穗方法遗行敲障诊装,并取彳导尝试性的进步。
§1。
3数据挖掘概论
随着数据库技术和数据摩管理系统的广泛应用,全璩范围内数据库中存储的数据爨急剧增大。
有些公司经过长年累月积聚下来的商业数据超过几百万条记录,有些面向科学研究数据库静数据鬣氇菲常惊人。
数据库系统擒供了辩这骜数据的管瑾裙篱擎静处理功能,人们可以在这些数据之上进萼予商业分析秘科学研究,但如此庞大的数据对人工处理来说是非常困难的,人们需要能够对数据进行较高层次处理的技术,从中找出规律和模式,以帮助入稻筵荮筑幂l餍数露送行决策和研究。
由于数据静繁杂,在鸯人工辩数据进行簸理过程中,很难找出关于数据的较为全面的信息,这榉许多有用的信息仍然隐畲套数据中丽不能
被发瑗帮剩瑶,造残资源懿浪费。
规嚣学习i邈过对鼗摆对象之润关系豹分援哥以提取窭隐含在数据中的模式,即知识。
正是由于实际工作的需要以及相关技术的发展,将机器学习应用于大型数据库的数据库中的知识发现(KnowledgeDiscoveryinDatabase—KDD)技术逐渗发震怒来。
KDD是从大量数据中提取出可信的、新颢的、有效的并能被人理解的模式的处理过程,这种处理过程魑一种简级的处理过程。
多处理阶段模型将数据库中的知识发现看作怒一个多除毅酶处理避程,杏整个知谖发瑷黪{童程牵包括缀多处理除段8“。
KDD利用机器学习的方法从数据库中提取有价值知识的过程,是结念数据库技术和机器学习的交叉学科。
数据库技术侧重予对数据存储处理的高效率方法的研究,而机器学习粼笺重予浚诗薪的方法扶数据中提取辩识。
KDD嗣爱数据库技术对数据遂行蓠滚楚璐,舔利用机器学习方法则从处理后的数据中提取有用的知识。
KDD与其他学科也肖很强的联系,如统计学、数学和可视化技术等。
由于KDD使用的数据来自于实际的数据库,所要处理的数蕹整霹熊禳大,学习舞法瓣效率耪哥扩充後藏显褥茏麓重要。
关系数据瘁提供静餐单查询及报表生成功能,只能获得数搬的表层信息,而不能获得数据属性的内在关系和隐含的信息,即淹没了包含的知识,造成了资源的浪费【ll】。
KDD逶过对数据鬻君戆藏静特征和趋势避行分辑,簸终绘窭关予数据翡总体特缀帮发展趋势。
数据挖掘的任务是从数据中发现模式”2。
”。
模式有很多种,在实际应用中,往{生根据模式的实际作用分为五种:1.分类模式,是一个分类函数或称分类器,能够把数据集中的数据颁映射蓟荣个给定翡类上。
分类模式往徒表现为一橡分类祷,校据数据静蕊觚穗根开始搜索,沿着数据满足的分支往上走,走到树叶就娆确定类别。
2.回归模式,它的函数定义与分类模式相似,它们的差别在于分类模式的预测德是离散的,回归模式的预测僮蹩连续豹。
3.拜于闻廖嗣禳式,裰据数据随辩闯变化静趋势颟溅将来静馕。
只有充分考虑时阈因素,利用现有数据戆时阀变化的一系列的使,才能更好地预测将采的僮。
4。
聚类模式,把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。
与分类模式不阍,遂行聚类前并不知道将要菇分成几个组帮什么样兹蕴,诡不知道根耀哪一(7L)个数据项来定义组。
5.关联摸式,是数据项之间熬关联觌贝8,关联靓则是形妇A≥B的规则。
数据擦掘所发现鼹知识有鼓下几释:广义知识、关联知谈、预测骛知识、分类知识、馈差型知识等。
广义知识指类别特赶的壤拯性描述知识。
关联知识反殃一个事传和其她事件之间依赖或关联的知识。
如果两项或多项属性之间存在关联,那么其中~项的属性值就可醵依据奠倥属性值进行预灏。
分类知谖反敬两类事物共同性质的特征羹知识和不葡事秘之闼的差菇型特,压知识。
预测型知识根据时勰序列型数撼,由历史秘当翦数据去推测未来的数据,可认为是以时间为关键属性的关联知识。
偏差型知识烃对差异和极端特例的描述,揭示攀物偏离常溉的舜常现象。
数据掩掘发蕊的知识通常用l强下形式表示:概念、蕊鼬、
规律、模式、约束、W视化。
这烂知识可以童接掇供给决策纛,用以麓助决綮|i霆程;或者
提供给领域专家,修正专家器寿敦絮识髂系;也可以佟必瑟熬知识转存到应用鬃绞豹知识存储钒构中,比如专家系统、规受5霹(RuleBase)等等。
数掇库中的知谈发现术语觚1989年盼第一届KDD专题讨论会.』二被帮次采爝戳来,数搬撼掇鼓零褥瑷迅速魏发袋畔】。
1998年第鲻藤知汲发现与数撂挖糖国骣会议上不仅进{亍了学术讨论,并且商30多家教件公弼展示了数据挖掘软件产品,在北奖、欧溯等圆褥劐较大应用。
在我瓣,诲多攀经逮磊汗始效璞技零磷袋,缳疆懿取褥戏功瘦翅豹捌予逐来怒掇邋。
这嫩单位包括清华大学、中科院计算技术研究所、空军箱三研究所、海军装备论证中心等。
北京系统工程研究所对模糊方法在知识发现中的斑精遴行了较深入盼研究,j℃索大学也程开震对数糍立方传代数匏研究,牮中理工大攀、簸曼大学、濒江大学、中潮科技大学、中科院数学研究所、吉拣大学等单穰开腥了对关联燃则开采算法的伉誊匕和敬造;南京大学、鼹麒大学和上海交通大学等单位搽讨、研究了j§缭梅纯数据静知识发褒滋及Web数据拣握。
这些谚宠必集中在理谂上巍麓数金融领域。
亵安交遽大学熬裹毅龙谗±、疆j℃王大戆杨文献憩士慝将数据挖掘申的一然方法引入敞障诊断领域,然而只是找出机械设备运行状况静~些蕊律,并没有对砉}l械具体歃辕浆诞辅工律锻深入静磷究。
我们尝试报数据挖掘静凡静方法分绪粥馥簿诊鼗学辩幸采,我疆魏凝敖瓣数掇中潜程懿躲谈,宠簸典懋故簿瓣谈别润题,以攘动故障诊断技术不断的向前发展。
零文主要研究了基于产生觌则的数据挖掘方法,并建造了与之相关的故障诊断舔统。
§{.4本文的烹要工作
数舞挖掘怒近一、二卡年才避越稳数据簸遵工蹙,冀缀多方面仍然处予爨论缝豁醭究羚敬,我髓只蕊尝试经夔掇汪经残熬鹣数器臻援方法弓l入弱竣漳诊繇学辩中采,泰麓髓磷诧弓}发对这项研究的讨论,不断撼新的研究方法威用于敬障诊断工终中采。
本文究成以下工作:
l。
在秘缀故漳诊蟥领域孽|入蒸予糕粼撬黪戆数援挖攘礤究方法,提爨势建立与黎穗应麴数簿诊凝系统。
2.对熬予裁刚推等的数据挖掘方法进行研究,主要有决策树<DecisionTree)、粗糙巢(RoughSet)戳及关联蕊刘(AssociationRules)三耱方法,并搬露萁罄零遴论完成整捆算法。
3.选择SQLServer作为存储设备状态信号的数据库管理系统,建造厢于存储设备状态数镞豹数据黪。
蔹嚣专家经验建造载簿数撰撵本簿,穰壤挖撼方法澎藏诊黻故障援刘蓐。
4。
在WINDOWS98开发平台土,使髑Visual£十+开发工具,采用嚣囊对象粒程廖没诗蕊想和模块佬稳序设计方法,对蘩予娥黉《挖键虢故障诊断系统进行软件实现。
S.裂愆獒黧馥障数据,对该系统进行努耩霸考核。
第二耄基于KDD的故障诊断思想
§2。
1翡言
随着数据库技术的迅速发展及大黧关键设备自动化程度的提高,各工厂对麓要设备部实施了实时监控,形成大螫的数据库戏数稍仓海以存储反映枫组状态的备稀数据及参数。
遮蹙数攥帮参数串包含了瓠缓运行羧态黪套耱特征,嚣数据秘参数本身往往建杂嚣L无=鹫的,其特征并不明显、不直溉。
而数据挖掘技术是从大嶷不党全的、有噪声的、模糊的或者随机的数据中提取人们攀先不知道的但又怒有餍的信怠和知识。
翱桶数蒲挖掘进杼故障诊断,就怒榱据该梳组的历史遮簿记录,霹葵露戆爨运行状森进牙分类并辩其憝势遴行预测。
赦障诊叛豹本震楚攒式识别,ji壹执器馥蹲进行诊颧麴过强,其实魄就是模式获取及模戏匹配的过程。
褥知识获敬是蟹熊诊断乃至人工鬻能发展的瓶颈,考虑数据挖掘技术近几年来的迅猛发展及它糕知识获敬方面的独特优势,将数据挖掘按术应耀予故障诊断像不失为一种很好的方法。
在备耱祝械设备中,旋转辊褫魄较典纛,变器根据旋转转予的一些敬障特征避行分辑秘诊濒。
送藏构逡了摹予一些常撼鼓滚瓣榉零数攥繁模块,利照数掇挖撼中基予援剃攘警的方法来形成故障规则库,在形成规则库尉,可以依据其中的规则判别新来数据样本的敝障类的归属问题。
§2+2运用KDD诊断故障的基本思想
封爨搬鼓簿渗凝露吉,嚣恚螫获取荚予本规缎戆大量送行参数,既要露极器乎稳运行、正常工佟时麴数据,熨要有机器出现故障对的数据,并且应已获知故障的类别。
这样,幽已弼故障类别、故障发生时的各逡行参数、历史记录组成盼数据库或数据仓库便构成了数据挖掘鞠训练/学习样本库。
数器挖掇虢馁务藏是献这些海量鹃杂懿秃鬻豹释本瘁中我爨稳藏在箕孛静内在籁律,提淑出不耀散障豹吝巍特缝。
故蹲模式类瓣划分,通掌蜀借助壤李绞计这~数学工具∞]。
作为一种新的方法,数据挖掘采用单一的分类方法未必会取得良好的效果,很多情况下是几种不问的方法结合使用。
因此,对故障模式的识别作者选用了不阊的三种分类方法。
本系统采甭发展较为成熬豹糕糙集、决策褥理论戳及关联麓蟊lj等数据挖摇方法菜箍邂实躲翔题。
利题糖糙繁理论避行数据靓约、过滤嚣余属性,最鹾产生觌贝H蓐。
利用决镀樾方法来构造用以决策的树状结构,修剪树,最终也得茔Ⅱ分类所用到的规则,即达到分类的目的。
用户谗可以清楚地比较出逮两种方法的露阊。
关联规劂可以发现属健之闽的内在联系,并产生麓粼。
菝蠢这些魏剩,对耨来数撵遴行瓣巍并辩藏鼯数鬃遗嚣羟类,谈爨露羧簿瓣耱炎,袄j逝我到教蹲豹滠因并溪除羧薅。
挖掘系统总体设计策略参图2.2.1。
瓣
醒2.2。
1簸障诊断系统想髂设诗策略餮
§2。
3系统的设计步骤
在穆残数据挖掘戆调练/学习撵本露之震,挖撼戆殛务藏是扶这些海燕豹杂熬无举的样本库中找出隐藏在其中的内在规律,提取出不同故障的各自特征。
本文采用了理论较成熟的方法,重点运用决策树、粗糙集、关联蕊贝Ⅱ方法,并对旋转机械几种较为常见的故障进行了有效学习并挖擦凄瀵是实驻需要浆产裟鼓黪转一黧袈烈,形成援囊#痒。
芳依据这些规则对故障成功进行分类。
具体步骤如下:
1.数据库存储机组状态数据为当今发展趋势。
所以考虑用数据库技术来存储我们得来麓各释敖漳类数据,经避FFT变换,最终存于二维表豢串。
数据瘁采曩耩icrosoft公司推出的SOLServer,数据库结构设计包括数据需求分耄盱、概念设计、物理设计等;数据库动态行为设计包括功能需求分析、功能设计、事物设计、程序说明、应用程序的设计、谲试、运行等。
2。
建立该规缓熬运行记录嚣本疼。
麸该擞组豹历史记录来看,必然鸯正嚣运行熬数据和辩常数据。
若是异常数据,则又可分为不同故障类型的数据,根据历史记录,标记下这些故障的类型。
若令∥表示整个故障集,
粼F=蛾,兄……Fj)J必教薅类型熬个数当然,要尽搿黪全嚣熬爱映枫组载运行历史,尽量不丢失经褥套翅豹绥惠。
辩每一类型的数据,选择~定数量的文件,抽取对分类影响最大的特征,组成属性集。
蒋令一表示糇个属性集,
刚A;(4,A:……A,),为属性(特征)的个数。