基于流形距离的生产状态聚类分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期：２０１１唱０１唱０６；修回日期：２０１１唱０３唱０７基金项目：国家自然科学基金资助项目（５０９３４００７，５０９０５０１３，５１００４０１３）；国家“８６３”计划资助项目（２００９ＡＡ０４Ｚ１３６）；国家“十二五”科技支撑计划资助项目（２０１１ＢＡＥ２３Ｂ００）；中国博士后基金资助项目（２０１１０４９０２９４）；高等学校博士学科点专项科研基金资助项目（２００９０００６１２０００７）；冶金装备及其控制教育部重点实验室开放基金资助项目（２００９Ａ１６）

作者简介：何飞（１９８２唱），男，山西右玉人，讲师，博士，主要研究方向为生产过程监控与诊断、模式识别等（ｈｅｆｅｉ＠ｕｓｔｂ．ｅｄｕ．ｃｎ）；梁治国（１９７７唱），男，山西太原人，讲师，博士，主要研究方向为热轧带钢表面检测、图像处理等；王晓晨（１９８２唱），男，山西太原人，讲师，博士，主要研究方向为冷轧带钢生产过程控制及质量检测等；马粹，女，黑龙江伊春人，硕士，主要研究方向为冶金设备等．

基于流形距离的生产状态聚类分析倡

何　飞，梁治国，王晓晨，马　粹

（北京科技大学国家板带生产先进装备工程技术研究中心，北京１０００８３）

摘　要：现代生产中的大量生产数据蕴藏着丰富的生产过程和质量信息，通过聚类分析可以了解生产状态，进行生产故障诊断或有针对性的质量检测，而经常使用的相似性的度量欧式距离只能反映数据空间分布为球形或超球形的结构特性。难以刻画复杂数据分布特性，将流形距离引入到生产过程状态的聚类分析中，利用标准数据、田纳西—伊斯曼过程和热轧带钢实际生产过程数据对方法的有效性进行验证，进而可以更加有效地了解生产过程的状态。

关键词：流形距离；聚类分析；生产状态分析；Ｋ唱中心聚类

中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１００１唱３６９５（２０１１）０９唱３２４２唱０３ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１唱３６９５．２０１１．０９．０１０

Ｐｒｏｄｕｃｔｉｏｎｓｔａｔｅｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｍａｎｉｆｏｌｄｄｉｓｔａｎｃｅ

ＨＥＦｅｉ，ＬＩＡＮＧＺｈｉ唱ｇｕｏ，ＷＡＮＧＸｉａｏ唱ｃｈｅｎ，ＭＡＣｕｉ

（ＮａｔｉｏｎａｌＥｎｇｉｎｅｅｒｉｎｇＲｅｓｅａｒｃｈＣｅｎｔｅｒｏｆＦｌａｔＲｏｌｌｉｎｇＥｑｕｉｐｍｅｎｔ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆ＴｅｃｈｎｏｌｏｇｙＢｅｉｊｉｎｇ，Ｂｅｉｊｉｎｇ１０００８３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｍｏｒｅａｎｄｍｏｒｅｄａｔａａｒｅｃｏｌｌｅｃｔｅｄｉｎｍｏｄｅｌｍａｎｕｆａｃｔｕｒｉｎｇｐｒｏｃｅｓｓ．Ｔｈｅｒｅａｒｅｒｉｃｈｉｎｆｏｒｍａｔｉｏｎｏｆｔｈｅｐｒｏｄｕｃｔｉｏｎｓｔａｔｅａｎｄｑｕａｌｉｔｙａｍｏｎｇｔｈｅｄａｔａ．Ｔｈｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｗｉｔｈｐｒｏｃｅｓｓｄａｔａｉｓｕｓｅｄｔｏａｃｑｕｉｒｅｔｈｅｐｒｏｄｕｃｔｉｏｎｓｔａｔｕｓ，ｔｈｕｓｆｏｒｐｒｏｃｅｓｓｄｉａｇｎｏｓｉｓａｎｄｅｎｈａｎｃｉｎｇｔｈｅｆｏｃａｌｐｏｉｎｔｓｏｆｔｈｅｑｕａｌｉｔｙｉｎｓｐｅｃｔ．ＴｈｅＥｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅａｓｔｈｅｃｏｍｍｏｎｓｉｍｉｌａｒｉｔｙｍｅａｓ唱ｕｒｅ，ｃａｎｏｎｌｙｅｘｔｒａｃｔｔｈｅｆｅａｔｕｒｅｓｏｆｔｈｅｓｐｈｅｒｉｃａｌｌｙｄｉｓｔｒｉｂｕｔｉｏｎｄａｔａａｎｄｃａｎｎｏｔｅｘｐｒｅｓｓｔｈｅｃｏｍｐｌｅｘｄｉｓｔｒｉｂｕｔｉｏｎｄａｔａ．Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｄｔｈｅｍａｎｉｆｏｌｄｄｉｓｔａｎｃｅｔｏｄｏｔｈｅｐｒｏｄｕｃｔｉｏｎｓｔａｔｅｃｌｕｓｔｅｒｉｎｇ．Ｉｔｕｓｅｄｔｈｅｂｅｎｃｈｍａｒｋｄａｔａ，Ｔｅｎｎｅｓｓｅｅ唱Ｅａｓｔｍａｎｐｒｏｃｅｓｓｄａｔａａｎｄｈｏｔｓｔｅｅｌｒｏｌｌｉｎｇｐｒｏｃｅｓｓｄａｔａｆｏｒｍｏｄｅｌｖａｌｉｄａｔｉｏｎ．Ａｓａｒｅｓｕｌｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｏｎｃｌｕｓｔｅｒｉｎｇ，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅＥｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ．

Ｋｅｙｗｏｒｄｓ：ｍａｎｉｆｏｌｄｄｉｓｔａｎｃｅ；ｃｌｕｓｔｅｒｉｎｇａｎａｌｙｓｉｓ；ｐｒｏｄｕｃｔｉｏｎｓｔａｔｅａｎａｌｙｓｉｓ；Ｋ唱ｍｅｄｉｏｄｓ

０　引言

现代工业生产的自动化产生了大量的过程数据，其中蕴涵着丰富的生产状态和产品质量信息

［１］

。聚类分析作为数据分

析的预处理方法，可以剔除异常样本，如获得某一生产流程建模所需的数据后，先用聚类分析进行预处理，剔除不正常状态的数据后建模，可以有效提高建模的效率和模型的准确性；通过聚类分析对生产过程进行优化，选取优化操作模式，如选择聚类中心样本作为最优操作模式进而进行生产过程的指导；利用聚类分析进行生产故障的诊断，在已有部分样本质量信息的先验知识的情况下，可以推测出类内其他样本的质量信息；利用聚类分析指导质量的重点检测，若某些样本远离已有的类别可以在质量检测过程中进行重点检测。如在热轧带钢生产中可以利用聚类分析方法对生产过程数据进行分析，对远离原类别的产品进行重点的力学性能质量检测，提高了检测的针对性

［２］

。

聚类分析即无监督分类，是一种重要的数据分析方法，已经被广泛应用于计算机视觉、信息检索、数据挖掘和模式识别

等领域

［３］

。Ｋ唱ｍｅａｎ和Ｋ唱ｍｅｄｉｏｄｓ是典型的聚类方法，但常用

的相似性度量欧氏距离存在一个重要的缺点，只对空间分布为球形或超球形的数据具有较好的性能，而对空间分布复杂的流形结构的数据效果较差。本文将流形聚类作为相似性度量指标引入到聚类分析中，使用简单的Ｋ唱ｍｅｄｉｏｄｓ方法就可以实现较好的聚类效果。

１　流形距离

１畅１　欧式距离的局限性

目前常用的聚类算法通常是以欧氏距离作为相似性的度

量，而实际数据的分布往往具有不可预期的复杂结构，导致了基于欧氏距离的相似性度量无法反映聚类的全局一致性（即位于同一流形上的数据点具有较高的相似性）。从图１所示的双月模型的例子中可以形象地看出，期望数据点１与数据点３的相似性要比数据点１与数据点２的相似性大，这样才有可能将数据点１和３划分为同一类。但是，按照欧氏距离进行相似性度量时，数据点１与２的欧氏距离要明显小于数据点１与３的欧氏距离，从而导致了数据点１与２划分为同一类的概率

第２８卷第９期２０１１年９月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．２８Ｎｏ．９Ｓｅｐ．２０１１