2016phm清华大学获奖总结

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

清华大学软件学院参赛团队2016年国际PHM数据竞

赛总结(一)

(2016年10月13日)

编者的话:经过近4个月的努力,首次参加国际PHM协会数据竞赛的清华大学软件学院团队(PaHaMer)最终获得了第二名。比赛的“硝烟”已经散尽,但团队全体成员留给我们的相互协作、不懈进取团队合作精神,显著提高的学术水平和解决实际问题能力,以及宝贵的实战经验,是更为可贵的财富。

一、比赛背景介绍

PHM意为故障诊断与健康管理,即利用现代信息技术对设备健康状态进行评估,实现故障诊断、故障预测和剩余生命预测等。

故障诊断与健康管理协会(PHM Society)自2009年成立以来,致力于传播PHM知识、加强跨学科和跨国界合作、促进PHM发展成为一门工程学科。其下设期刊the International Journal of Prognostics and Health Management (IJPHM)采用快速却依旧严格的审稿制度,能够保证初次提交后8-12周时间内刊登,速度远快于与传统印刷期刊。

除此之外,PHM Society每年秋天都会举行年度会议,来自工业界、学术界和工商界的世界各地的研究学者,在会上展示成果,交流心得,共同探讨PHM 的发展。与此同时,大会还会同步举办数据分析大赛,获胜者将被邀请到会上进行技术分享。

自2009年第一届比赛举办以来,每年都会有来自世界各地的多支专业队伍参赛。比赛的题目通过不同领域的设备和运行状态,通过数据分析以预测出其健康状态或剩余寿命等结论。

其历届比赛题目与获奖队伍见如表1所示(略)。

图1.朱慧敏同学(左)和王成同学(右)代表清华大学软件学院(PaHaMer)团

赴美国丹佛领奖

二、本届比赛题目回顾

本届比赛题目为,通过追踪化学机械抛光(CMP)系统组件的健康状态,采用物理模型和数据驱动相结合的方式,预测晶片在给定抛光过程中的去除速率。

1.系统背景

化学机械抛光是半导体产业进行平整晶片表面的一种有效技术,采用机械摩擦和化学反应相结合的方式。CMP系统主要由以下几个部分组成:可旋转的抛光台,可更换的抛光垫,可旋转的晶片承载器,磨料释放器以及可移动的修整器。其工作原理如图1所示。在抛光过程中,晶片被加压于抛光垫,抛光液被释放于抛光垫上,晶片与抛光垫转动而产生相对运动,粗糙的抛光垫以及抛光液中的磨

料使之发生机械摩擦从而平整晶片表面,同时晶片与抛光液中的化学物质发生反应也进一步加速去除速率。抛光完成后,抛光垫可能会被修整器修整从而保证抛光垫的粗糙程度。抛光垫和修整器会随着使用时间的增长而发生退化,因此需要被及时更换。

图2. CMP系统原理示意图

图3. 晶片(资料图片)

2.数据描述

比赛提供两类型数据:状态监测数据与测量结果数据。其中状态监测数据是每个抛光过程中各工况及开关量测量结果的时间序列形式数据,每个抛光过程对应多行,共计25列,其列名及含义如表2所示;测量结果数据是针对每个抛光过程,测量抛光前后晶片厚度差异人工计算得到,每个抛光过程对应1行,共计3列,其列名及含义如表3所示。对于训练数据,测量结果数据中去除率是已知的,而对于测试数据及最终测试集,去除率是未知的,这也是我们的预测目标。

表2 状态监测数据

其中,是需要预测的抛光过程的总数,是预测结果,是实际平均去除率。而比赛最终结果由两部分组成:MSE的得分占90%,另外10%是对物理模型利用情况的得分。

4. 比赛日程(略)

(未完待续)

三、解决方案

我们首先基于物理模型对原始数据进行数据画像与分析,基于观察结果抽取特征,同时尝试例如聚类分析、K近邻、决策树和神经网络等机器学习建模方法,最终选择基于遗传算法的随机森林作为预测模型。

1.基于物理模型的数据分析和特征提取

在进行数据预处理与建模前,需要深入了解数据背后的物理含义。因此,我们与清华大学机械工程系摩擦学研究所进行合作,通过现场参观调研,阅读CMP模型文献,熟悉CMP系统的工作原理,并结合数据画像的结果,推测比赛CMP 系统结构及数据采集方式。抛光头结构推测如图2所示。

图3 抛光头结构推测

同时,通过对原始数据进行聚类分析和数据可视化,发现如下重要规律:

1)抛光过程按照舱室组合可分为两类:Chamber1-2-3和Chamber 4-5-6,两类在去除率存在明显差异,一类在150左右,一类50-100之间,因此推测存在粗抛和精抛两种类型的抛光过程。

2)通过观察压力、磨料、舱室等三种状态监测数据,结合物理模型,可以将单个抛光过程划分为四个阶段:准备阶段、主抛光阶段、收尾阶段和后清洗阶段。各阶段对去除率影响不同,其中主抛光阶段对去除率起决定性作用。

3)通过对多个抛光过程画像分析,发现在2829个抛光过程中存在1267个连续抛光过程,这些连续抛光过程有两个重要特点:(1)同一连续抛光过程中,加工模式设定一致,设备健康状态(如:抛光垫和修整器)近似,去除率相近;(2)同一连续抛光过程中,初始抛光过程的去除率相对较高。推测其物理机理是,连续抛光过程开始前,设备刚经历过离线修整,抛光垫性能状态最佳,因此去除率提高。

基于数据画像和分析的结果,我们针对两类抛光过程进行特征提取。对第一类抛光过程,共提取48种特征,针对第二类抛光过程,由于状态监测数据存在大范围缺失,因此只提取了12种特征。提取方法包括两类,直接提取与二次提取,其中直接提取包括对压力、转速和磨料提取统计值(如平均值、中位数),使用设备消耗量的初始值评估设备健康状态;二次提取包括计算有效抛光时间、划分连续抛光过程等。

2.模型构建

基于特征提取结果,我们采用机器学习技术构建预测模型,从而实现对抛光过程去除率的预测。

由于测试数据去除率未知,每周提交一次的评估次数有限,因此我们按照测试数据的分布规律从训练数据中随机采样,形成去除率已知的自测集。基于自测集评估模型,最开始我们尝试了决策树、神经网络和相似性聚类三种单一模型,其中神经网络效果最好,因此对其进行结构优化与参数调整。与此同时,又尝试了K近邻和支持向量机等方法,但预测效果未见提升。在对各模型进行测试评估时,采用遗传算法选择出适用于各模型的最优特征子集合,从而得到最优预测模型。

相关文档
最新文档