电路故障分析及维修思路总结(第一版)--2016.09.20
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电路故障分析及维修思路总结
---------william
【摘要】
在我们日常故障分析工作中,常常遇到这样的情况:最初可见的某些故障,在断电后或者:其它一些操作之后,故障就消失了,而之后很难再复现故障。大部分情况下我们都是将机器继续老化一段时间,若是没有再复现问题,就出货.这样的情况时常发生,不但给故障分析带来极大的挑战,对于批次整机出货的风险评估,从与质量部门的同事沟通来看,也是很难做判定的。我们期望通过本文对过往案例的思考总结,从中整理一条分析此类问题的思路,来指导我们后续的故障不再现问题的分析工作,提高分析成功率,为整机质量风险评估输出可靠依据。
【关键词】
故障不再现 触发条件
对于具体的分析技术人员,尤其是新员工,大家对故障不再现这类故障非常头痛,不知道该如何处理.我自己是从分析员这个岗位做起来的,这其中的印象极为深刻.所见所闻的此类故障实在太多.不论是发现问题的QA还是生产线,大家对这些问题的描述都是极为神秘和夸张,当然更多的是束手无策。但是经过几年的分析总结,我们发现,对于故障不再现这类问题,我们有信心对它重新做一个定义:
从来都没有故障不再现!
为什么可以这样说呢?
我们知道,故障出现一定是有原因的,亦即故障触发条件。而故障消失,是因为触发它当时表现故障的条件消失了。如果我们可以复原这个触发条件,那么,我们就有机会可以再次复现故障。但是又因为每一次单个故障案例的触发因素都有所不同,所以我们通常没有办法完全按照上一次的经验来处理这一次的问题,即使故障现象表现为类似甚至相同。所以我们还是时常会感到困惑,不知从何下手。那么,期望通过本文的一些总结,能够给大家一些参考建议,对以后这类问题的处理,有一个大致的处理思路。
首先,让我们先从了解如下5个问题开始:
1.故障是什么?
故障是指设备或者某个系统在正常工作过程中,因某种原因丧失规定功能的现象。
2.为何会发生故障?
因为设备或者装置正常工作运行需要的条件不满足了,所以出现工作异常,表现为故障。
你需要知道的:故障的发生从来都不会无缘无故,所有发生的事情都是符合因果关系的。一个正常工作的设备,从工作正常到工作异常,这其中,必然是因为发生了一些变化,破坏了设备正常工作的条件,才导致了故障这个结果。
3.故障分析到底是怎么回事?
故障分析,就是从结果去探寻触发故障的具体因素,从这些因素来判断到底这些因素影响了那些参数,导致故障正常工作的条件被破坏。继而针对这些因素,制定改善对策,在后续的新品导入
阶段,提前导入这些改善对策来预防这类问题再次发生。
4.故障不再现是什么?
严格上来说,故障不再现是指,除去因为时间流逝的这一变化,其他任何因素都未变化的前提下,先有故障,之后故障消失,都可定义为故障不复现。
5.为什么会出现故障不再现?
一般有两种情况:
其一、触发故障的因素本身变化了导致之前的故障不再现;
其二、分析故障过程,人为的(一般都是无意识的)破坏了触发故障的因素;
在实际的工作中,有很大一部分故障不再现,是因为我们分析过程本身,破坏了原来触发故障的条件,导致故障消失。而在破坏的过程中,主要是因为我们未留意我们当时具体的动作及其带来的影响,而导致之后无法再复原原始的条件,进而看不到故障。
破坏故障条件的因素非常多,一般而言,作为分析人员,需要有这么一个认识。我们在分析故障的同时,因为分析本身所需的一些操作,也同时可能带来新的问题。以FFC插接性案例为例,如果故障真正的原因是FFC金手指插接阻抗过大甚至是开路导致图像不良,那么,我们再插拔线材之前,若是没有仔细测量每一PIN的接触阻抗,而在拔出线后也未仔细检查金手指刮痕,就直接再次插线,那么,你将很大程度上制造了一台故障不再现。
6.有哪些好的办法能够有效的处理故障不再现问题?
有这么一些方法和思路,经过几年的的实际验证,说明是可靠而有效的,如下将辅之以相应的案例与大家分享。这些经历来自于周围同事包括我所经历的,所观察的一个总结。期望通过自己的努力,期望通过从其他人把事情做好的方式上,能够总结发现一些普遍的规律,给从事故障分析岗位的人,尤其是新员工,可以给予一定的帮助。
第一步:收集故障现场的所有信息
我们常常听到”三现主义”,大家也常说现场很重要。但是到底去现场看什么呢?这个好像从来没有人详细讲过。一般情况下需要重点关注以下两个方面,
其一、了解故障现场,机器从好的状态到坏的状态的具体变化环节中的具体操作,最关键的注意事项是保存每一步操作记录,这一项主要是针对生产制程的异常;
其二、故障现场当时提供给系统工作的所有与系统正常工作所需的条件,例如电压,温度,湿度,光照强度等等,这一项主要是针对试验过程的异常;
5W2H是一个关键性的工具。因为我的师傅曾经多次问我,这个故障是什么,当时电压多少,批量多少台,故障率如何,何时出货?。。。。你会发现,此前自己的准备远远不足,而5W2H这个工具,会让你尽可能全面的掌握信息。
案例1:抽检发现机器概率性无声,机器拿到分析室无法复现故障;
实际现场确认情况:之后在OQC房发现,按照员工的操作顺序,会触发无声的故障。这是一个软件时序BUG。
案例3:抽检发现,开机后机器出现分屏现象。
案件开机---开机过程因为有时候按键时间过长,导致软件进入强制升级模式,软件在配置分辨率参数出现错误,导致显示异常。
第二步:从缩小故障范围进阶,最快的方法是双向对换法,确定故障跟谁走;
这里的原则:一定是取一台OK的和一台NG的机器,交替对换同一个部件或者模块,如果故障跟随某个部件走,我们才可以说,故障范围在哪里。另外,需要明确,新的部件不一定是好的。
第三步:从技术规范对比,定位具体故障点盲目的瞎摸总是存在一定的运气成分, 对于生产制程的BUG,从每一步操作对应的电视硬件响应,软件响应层面入手;
其中,这个变化在操作层面最容易识别,在硬件方面需要仔细研读相应技术规范,而在软件层面,是最隐蔽的,因为它看不到。
在这里问一个问题:技术规范浩若烟海,我们到底看什么呢?
我认为,优先熟知电气规范,时序响应,从硬件层面先了解清楚其工作机理。当然,如果条件合适,那么,软件方面若是可以知道一些那么会更利于我们了解问题的本质。
案例2:某型号机器,在批量生产制程检测AV工位出现时段性1%的卡死情况,生产打出停线报告申请。
最终确认结果:经过现场观察发现,故障机器是出现在检测完HDMI,转AV信源过程出现卡死,进一步确认是因为产线HDMI检测仪器同时检验HDCP KEY1.4和HDCP KEY2.2,在KEY校验过程,若是有其他操作例如转AV信源,就会概率性出现无法响应系统卡死情况。
第四步:穷尽所有可能的情况,依照可能的概率高~低的顺序逐一验证排查。
案例1:某型号二极管开路问题。
此LED为双晶串联外并联一个稳压二极管,测试不良品发现齐纳二极管开路,LED是OK的。可能性1 正向高电压
可能性2 LB测电压加反
可能性3 LED或者齐纳二极管bonding异常
。。。
第五步:做对应的模拟试验,来反推我们的分析结论。如果我们分析是因为某个因素导致故障,那么,当我们人为的制造这类因素出来,也应当再次复现相同故障;
案例1:
最后,经过以上的一些判断,结合实际的故障触发条件,也可以对风险评估有一个指导意见。例如,虽然故障是在一定条件下可触发,但是我们可以通过用户实际使用时此故障触发条件的出现机会,来判断最终的市场风险。