报告论文Failure Trends in a Large Disk Drive Population

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要
我们的分析确定了一些来自SMART的参数和故障有很紧密的联系;仅仅依靠SMART自
己的模型是不足以预测单个磁盘驱动器的故障的;值得惊奇的是,我们发现温度和工作量
与磁盘故障之间的联系远小于我们之前报告的结果。

1、介绍
参考文献中的6,7,9,16,17,19,20对磁盘故障方面散发了些光,但这些要么是基于相对少
数量的机器,要么没有足够紧密的监视磁盘。

温度,活动等级,SMART
scan errors
reallocation counts
offline reallocation counts
probational counts
2、背景
本章介绍了用于此次研究收集和处理数据的基础设施;分析中包括的磁盘类型;他们怎
么部署的信息.
2.1 系统健康基础设施(The System Health Infrastructure)
系统健康基础设施是一个大的分布式软件系统,收集并存储了hundreds(来自所有
谷歌服务器的)键值对,并且提供可用来任意分析工作的接口。

结构:1、一个数据收集层;2、一个分布式的数据仓库;3、一个分析框架
thousands of individual servers
机器级的收集器收集数据相对频繁(每几分钟一次);一些慢变化的数据(比
如配置信息)和来自其他已存在数据库的数据可以收集的较慢一些;最值得一提的是认
为机器维修和磁盘更换的数据来自另一个数据库
The System Health database建立在Bigtable上在MapReduce平台上二维+时间=三一个用Sawzall语言和框架写的Mapreduce job 用来提取和清理分时段的SMART
数据并且修复磁盘相关数据;R-project 用来统计分析和最终生成图表(参考文献:用
来统计分析的r-project)。

2.2 部署细节
2001年以后产的硬盘,来自许多大硬盘制造商,至少9个不同的型号,数据是从2005
年12月到2006年8月
像通常服务器一样,硬盘在他们记录的生命周期内基本上都处于运行状态,并且规
范化管理。

数据不包括出厂前测试阶段,从正式使用算起。

2.3 数据准备
一、故障的界定
如果它作为一个维修的程序被替换就认为他是故障了。

他不确定磁盘坏掉的准确时间,认为被替换的时间就是坏掉的时间。

可能是在坏掉发生后的几天。

不懂“It is also important to mention that the parameters we use in this study were not in use as part of the repairs diagnostics procedure at the time that these data were collected. Therefore there is no risk of false (forced) correlations between these signals and repair outcomes.”(我们研究用到的参数被收集的时候没有用于维修诊断程序,因此,就没有这些信号和维修结果之间的关联风险。


二、数据筛选
对缺失值的值,它自己的值被标记为不可用,并且那一个特定块儿的数据不用作detailed study。

这个驱动器的其他记录不丢弃。

剔除明显的假数据(温度超过太阳……),但并不剔除SMART中的任何可疑数据。

剔除掉的数据占总数据的不到0.1%。

3、结果
9个月的详细监控数据:错误事件,所有的可用环境和活动数据,大多数的SMART数据总数据时间跨度接近5年(一些老数据库中的数据)。

3.1 错误率的底线baseline failure rates
AFR:Annualized Failure Rates 年故障率
这里的数据不严格,因为没有区分出不同“驱动器型号”
3.2 制造商,型号和某一年代产品形式
这些因素很重要,但由于这些数据的所有权性质,我们在研究当中没有区分这些数据。

有趣的是,这些并没有改变我们的结论。

当区分驱动器型号的情况下我们的SMART数据结果没有明显的变化。

唯一的例外是“seek error rate”,见后边3.5.5介绍。

3.3 使用Utilization
用周平均读写带宽为度量,分三个等级,低(<25%),中(50%-75%),高(75%);
区分驱动器型号,因为不同类型驱动器的最大带宽变化比较大;用I/O操作数和转换比特来作为度量的结果很相似。

图中可以看出:幼年和老年受工作量影响较大
一种可能的解释:“适者生存理论”,当幸存于婴幼儿的死亡率之后,就会受这个影响更小一点儿。

另一种可能的解释:前面使用量和故障率之间的密切关系基于(来自制造商增长的寿命试验的)外推法。

(外推法(Trendextrapolation)是根据过去和现在的发展趋势推断未来的一类方法的总称)
上边是没有区分驱动器型号的结果,如果区分了,结果更复杂。

3.4 温度
以前有文献研究,“温度低到15°,磁盘故障率能达到接近两倍”。

我们观测9个月来自SMART的温度数据。

我们以不同的方式整合温度数据:平均温度,最高温度,高于一个限定值的时间比例,高于一个极限值的次数和故障前的最后一次温度。

文章报告的是平均温度,并且说其他整合方式获得了相似的趋势。

图中可以看出:温度过低,故障率越高;温度过高,故障率也会上升。

图中可以看出:幼年怕冷,老年怕热。

结论:只是特别高的温度才有影响,尤其是对老的磁盘。

在低中温度范围内,高温不会带来高故障率。

3.5 SMART数据分析
先讲几个详细的,然后对剩余的做个总结。

在最后一部分,我们讨论了关于SMART 参数在预测单个磁盘故障中的的有效性的结果和原因。

三种形式呈现结果:给定参数0与非0的数量,根据参数值不同变化范围绘制驱动器幸存的可能性;我们设计一个单一的度量,这个度量用来衡量一个参数对预测即将来临的故障的相关程度;最后,我们要找一个极值,超过这个极值,故障率会非常高。

3.5.1 扫描错误scan errors
:磁盘扫描磁盘表面的过程中,有错误的话,就报扫描错误。

大量的扫描错误就代表这个磁盘表面坏掉了。

少于2%的磁盘有扫描错误,并且在各种驱动器类型上分布均匀。

(中间两段对图6和图8的做出的说明)
自从第一次扫描错误后,驱动器在60天内,故障率会是没有扫描错误的机器的39倍。

3.5.2 重新分配数
:当磁盘的逻辑认为一个扇区坏掉(经常作为软件错误和硬件错误反复出现的结果)的时候,它会(从一个池的部件)重新分配一个新的物理扇区。

重新分配数反映错误发生的次数,可以看做磁盘表面坏掉的标志。

大约9%的磁盘重新分配数大于0,尽管不同驱动器类型的重新分配数分布不均匀,但是我们观测到所有模型的趋势都是相似的。

(中间两段对图7和图11的做出的说明)
自从第一次重新分配后,驱动器在60天内,故障率会是重新分配数为0的机器的14倍。

3.5.3 离线重新分配数
:离线重新分配数被定义为前面讨论的重新分配数的子集。

也就是说排除由于实际上的I/O错误引起的重新分配。

这个参数比重新分配数更重要。

大约有4%的磁盘离线重新分配数非0,并且和磁盘驱动器型号有关。

(中间两段对图9和图12的做出的说明)
自从第一次离线重新分配后,驱动器在60天内,故障率会是离线重新分配数为0的机器的21倍。

3.5.4 预警次数(Probationaal Counts)
:磁盘驱动器把怀疑坏掉的部分置为预警状态,知道他们永久坏掉然后重新分配,或者没有任何问题的继续工作。

因此,预警次数可以看做柔和的错误指标。

它能提供较早的提醒,但是也可能是个微弱的信号。

大约有2%的磁盘预警次数非0,这个分布情况也倾向于磁盘驱动器型号。

(中间两段对图10和图13的做出的说明)
自从第一次预警后,驱动器在60天内,故障率会是预警次数为0的机器的16倍。

3.5.5 其他指标
寻道错误:当磁盘驱动器没有正确跟踪一个扇区并且需要等待另一个循环来从其他部分扇区读或写。

驱动器报告的是寻道错误率。

某一个生产商的驱动器寻道错误率较高,对这个生产商,错误率的趋势也不明显(随年代变化),其他生产商的磁盘故障率和寻道错误率之间没有关系。

CRC校验错误:当物理媒介向可视化界面传输数据时,发生CRC校验错误。

尽管我们观察了高CRC校验错误和磁盘故障率之间的关系,它们之间的联系略少明显(somewhat less pronounced)。

CRC校验更倾向于指示电缆和连接器的错误。

大约有2%的磁盘会出现CRC 校验错误。

电源周期:这个指标是磁盘电源开关的次数。

我们不会为了试验,去故意经常开关电源来达到足够多的开关次数。

两年以上的磁盘,这个关系不明显。

但是三年以上的磁盘,频繁开关会增加故障率2%。

我们认为这更多是因为其他复杂因素,而不是年龄的影响。

电源周期一般是固定不变的。

校准重操作(Calibration Retries):我们尽管和磁盘生产商协商,也不能对这个指标的定义达成一致。

它不是一个特别有用的指标。

有不到0.3%的磁盘出现校准重试。

自旋重操作(Spin Retries):当磁盘想加快自旋的时候,重操作的数目。

没有对这个指标做统计。

振动(Vibtation):这个不是SMART的参数,但生产商在设计磁盘附件的时候会考虑振动对磁盘性能的影响。

不幸的是,没有传感器让我们衡量这个指标。

我们试图用间接的方法推断振动的影响。

考虑单个驱动器和多个驱动器的机器之间失败率的差别,但是这些实验没得出有用结论。

3.5.6 预测故障模型
开始,我们只是想从这些SMART指标得到模型,后来,发现所有坏掉的磁盘中,超过56%的磁盘都没有发生过上边四种报错(扫描错误,重分配数,离线重分配数,预警次数)。

然后图14表明,有超过36%的磁盘故障在SMART参数上都没有体现。

在所有磁盘中72%的磁盘都有寻道错误。

因为温度没有一个明显的阈值能直接指明故障,所以很难把温度的指标加进来。

然而,如果把超过一半时间都在40°C作为一项指标,仍然有36%的磁盘不会呈现错误指标。

性能异常,其它应用信号和操作系统信号可以和SMART一起来建立更好的模型。

(Future Work)。

相关文档
最新文档