容灾备份案例分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
美创科技
容灾备份案例
—拿什么拯救rm -rf /* 4月27日晚上一张图片刷爆了朋友圈
VPS 服务商 Kuriko 因 rm -rf /*,宿主机上所有数据丢失了。Kuriko 4月24
日在其官网刊登香港NAT区故障声明:
由于机房技术的rm -rf /*,导致目前宿主机上所有数据丢失,我们正在尝试
恢复原有数据以及获取备份资料,但恢复可能较小。目前该区域所有主机处于OFFLINE中。
我们将对所有至今日开通的月付用户补偿1自然月使用时长,将对半年付用
户补偿2自然月使用赔偿,预计5天内处理完成。
如对处理结果不满,请通过工单向我们反馈。
非常抱歉给各位用户造成的损失,KURIKO向各位道歉,感谢各位对KURIKO的支持与信赖。我们未来将进行定期数据备份保障各位用户的数据安全,同时我们也会吸取本次教训,杜绝重复事件的发生。
看到这个公告,Gitlab 误删300G数据和AWS 误删服务器发生好像就在昨天。rm-rf /*也不是第一次“立功”了。究竟rm-rf /*是个什么?能发挥如此大的作用?想必同行对此命令并不陌生。但是不懂linux系统的人,可能是一头雾水,不知道这个“/”在linux系统中的含义。
下面一张图可以形象表达:
Linux目录结构可以用以上树状图来表示:
rm命令:删除的意思
“-r”参数:指将目录及以下的文件全部删除,
“-f”参数:即使文件属性为只读也可直接删除,无需确认。
“*”是目录下的所有文件。
所以,合起来看,rm -rf /*是删除linux的全部文件。这个命令一下去,所有的数据都会丢失,系统也无法启动。
转念一想,也有可能是当时工程师是想用“rm -rf ./*”清空当前目录下的所有文件。但因为少打了个“.”才造成了这么大的故障。
此类故障可以总结为三个字“误操作”!日常运维过程中诸如此类的误操作时有发生,而且很多误操作都是跟“rm -rf /*“一样,是不可逆的,数据一经删除便无法挽回,数据丢失给用户造成的损失是无法估量的。
究其原因,误操作的发生,主要有几类原因:
1.对系统命令不熟悉,百度命令,没有理解命令参数的含义
2.长时间工作后产生疲劳打错命令
3.复制黏贴的时候粘贴错误,没有进行二次确认
4.恶意破坏
那么,如何来避免此类的故障发生?针对各种误删数据,我们应该怎么做?
1、要制定有效的运维操作规范。禁止随意使用高危命令,像rm这种操作需要事先审核。
2、降低生产环境的误操作可能。比如rm时候做个别名,让系统强制提示或者修改策略不能使用rm *
3、检查数据的备份方案是否覆盖了所有重要数据、备份频率,备份数据放在哪
里,保留多久。保留多份备份片,备份片不但是要放在本地,还需要异地存放以及离线归档。对于云服务最好备份一份到本地。
4、设置相关监控和告警机制,实时监控备份任务。
5、定期做恢复演习,检验是否可以正确从备份中恢复,并且形成恢复演练文档。
6、实施性很高的生产系统不但需要合理有效的备份还需要架设有效的容灾系统,当故障发生时及时迁移到容灾系统,尽可能将损失降到最低。
7、购买美创容灾备份产品,实时备份、容灾接管,保障数据0丢失。