数据备份与恢复
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、摘要:
随着信息化建设的进展,各种应用系统的运行,必然会产生大量的数据,而这些数据作为企业和组织最重要的资源,越来越受到大家的重视。
同样,由于数据量的增大和新业务的涌现,如何确保数据的一致性、安全性和可靠性;如何解决数据集中管理后的安全问题,建立一个强大的、高性能的、可靠的数据备份平台是当务之急。
数据遭到破坏,有人为的因素,也有各种不可预测的因素。
有专业机构的研究数据表明:丢失300MB的数据对于市场营销部门就意味着13万元人民币的损失,对财务部门意味着16万的损失,对工程部门来说损失可达80万。
而丢失的关键数据如果15天内仍得不到恢复,企业就有可能被淘汰出局。
实际上,我们很多企业和组织已有了前车之鉴,一些重要的企业内曾经不止一次地发生过灾难性的数据丢失事故,造成了很大的经济损失,在这种情况下,数据备份就成为日益重要的措施,我们必须对系统和数据进行备份!通过及时有效的备份,系统管理者就可以高枕无忧了。
所以,对信息系统环境内的所有服务器、PC进行有效的文件、应用数据库、系统备份越来越迫切。
二、引言:
随着以计算机为基础的电子信息技术在社会各方面越来越广泛的深入应用,各种工作逐步走上了办公自动化网络管理的发展道路,大量的管理信息系统和专用办公软件被开发并投入使用,这对规范管理、提高工作效率起到了良好的促进作用。
在实际工作中,信息系统和管理软件从开始投入使用起,就将随着工作的开展和时间的推移,持续记录并积累大量的数据。
工作中的许多重要的决策就是以这些日常积累的数据为基础的。
但信息系统在提供方便和高效的同时,在运行中却常常会出现一些意料之外的问题,如人为误操作、硬件损毁、电脑病毒侵袭、断电或其它意外原因造成网络系统瘫痪、数据丢失,给企业、单位和管理人员带来难以弥补的损失。
避免这种损失的最佳途径就是建立可靠的数据备份恢复系统,但是大部分应用人员只是在受到损失后才意识到了数据备份的重要性。
三、背景:
有专业机构的研究数据表明:丢失300MB的数据对于市场营销部门就意味着13万元人民币的损失,对财务部门意味着16万的损失,对工程部门来说损失可达80万。
而丢失的关键数据如果15天内仍得不到恢复,企业就有可能被淘汰出局。
实际上,我们很多企业和组织已有了前车之鉴,一些重要的企业内曾经不止一次地发生过灾难性的数据丢失事故,造成了很大的经济损失,在这种情况下,数据备份就成为日益重要的措施,我们必须对系统和数据进行备份!通过及时有效的备份,系统管理者就可以高枕无忧了。
所以,对信息系统环境内的所有服务器、PC进行有效的文件、应用数据库、系统备份越来越迫切。
解决方案
基于磁盘备份篇
企业数据主要分为结构化数据和非结构化数据。
结构化数据,即行数据,存储在数据库里。
非结构化数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。
专业的备份系统可同时备份结构化数据和非结构化数据,。
目前市面上常见基于磁盘的备份系统类型可分为两种:备份软件+通用硬件存储平台(服务器、NAS 存储、磁盘阵列柜)和存储一体柜。
1、备份软件+通用硬件平台
组成架构
通常我们在一台服务器上安装备份系统服务器,同时安装备份介质服务器(用于存储备份数据、可以是一台PC、大容量空间的服务器、NAS存储设备、磁盘阵列柜等),最后在需要被备份的设备上(如服务器,PC客户端)安装备份代理,即可组成一套备份系统。
在备份系统控制台里进行备份策略设置,如设置备份内容为文档、数据库、操作系统,备份周期为定时备份或实时备份,备份方式为全备份、增量备份或差异备份,备份内容
进行加密,备份多个副本等。
通过备份策略可对需备份设备进行备份,备份内同自动存储到备份介质中进行保护。
当数据被破坏或丢失时,可通过恢复策略,将数据快速恢复。
目前市面上的备份系统都具有如下特点:
2、存储备份一体柜
存储备份一体柜为用户提供集备份、容灾、存储于一体的创新型解决方案,它可满足从 PC 环境到 Windows、Linux 和 Unix 服务器环境的集中备份;通过容灾及虚拟化技术来满足各种容灾及虚拟化应用需求,支持自动/手动方式进行应用容灾接管、支持数据自动同步及异地容灾;设备采用 NAS、IP SAN 和 FC SAN 多种存储架构相结合的方式,可以满足用户数据共享和集中存储的需求。
存储核心控制器采用Linux内核,安全高效。
备份存储一体柜可代替“传统4S方案”!
传统4S设备=服务器+存储+操作系统+备份软件,一
台备份存储一体柜就可代替传统4S设备,具有服务
器的高效性,存储的安全性,集成操作系统,同时
有备份软件的所有备份功能,
基于磁带备份篇
基于磁带备份主要是指利用磁带机、磁带库、虚拟带库等设备进行数据备份,磁带备份具有以下几个优点:
1.大容量:1盘介质上可存储高达 800GB以上的数据
2.小尺寸:所有这些容量都可存储在1盘小巧的数据磁带上
3.可移动性:介质可以与设备分离,提供额外的病毒保护
4.便携性:介质可以在现场之外存储,提供额外保护
5.长寿命:适合长期存储(至少10 – 15年)
但磁带备份性能相对较低,备份与恢复速度慢,并且搜索数据需要顺序查找,无法向磁盘备份那样灵活定位,因此,我们建议企业用户使用磁盘备份为主,磁带备份可以进行数据归档使用。
磁盘备份与磁带备份对比
四、正文:
数据备份和恢复基础知识
1. 什么是数据备份与恢复?
数据备份与恢复系统是指在运行业务软件的计算机上安装专用的备份软件,该软件将按照计算机管理员设定的规则,周期性地为业务数据制作一个或多个拷贝,并将其存放到专门的备份设备上;当在线存储中的业务数据因为各种原因(如磁盘坏、病毒、误删除等)丢失后,管理员或用户可以通过备份软件提供的GUI, 从备份设备上将数据恢复到在线存储上。
一般来说,在线存储是指计算机上存放数据的硬盘或磁盘阵列。
存储设备通常是磁带机/磁带、或磁带库,今天也可能是磁盘、或磁盘阵列。
Symantec Backup Exec 就是典型的备份软件。
例如图书馆的借还书计算机上运行着图书馆软件,数据库采用Sql server, 图书馆所有的书籍信息和借还信息均存放在数据库中,而数据库的数据物理地存放
在计算机的硬盘中。
显然如果这些数据丢失,图书馆就停止运转了,需要对这台机器上的数据进行保护。
在这台计算机上安装Backup Exec, 同时连接一台磁带机,Backup Exec按照计算机管理员的要求,每个星期六晚上将所有Sql Server 数据库都制作一个拷贝,并存放到磁带机中的磁带中。
一旦Sql server中某条记录丢失,Backup Exec很容易在磁带中找到它的拷贝,并将其恢复到指定的位置。
这就是一套数据备份和恢复系统。
管理员
2. 需要备份的数据对象
通常计算机上有三种数据需要备份:文件数据、数据库数据、及裸设备数据文件数据:文件通常指操作系统中的文件系统直接管理的数据,它是数据在硬盘上的一种存放格式。
我们可以通过Windows explore 看到它的存在。
在Windows 中,一个文件同时只能被一个应用程序读写。
这就意味着,当文件正被应用访问时,备份软件是不能够读取它并进行备份的。
通常安装一个叫做open file option 的软件来协调这种备份操作。
数据库数据:数据库软件(Sql server、oracle等)是指以一定的逻辑关系将数据
组织起来,便于用户进行各种计算、更新、检索和查询。
符合这种逻辑关系的数据叫数据库数据。
它们通常以文件的方式存放在磁盘上、或者直接放到裸设备上,但是文件系统不直接管理它。
它们有数据库软件自身进行维护和存取。
由于数据库中的数据之间存在着复杂的逻辑关系,且被数据库动态修改,因此当数据库软件正在运行时,不能读取这些数据。
即使读出来也不一定能用。
所以备份时需要与数据库软件配合,或停掉数据库进程。
裸设备数据:不管文件系统文件还是数据库数据,都存放在磁盘上。
Windows 提供一种方式可以直接读取磁盘的数据块,而不管它们是什么逻辑关系。
这种脱离上层应用的数据叫裸设备数据。
3. 备份设备
备份设备是指存放数据拷贝的设备,也叫离线设备,通常是磁带机或磁带库。
近来随着磁盘价格的下降,很多客户也采用廉价磁盘做备份设备。
还有最近出现的虚拟磁带库,它是用磁盘来仿真磁带存放备份数据。
在海量存储环境,一般采用磁盘做中间缓冲,磁带做最终备份设备。
很多计算机本身带着一个磁带机,尤其是UNIX服务器。
只有磁带机的情况下,需要人工将磁带送进去,或取出来,人工保存磁带。
当数据量很大时,人工管理变得不可能。
磁带库是指含有一个或多个磁带机、一定数目的磁带槽和一个机械手的存储设备。
机械手负责将磁带槽中的磁带送到磁带机中,或反之;磁带机将要备份的数据写到磁带上,或从磁带上读数据恢复到应用计算机上;磁带槽保存含有关键数据的拷贝。
生产磁带库的厂家很多如:HP、IBM、EXBYTE、Quantum等。
虽然磁盘备份开始流行起来,但是大多数用户仍然选用磁带库。
4. 备份类型(或备份模式)
在图书馆的例子中我们说每周备份一次所有的数据,在实际当中是否可行?如果周五的时候发生了问题,数据被破坏,磁盘上的数据不能使用了,那么我们
采用计算机上的Backup Exec将数据的拷贝从磁带上重新恢复到磁盘中。
但是那是上周六的数据,周一至周五发生的变更全部丢失了。
我们能否推荐每天都备份呢?如果数据量小,还可以。
如果数据量大,就太花时间,也占有太多的磁带容量。
为了解决上述问题,提出了全备份与增量备份的概念。
全备份是指将所有的数据都备份一遍。
增量备份是指只备份相对于前一天改变过的数据。
还有一种增量备份叫累积增量备份,指备份那些相对于上一次全备份以来改变过的数据。
在图书馆的例子中,我们可以每周六做全备份,周日至周五做增量备份或累积增量备份。
这样一来,当周五出问题时,可以恢复上周六的全备份,及周一至周四的增量备份(或周四的累积增量备份),数据丢失从五天减到几小时。
而磁带容量增加的并不多。
5. 备份窗口
在建立一个备份系统时,有一个重要因素要考虑,那就是每次数据备份允许在多长时间内完成。
数据备份的过程是将数据从在线磁盘上取出来,然后传送到离线设备上。
在这个过程中,运行应用的计算机需要花CPU资源、内存资源、及I/O带宽来处理备份,肯定会影响应用程序的正常运行效率。
一般只允许在业务不繁忙的时间段内来完成备份,以减轻影响。
这个时间段就叫备份窗口。
备份窗口是指允许完成备份的时间长度。
例如我们个人笔记本电脑上可能安装了备份软件,每次备份软件运行时,机器慢的我们几乎不能进行日常工作。
我们的工作时间是早9:00至晚6:00, 但常常会加班至晚12:00. 因此为了不影响工作,我们要求管理员只能在0:00-9:00这9个小时内为我们做备份。
这就是我们笔记本的备份窗口,长度为9小时。
显然备份窗口的长短直接影响投资成本。
例如需要备份的数据600G,备份窗口为4小时,如果采用LTO磁带库,那么我们需要600*1024/(4*3600*30)=1.4个磁带机,即至少两个。
(这里没有考虑磁盘I/O是否可以支持,实际当中需要
考虑)
6. 备份介质
在备份与恢复系统中备份介质往往指磁带。
介质服务器指的是连接磁带库、且运行备份软件的计算机,它通常负责将它自身或其它计算机上的数据拷贝传送给磁带机,由磁带机写到磁带中。
一般在备份系统中将磁带库中的介质分成介质池(media pool),以便将不同应用(或计算机)的数据存放到不同的磁带组中,便于分类。
备份介质既可以保存在与备份服务器连接的磁带库中,也可以取出来异地保存,取决于你的备份策略
7. 备份策略
在上面图书馆的例子中,我们提到备份软件按照计算机管理员设定的规则,将在线数据备份到备份设备上。
这里提到的规则就是指备份策略。
备份策略通常指将哪些计算机上的什么类型的数据在什么时间按照什么备份类型备份到哪个备份设备上。
下面是一个备份策略的例子:
备份策略存储在备份软件自身的数据库中,备份软件会定时发起备份进程完成指定的工作。
备份策略的好坏直接影响备份系统的投资成本、效率、安全性等。
8. 备份系统的逻辑结构和部署
在上面图书馆的例子中如果网络中有三台计算机均运行业务软件且产生数据,我们是否需要为每台计算机买一台备份设备呢?答案是视情况而定的。
一般的备份软件(例如Backup Exec)逻辑结构如下《数据备份与恢复系统结构图》所示:
备份软件由三种模块组成:管理模块、备份模块、及客户端模块(也叫集中管理服务器、备份服务器、及远程客户端)。
管理服务器相当于整个备份系统的大脑,负责策略制定、指挥备份服务器工作,唤醒客户端传送数据。
备份服务器根据指令将客户端送来的数据保存到它所连接的备份设备中,或从备份设备中读出数据传送给客户端恢复。
同时每个备份服务器还保存着自身所管理范围的所有备份信息。
客户端定期将需要备份的数据从本机在线磁盘上读出,通过网络或共享内存传送给备份服务器,或在管理员干预下发出指令给备份服务器,需要恢复数据。
这三种模块可以安装在同一台计算机上,或者安装在多台计算机上,视需求而定。
如果只有一个备份服务器,就不需要安装中央管理器了。
备份服务器模块包含客户端模块。
中央管理服务器
备份服务器Media server
备份服务器Media server 备份服务器
Media server 备份客户端
Remote agent 备份客户端
Remote agent 备份客户端Remote agent
现在,如果图书馆有三台计算机上的数据需要备份,那么我们可以将磁带机连接到一台服务器上,其它机器通过网络来使用这台磁带机(如下图:网络数据备份与恢复系统)。
连接磁带机的计算机serv1上安装备份软件的备份服务器模块,另两台计算机serv2和serv3上安装备份软件的客户端模块。
集中管理模块可以安装在任意计算机上。
由于serv1上运行数据库sql server, 所以还应该安装相应的database agent. Serv1上的数据由备份服务器直接保存到它连接的磁带机上,需要时,可以直接从磁带机上恢复。
Serv2和Serv3上的数据由备份软件客户端通过网络传送给serv1上的备份服务器,再由备份服务器保存到磁带上。
当serv2和serv3上的数据量都很大时,问题就出现了:备份占用太大的网络带宽,而且有可能在规定的窗口内完不成备份!传统上,需要购买新的磁带机连接到这些数据量大的机器上。
管理员
自从上世纪末期出现了存储局域网SAN,很快被数据备份与恢复系统所采用。
备份系统可以充分发挥SAN的资源共享优势,以节省成本,在多个备份服务器之间共享备份设备。
通过合理备份策略规划,一台备份设备可以服务与多个备份服务器。
例如在SAN架构中,上面图书馆的备份系统可以设计如下:
管理员
备份服务器
SAN switch
Serv1、Serv2、及Serv3全部安装备份软件的备份服务器模块,因此所有的备份
数据直接通过SAN传送到磁带机中去备份,不再通过上层的LAN传送,因此这种备份架构叫LanFree备份。
集中管理服务器可以安装在任何一个机器上。
这种共享的架构中需要协调磁带机在多台服务器之间的共享。
即一台机器使用时,其它机器必须排队等待;当这台机器使用完并释放时,需要确认等待队列中哪个机器优先使用磁带机。
备份软件提供一个叫做SSO的软件模块负责这个协调工作。
9. 备份代理(agent)
从上述部署图可以看出,当一个计算机上不安装备份软件的备份模块,而又需要备份数据时,我们需要为它安装备份软件的客户端软件,这个客户端软件负责将需要备份的数据从磁盘上取出来,与备份服务器上的备份模块建立TCP/IP 级的通道,并将数据通过这个通道传送到备份服务器上,由备份服务器再保存到磁带上。
这个客户端软件一般叫远程备份代理(remote agent).
需要备份的数据一般有三类,即普通的文件系统文件、数据库数据、及裸设备数据。
普通的remote agent只能备份文件数据和裸设备数据,而对于不同的数据库数据,需要不同的agent. 数据库软件在运行(一般叫online)时, 数据库的数据在内存缓冲里修改,并不是马上存放到磁盘上,而且数据之间的逻辑关系和数据本身不在一起,因此此时磁盘上的数据库数据是不一致的,我们采用普通的agent去制作的拷贝,将来是不能恢复的。
当然最简单的办法是将数据库软件关掉(offline), 但是很多应用是不能关的,即使是大学图书馆管理软件,可能支持一些网上查询、网上预借等功能,也需要一天24小时运行。
再者,数据库offline 时只能制做全备份,如果数据库很大,总做全备份既费时又浪费存储。
也就是说我们既不能将数据库应用关掉,又需要制作数据拷贝,以便灾难时可以恢复数据。
通常备份软件采用的技术是与数据库本身提供的数据在线备份技术相结合,来将数据库数据备份到备份设备上,因为只有数据库自身明白如何使它的数据备份出来是一致的、可以恢复的。
这个结合的模块就叫数据库备份代理(database agent).由于不同的数据库其备份数据的方法不同,因此备份软件通常提供针对
不同数据库的agent,例如Backup Exec提供Sql server agent、Exchange server agent、oracle agent等。
一台计算机上如果需要备份的数据只是普通文件或裸设备文件,安装普通的remote agent就可以了。
如果还有数据库数据,就需要增加对应的数据库agent。
例如一台机器上运行oracle数据库,那么需要同时安装remote agent 和oracle agent.
不同操作系统的计算机有不同类型的remote agent。
例如Remote agent for Windows or Novell, Remote agent for UNIX等。
由于笔记本和台式机的特点是重复性,移动性,因此有特别的agent, 通常按照10或100个机器为一包购买。
备份软件一般还包含其它一些高级功能模块,都是为了满足某种特殊需求而设计的。
10. 恢复操作系统
数据丢掉是致命的,但是有时候快速恢复也是必须的。
生产系统的恢复包括整个操作系统、软件、及数据的恢复过程。
传统的,当一个计算机因为病毒、人为误操作或其它原因造成瘫痪后,恢复的过程是:安装操作系统、打patch、安装数据库及软件、最后恢复数据。
前面的三步至少需要花上半天时间。
今天的备份软件将这个流程全部自动化,即不仅备份数据,还备份操作系统及运行环境。
恢复时从操作系统到数据全部自动化,减少人工干预,从而缩短恢复时间。
这种恢复操作系统的功能模块通常叫IDR(Intelligent Disaster Recovery).
五、结论:
数据备份与恢复系统就是在你的数据中心建立一套自动化的、安全可靠的系统,将你的数据拷贝周期性地保存到备份设备上。
在你需要恢复时,可以利用这套系统快速地从备份设备上找到数据拷贝,并将其恢复到指定的位置。