备份
备份概述
No.1:
备份作用
- 数据失效可分为两种:
- 物理损坏(Physical Damage): 失效后的数据彻底无法使用
- 逻辑损坏(Logical Damage): 失效的数据仍可以部分使用,甚至可以恢复。
- 备份的概念
备份就是针对应用系统的一个或多个完整的数据拷贝,当应用系统出现问题时,可以随时从备份中恢复需要的数据。总结性的说就是只有能够恢复的备份才是有意义的备份。
No.2:
选用备份平台的考虑因素
-
可用性
对数据进行备份是为了保证数据的一致性和完整性,消除系统使用者和操作者的后顾之忧,保证恢复之后的数据可以使用。 -
稳定性
备份产品的主要作用是为系统提供一个数据保护的方法,于是该产品本身的稳定性和可靠性就变成了最重要的一个方面。首先,备份软件一定要与操作系统100%的兼容,其次,当事故发生时,能够快速有效地恢复数据。 -
全面性
在复杂的计算机网络环境中,可能会包括了各种操作平台,如各种厂家的UNIX、Linux、Windows NT等,并安装了各种应用系统,如ERP、数据库、群件系统等。选用的备份软件,要支持各种操作系统、数据库和典型应用。 -
自动化
很多系统由于工作性质和使用环境,对何时备份、用多长时间备份都有一定的限制。在下班时间系统负荷轻,适于备份。可是这会增加系统管理员的负担,由于精神状态等原因,还会给备份安全带来潜在的隐患。因此,备份方案需能提供定时的自动备份,并利用磁带库等技术进行自动换带。在自动备份过程中,还要有日志记录功能,并在出现异常情况时自动报警。 -
高性能
随着业务的不断发展,数据越来越多,更新越来越快,在休息时间来不及备份如此多的内容,在工作时间备份又会影响系统性能。这就要求在设计备份时,尽量考虑到提高数据备份的速度,利用多个磁带机并行操作的方法。 -
维持业务系统的有效性
实时备份对业务系统的性能将会产生一定的影响,有时会很大。如何采取有效的技术手段避免备份对服务器系统、数据库系统、网络系统的影响,将是非常重要的。 -
操作简单
数据备份应用于不同领域,进行数据备份的操作人员也处于不同的层次。这就需要一个直观的、操作简单的图形化用户界面,缩短操作人员的学习时间,减轻操作人员的工作压力,使备份工作得以轻松地设置和完成。 -
实时性
有些关键性的任务是要24小时不停机运行的,在备份的时候,有一些文件可能仍然处于打开的状态。那么在进行备份的时候,要采取适当的措施,保证正确地备份系统中的所有文件。
No.3:
备份的基本概念
No.1:
备份窗口
一个工作周期内留给备份系统进行备份的时间长度。 如果备份窗口过小, 则应努力提高备份速度
No.2:
影响备份的关键因素 — 时间
-
备份时间
数据从开始备份到完全结束所经历的时间 -
数据恢复时间
即在出现灾难的时候,我们能够多快地恢复全部数据,重新开始正常的业务。
No.3:
备份的类型
从备份数据的内容上区分:
-
完全备份
对备份对象进行完全备份;这个很好理解,系统中所有的数据都通过备份进程备份。全备份需要备份的时间最长,这种方法的好处是恢复时间很快。恢复时间缩短了是因为我们已经有了所有的数据备份,所有要做的就是做一次全恢复。 -
差异备份
每次备份的数据是相对于上一次全备份之后增加的和修改过的数据;通常,系统管理员在周末进行一次全备份,在一周的其它时间做差异备份 。这种备份方法的恢复时间较长,我们不但要从全备份中恢复数据,还需要将每天的变化量恢复到系统中。 -
增量备份
每次备份的数据只是相对于上一次备份后新增加的和修改过的数据;增量备份是在周末进行全备份,每天增加备份当天的数据变化。对于备份时间,增量备份需要的备份的时间最短,但是,恢复时间却很长而且很复杂。在恢复的过程中,我们不但需要恢复第一的全备份,还需要使用每天变化量的备份,一次恢复一天的数据,直到最近的一次所做的增量备份为止。
No.4:
备份的方式
-
从使用的角度来看:
- 手工备份-功能最强、成本最高、最易出错
- 自动备份-使用方便、成功率高、降低成本
-
从应用的角度来看:
- 离线备份-业务需要停顿
- 在线备份-业务不停顿
备份系统基础架构
目前最常见的数据备份系统按其架构不同可以分为四种:基于主机(Host-Base)结构,基于局域网(LAN-Base)结构,基于 SAN 结构的 LAN-Free 和Server-Free结构。
No.1:
Host-Base
- 什么Host-Base?
基于主机的备份系统是最简单的一种数据保护方案,在大多数情况下,这种备份大多是采用服务器上自带的磁带机或备份硬盘,而备份操作往往也是通过手工操作的方式进行的(也叫本地备份或手工备份)。这种备份方案不仅增加了硬件投资,还增加了管理的费用。- 基于主机的备份系统是最简单的数据备份方案,适用于小型企业用户进行简单的文档备份。它的优点是维护简单,数据传输速度快
- LAN-Base备份的缺点
- 手动,用户每次都要自己配置备份任务
- 无规律,没有策略
- 缺乏对备份数据的管理
- 可管理的存储设备少,不利于备份系统的共享,不大适合于现在大型的数据备份要求
- 不能提供实时的备份需求。
- Host-Base备份架构图
No.2:
LAN-Base
- 什么是LAN-Base?
LAN-Base是一种流行的备份解决方案。通常,带有备份设备的备份服务器被放置在网络中。备份服务器负责整个系统的备份,它管理整个网络的备份策略、备份媒体和备份目标。所有的备份数据必须通过本地局域网进行传输。 - LAN-Base备份的优点
- 实现了大容量自动化、集中式备份
- 备份过程有策略管理,无需管理员介入
- 网络内所有需要备份的服务器可共享一台备份设备
- LAN-Base备份缺点
- 这种基于LAN的备份解决方案将强制备份数据通过LAN进行传输,因此在备份过程中网络就会超负荷。
- 这不仅会导致备份性能下降,还会使备份时间更长。
- LAN-Base备份架构图
No.3:
LAN-Free
- 什么叫LAN-Free?
数据备份流通过SAN网络传输到备份设备,实现数据备份的方式叫做SAN备份,这种方式解放了LAN上的流量,因此也叫做LAN Free备份。 - LAN-Free备份的优点
- 提高备份速度,减少备份及恢复窗口
- 优化备份设备的使用
- 降低备份服务器负担
- 消除对业务网络(LAN)的影响
- LAN-Free备份架构图
No.4:
Server-Free
- 什么是Server-Free备份?
Server less备份是备份技术中最近的技术,它可以在LAN Free备份的基础上节省有价值的服务器CPU、内存等资源(即备份时数据不流经服务器的总线和内存)。一些Server less备份设备放在服务器和存储子系统之间,这些设备负责备份数据的全部责任,它从存储阵列向磁带设备直接发送数据。 - Server-Free备份的优点
- 实现不影响应用的备份
- 极大的减少服务器负担
- Server-Free备份架构图
容灾
容灾备份系统能力的关键指标
- RTO(Recovery Time Objective):它是指灾难发生后,可容许服务中断的时间长度。比如说灾难发生后半天内便需要恢复,RTO值就是十二小时;用来衡量容灾系统的业务恢复能力。
- RPO(Recovery Point Objective):它是指灾难发生后,系统能够恢复到什么状态(容许丢失多大数据量),用来衡量容灾系统的数据冗余备份能力。
重复数据删除
重复数据删除技术
No.1:
重复数据删除的概念
- 重复数据删除的定义
重复数据删除(简称重删)是一种存储领域的数据缩减技术。在计算机中存储了很多重复数据,这些数据占用了大量硬盘空间,利用重复数据删除技术,可以只存储一份数据。另外一项节约存储空间的技术是数据压缩,数据压缩技术在比较小的范围内以比较小的粒度查找重复数据,粒度一般为几个比特到几个字节。而重复数据删除是在比较大的范围内查找大块的重复数据,一般重复数据块尺寸在1KB以上。(摘自维基百科)
No.2:
重复数据删除的方式
- 按照重删执行的时间,重删可以分为在线重删和后处理重删:
- 在线重删:指数据在写入磁盘之前进行重删。
- 后处理重删:数据先写入磁盘,然后再读出来进行重删,重删之后的数据再写入磁盘中。通常在实际操作时,用户会根据所承载业务的负载,指定系统相对空闲的时间让重删包括压缩功能运行起来。
- 对于在线重删和后处理重删的定义,业界也存在不同的理解。如先将数据写入缓存,然后从缓存刷到磁盘上,数据在刷盘过程中被重删。对于这种实现方式,有厂商认为也是一种后处理重删。
- 按照数据分块的方式,重删可以分为定长重删和变长重删:
- 定长重删:数据按照固定长度进行分块,之后进行重删;
- 变长重删:数据被划分成不同大小的块进行重删。变长重删一般使用在备份场景中,这种分块重删方式一般可以获得比较好的重删效果。
- 按照重删的粒度,也可以分为块级重删和文件级重删:
- 块级重删:以数据块为粒度进行指纹计算,之后重删。
- 文件级重删:以整个文件为粒度计算指纹,然后重删。文件级重删又称为单一实例库重删。
- 注:关于数据块级重删和文件级重删,普遍存在一些误区,以为在文件系统中的重删就是文件级重删。其实在文件系统中,也可以将文件按照粒度分割成单个的数据块,实现数据块级的重删,这种方法也是统一存储中,友商实现重删功能的普遍做法。
- 按照重删发生的地方,重删可以分为源端重删和目标端重删:
- 源端重删:数据在源端经过分块并计算指纹,之后发送到目标端进行查重,如果是新的数据块,则通知源端将该数据块发送到目标端进行保存;如果是重复块,则不发送。源端重删的目主要是为了节省两端之间的传输带宽。
- 目标端重删:直接将数据传输到目标端,在目标端进行分块、计算指纹并查重下盘。
- 需要说明的是,在一套实际的环境中,上述重删方式不是孤立的存在,通常都是几种方式的组合。如在备份场景中,一般都采用在线、变长、块级、目标端(或者源端)重删的方法。
No.3:
重复数据删除与数据压缩的区别与联系
- 数据压缩是一种字节级的数据缩减技术,其思想是采用编码技术,常用的如Huffman编码,将较长的数据用较短的、经过编码的格式来表示,以此达到减少数据大小的目的。
- 从效果上来看,可以认为重复数据删除是一种基于“数据块”的压缩,而数据压缩是一种基于“字节”的重复数据删除。
- 从应用上来看,重删和压缩通常会配合起来一起使用。如在备份场景中,为了提高数据的缩减效率,在数据经过重删之后会对唯一数据块再执行一次压缩。这样,数据的缩减效果就是重删和压缩效果的叠加。