Q1. 什么是结构化数据和非结构化数据,举例?
-
结构化数据,简单来说就是数据库,结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库等。
-
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
Q2. 什么是RAID技术,RAID5、RAID6、RAID10的区别?
-
磁盘阵列(Redundant Arrays of Independent Disks,RAID),多个独立的物理硬盘按照不同的方式组合起来,形成一个逻辑上的硬盘,主要实现性能提升及数据冗余保护。
-
RAID常见级别及区别
RAID级别 RAID0 RAID1 RAID5 RAID6 RAID10 别名 条带 镜像 分布式奇偶校验条带 双重奇偶校验条带 镜像加条带 容错性 最差(无安全保障) 最高 有一定容错性 容错性比RAID5高 最高 热备选择 无 有 有 有 有 磁盘利用率 最高(100%) 差(50%) (n-1)/n (n-2)/n 差(50%) 需要磁盘数量 n≥1 2 n≥3 n≥4 2*n,n≥2,既最低为4块 允许同时损坏盘数 0 1 1 2 ½ 描述 需要高性能且对数据安全要求不高的场景,如测试应用等 适用于存放重要数据,一般用于操作系统和小规模数据库存储等场景 是一种存储性能、数据安全和存储成本兼顾的存储解决方案 数据中心,信息中心等对数据安全级别要求比较高的企业 集合了RAID0,RAID1的优点,但磁盘利用率一样是50%
Q3. 什么是DAS\SAN\NAS\Unified\Object存储?区别?
- DAS(Direct Attached Storage):直接附加存储,是指将存储设备通过SCSI/SAS接口直接连接到一台服务器上使用。
- NAS:网络附加存储,即将存储设备连接到现有的网络上,提供数据和文件服务。NAS服务器一般由存储硬件、操作系统以及其上的文件系统等几个部分组成。它基于TCP/IP 协议实现文件级数据 的存取服务。
- SAN:是Storage Area Network的缩写,通常译为“存储区域网络”,它是一种在服务器和外部存储资源实现高速可靠访问的专用网络,我们一般说的san存储是通过san网络连接的块存储。
- Unified:统一存储系统,是在一个单一存储平台上整合基于文件和基于块的访问,支持基于光纤通道的SAN、基于IP的SAN(iSCSI)和NAS(网络附加存储)。
- Object存储:
- 技术定义:对象存储,也叫做基于对象的存储,是用来描述解决和处理离散单元的方法的通用术语,这些离散单元被称作为对象。
- 通用理解:对象存储是综合了NAS和SAN的优点,同时具备了SAN直接高速访问和NAS的数据共享等优势。是一个利于共享、读写快的“云存储”技术。作为一种分布式存储,最重要的一点是能解决对非结构化数据快速增长带来的问题。
- 区别及选项参考
Q4. FC SAN\IP SAN区别?什么是LUN?
- FC SAN是基于光纤通道,性能好,成本高,用于数据库等稳定性、性能要求高的应用场景使用。
- IP SAN是基于以太网通道,使用TCP/IP协议,性能相比FC SAN较差,成本低。
- LUN:
- 技术定义:在存储区域网络SAN(Storage Area Network)中,逻辑单元号LUN(Logical Unit Number)是用来标识一个逻辑单元的数字,这个逻辑单元是通过SCSI寻址的设备。换句话说,存储系统将物理硬盘进行分区,成为拥有逻辑地址的各个部分,进而允许主机进行访问,这样的一个分区便称为一个LUN。
- 通用理解:通常说的LUN也指在SAN存储上创建的逻辑磁盘,现在更多存储称之为volume(卷)。
Q5. 常见的NAS协议有哪些?举例?
- NFS:常用于Unix,Linux系统共享,Windows、MacOS也可以使用
- CIFS/SMB:常用于Windows系统共享,Unix、Linux、MacOS也可以使用
- 部分nas存储还提供FTP、WebDAV等协议。
Q6. 什么是热备盘?什么是热备空间?
- 热备盘相当于Raid阵列的备用盘,如果Raid陈列里其中一个盘坏了,这个热备盘就会顶替Raid里的那个坏盘,同时利用校验算法,把坏盘上面的数据重构出来并存储在热备盘中。
- 热备空间是在RAID2.0技术阶段提出的,当存储系统中的某块正在使用的硬盘发生故障后,存储系统将故障硬盘中的数据恢复到一块预留的空闲空间中,这部分空闲空间即为热备空间。热备空间可以是一块物理硬盘,也可以是通过虚拟化技术分散在各成员盘上的空间。
- 补充:
- 为什么要做热备盘或热备空间:以RAID5举例(说明:RAID5同一时间最多允许坏1块盘),运维人员不可能时时刻刻查看设备的硬件状态,那么如果在一块硬盘故障后,未能及时发现并更换故障盘,出现第二块故障盘时整个数据将丢失。
Q7. 什么是存储的裸容量、可用容量、有效容量?
- 裸容量是指所有硬盘物理容量之和,如:5块300G硬盘的裸容量为5×300G=1.5T
- 可用容量是指硬盘在经过raid、多副本等技术处理之后,实际能够使用的容量,如:5块300G硬盘做raid5(无热备),可用空间为(5-1)*300G=1.2T
- 由于硬盘厂商是按照1G=1000MB标注空间的,所以实际可用空间还需要乘以0.95(在0.92和0.98范围内,不同硬盘不同)
- 有效容量通过压缩重删后可存放的文件容量,例如某用户虚拟化备份所需200TB空间,而EMC的DataDomain可以保证1:4的压缩重删比,那么我们只需采购50TB可用空间的DataDomain存储即可。
Q8. 什么是NVMe,什么是SCM?
- NVMe是 non-volatile memory express 缩写,翻译过来就是非易失性内存主机控制器接口规范,在它首次投放市场的时候,许多人认为它只是一个新的、速度更快的SSD。但实际上,NVMe是一种新存储协议,它可以使我们能够充分利用SSD的速度。
- SCM(Storage Class Memory)是当前业界非常热门的新介质形态,同时具备持久化(Storage Class)和快速字节级访问(Memory)的特点。
- 原来的SSD存储使用的闪存芯片主要是Nand Flash芯片,其颗粒中根据存储密度的差异可分为SLC、MLC、TLC和QLC四种;
- SCM介质的访问时延普遍小于1µs,比当前常用的NAND FLASH快2-3个数量级,读写时也没有NAND Flash顺序写入和写前擦除的约束,操作过程更简单;同时,SCM介质的在寿命和数据保持能力方面的表现也远超NAND Flash。基于这些特点,业界普遍认为SCM会成为颠覆存储系统设计的新一代介质。
- 补充:
- 存储磁盘一般有存储介质、接口和协议组成。根据存储介质分为机械硬盘和SSD(固态)硬盘:
- 机械硬盘:以机械磁盘为存储介质,通过磁臂和磁头、磁盘之间的机械构造进行数据存储;常使用的协议有ATA和SCSI协议,常见接口有IDE(已淘汰)、SATA、SAS、SCSI(被SAS替代)、FC(原高端存储使用,现已被SAS替代)
- SSD:以闪存芯片为存储介质,通过存储器内部的电荷数即cell的通断电进行数据的读取和写入,进而实现数据存储;常用的协议有SCSI和NVMe,常见的接口有SAS、SATA、M.2、U.2、PCIe
Q9. 备份\归档的目的是什么?两者有何区别?
- 数据备份的根本目的是恢复,一个无法恢复的备份,对任何系统来说都是毫无意义的;应用的场景防止误删、中病毒以及其他的逻辑错误
- 归档的目的是数据的长期保留,主要用于追溯,主要为了满足行业的法律法规的要求。
- 区别:主要是目的不同,备份是数据的短期保留,主要用作生产数据异常后恢复;归档是数据的长期保留,主要用于留痕追溯。
Q10. 什么是RPO,RTO?
- RTO(Recovery Time Objectives)恢复时间目标:当灾难发生后,生产系统再次恢复工作所需的时间。它是灾难发生后到重新恢复系统运作所花费时间的指标。
- RPO (Recovery Point Objectives)恢复点目标:当灾难发生后,容灾系统能将数据恢复到灾难发生前的哪一个时间点的数据。它是系统在灾难发生后将损失多少数据的指标。
Q11. 什么是重复数据删除和压缩?举例?
-
重删和压缩技术是最有效节约存储空间的技术,目前普遍应用在存储、备份软件和数据传输软件中,两者的区别:
- 数据重删一般采用Hash算法,根据块计算出Hash值,根据Hash值得重复情况判断是否有重复数据。
- 而数据压缩是一种字节级的数据缩减技术,其思想是采用编码技术,常用的如Huffman编码等,将较长的数据用较短的、经过编码的格式来表示,以此达到减少数据大小的目。
-
从应用上来看,重删和压缩通常会配合起来一起使用。如在备份场景中,为了提高数据的缩减效率,在数据经过重删之后会对唯一数据块再执行一次压缩。这样,数据的缩减效果就是重删和压缩效果的叠加。
Q12. 什么是定长去重技术和可变长去重技术?
Q13. 什么是源端消重,什么是目的端消重?举例?
这里将12问和13问合在一起回答:
- 按照重删执行的时间,重删可以分为在线重删和后处理重删:
- 在线重删:指数据在写入磁盘之前进行重删。
- 后处理重删:数据先写入磁盘,然后再读出来进行重删,重删之后的数据再写入磁盘中。通常在实际操作时,用户会根据所承载业务的负载,指定系统相对空闲的时间让重删包括压缩功能运行起来。
- 对于在线重删和后处理重删的定义,业界也存在不同的理解。如先将数据写入缓存,然后从缓存刷到磁盘上,数据在刷盘过程中被重删。对于这种实现方式,有厂商认为也是一种后处理重删。
- 按照数据分块的方式,重删可以分为定长重删和变长重删:
- 定长重删:数据按照固定长度进行分块,之后进行重删;
- 变长重删:数据被智能的划分成不同大小的块进行重删。这种分块重删方式一般可以获得比较好的重删效果,当前(2021年)产品中实现效果最好的是DELL EMC的DataDomain。
- 按照重删的粒度,也可以分为块级重删和文件级重删:
- 块级重删:以数据块为粒度进行指纹计算,之后重删。
- 文件级重删:以整个文件为粒度计算指纹,然后重删。文件级重删又称为单一实例库重删。
- 注:关于数据块级重删和文件级重删,普遍存在一些误区,以为在文件系统中的重删就是文件级重删。其实在文件系统中,也可以将文件按照粒度分割成单个的数据块,实现数据块级的重删,这种方法也是统一存储中,实现重删功能的普遍做法。
- 按照重删发生的地方,重删可以分为源端重删和目标端重删:
- 源端重删:数据在源端经过分块并计算指纹,之后发送到目标端进行查重,如果是新的数据块,则通知源端将该数据块发送到目标端进行保存;如果是重复块,则不发送。源端重删的目主要是为了节省两端之间的传输带宽。
- 目标端重删:直接将数据传输到目标端,在目标端进行分块、计算指纹等重删工作。
- 需要说明的是,在一套实际的环境中,上述重删方式不是孤立的存在,通常都是几种方式的组合。如在备份场景中,一般都采用在线、变长、块级、目标端(或者源端)重删的方法。
Q14. 什么是全备份、增量备份、差异备份?什么是D2D2T/VTL?
-
全备份:备份系统中的所有数据
- 优点:恢复时间最短,最可靠,操作最方便
- 缺点:备份的数量大,备份所需时间长
-
增量备份:备份上一次备份以后更新的所有数据
- 优点:每次备份的数据少,占用空间少,备份时间短
- 缺点:恢复时需要全备份及多份增量备份
-
差异备份:备份上一次全备份以后更新的所有数据
- 优点:数据恢复时间短
- 缺点:备份时间长,恢复时需要全备份及差量备份
-
D2D2T:Disk to Disk to Tape,从磁盘到磁盘再到带库的备份方式,D2D2T备份实现数据的分级管理,它首先将近期可能使用的数据备份存储到磁盘介质的备份设备上,以便系统再次使用时可以快速可靠地恢复数据;同时将长期不用的数据备份存储到磁带介质中,以便长期保存和归档。
-
VTL:虚拟磁带库(Virtual Tape Library ,简称VTL),它在本质上是磁盘阵列硬件设备,在软件功能上模拟磁带的存储形式。
Q15. 什么是连续数据保护?作用?
- CDP是“连续数据保护”的缩写,它也称为实时备份。连续数据保护(CDP)技术是对传统数据备份技术的一次革命性的重大突破。传统的数据备份解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。CDP为用户提供了新的数据保护手段,CDP系统会不断监测关键数据的变化,从而不断地自动实现数据的保护。
- 作用:满足RPO≈0的需求
- 举例:Dell EMC RecoverPoint使用的是cdp技术
Q16. 什么是快照,什么是克隆?
- 快照:
- 存储网络行业协会SNIA(StorageNetworking Industry Association)快照的定义:关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品。
- 通俗理解:可以简单理解为拍照,即对当前的数据状态进行拍照形成定格记录。
- 快照是基于源数据的,当源数据删除后,快照数据将不可用
- 克隆:克隆是源LUN上的全部数据的副本,克隆后的数据副本脱离源LUN,即删除源LUN后克隆数据可正常使用。
Q17. 什么是容灾?和备份的区别是什么?
- 容灾主要针对火灾、地震等重大自然灾害,因此生产站点和容灾站点之间必须保证一定的安全距离;备份主要针对人为误操作、病毒感染、逻辑错误等因素,用于业务系统的数据恢复,数据备份一般是在同一数据中心进行。
- 容灾系统不仅保护数据,更重要的目的在于保证业务的连续性;而数据备份系统只保护不同时间点版本数据的可恢复。一般首次备份为全量备份,所需的备份时间会比较长,而后续增量备份则在较短时间内就可完成。
- 容灾的最高等级可实现RPO=0;备份可设置一天最多24个不同时间点的自动备份策略,后续可将数据恢复至不同的备份点。
- 故障情况下(例如地震、火灾),容灾系统的切换时间可降低至几分钟;而备份系统的恢复时间可能几小时到几十小时。
Q18. 什么是存储虚拟化网关?作用?和存储原生双活有何区别?优劣势?
-
什么是存储虚拟化网关
存储网关通常可以通过存储虚拟化技术,管理异构存储,扩展性比较好,比如EMC的VPLEX,主要作用是实现存储双活。
- 和存储原生双活的区别及优势
- 存储原生双活是通过存储层软件实现的,通过两台存储组建(一般不支持异构,或异构支持限制较多),需要license,是现在存储双活的主流解决方案。
- 存储网关方案的横向扩展能力更强,可以整合异构存储,可方便利旧存储。后端存储维护时候主机几乎无感知。
Q19. 什么是服务器虚拟化?什么是超融合?
- 是通过Hypervisor(虚拟机监控器 VMM),将物理服务器划分为多台独特且相互隔离的虚拟化服务器,且每台虚拟服务器可以独立地运行其自己的操作系统。如VMware vSphere、kvm(Linux、开源)、hyper-v(微软)、xen(思杰)
- 超融合基础架构(Hyper-Converged Infrastructure,或简称“HCI”),也被称为超融合架构,
- 标准定义:是指在同一套单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素,而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out),形成统一的资源池。
- 简单理解:计算(服务器)虚拟化、存储虚拟化、网络虚拟化的融合部署架构,即将这三种虚拟化技术融合部署在同一台设备中。注意部分厂商将安全虚拟化也加入了超融合。
Q20. 什么是容器?什么是K8S?
-
虚拟机技术是通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。使得应用程序,操作系统和硬件三者之间的逻辑保持不变。由于在计算机中创建虚拟机时,需要将实体机的部分硬盘和内存容量作为虚拟机的硬盘和内存容量,每个虚拟机都有独立的CMOS、硬盘和操作系统,虚拟机存在资源占用多、冗余步骤多、启动慢等缺点。
-
容器技术:与虚拟机不同,Linux容器不是模拟一个完整的操作系统,而是对进程进行隔离,形成一个“容器”,容器内的应用进程直接运行与宿主的内核,容器自己没有内核,而且没有进行硬件虚拟,系统因此而变得高效轻量并保证部署在任何环境种的软件都始终如一运行。
-
Kubernetes,又称为 k8s(首字母为 k、首字母与尾字母之间有 8 个字符、尾字母为 s,所以简称 k8s),是为容器服务而生的一个可移植容器的编排管理工具。