IBM DS4/5000系列存储维护手册

术语

No.1: LUN

摘抄于百度百科

  1. LUN是英文Logical Unit Number的缩写,指逻辑单元号。LUN ID的作用就是扩充了Target ID(SCSI总线上可挂接的设备数量是有限的,一般为8个或者16个,用Target ID(也有称为SCSI ID的)来描述这些设备)。每个Target下都可以有多个LUN Device,我们通常简称LUN Device为LUN。
  2. LUN的神秘之处(相对于一些新手来说)在于,它很多时候不是什么可见的实体,而是一些虚拟的对象。比如一个阵列柜,主机那边看作是一个Target Device,那为了某些特殊需要,我们要将磁盘阵列柜的磁盘空间划分成若干个小的单元给主机来用,于是就产生了一些什么逻辑驱动器的说法,也就是比Target Device级别更低的逻辑对象,我们习惯于把这些更小的磁盘资源称之为LUN0、LUN1、LUN2…什么的。而操作系统的机制使然,操作系统识别的最小存储对象级别就是LUN Device,这是一个逻辑对象,所以很多时候被称为Logical Device。
  3. 还要说明的地方是,在有些厂商和有些产品的概念里,LUN ID被绑定到了具体的Device上,比如IBM的一些带库,整个带库只有一个Target ID,然后changer,tape drive被分别分配为LUN0、LUN1、LUN2…,但是我们要注意到,这只是产品做了特别设计,也是少数情况。

No.2: LUN masking

  1. LUN masking是指LUN与主机HBA卡的WWN地址绑定,与主机HBA卡建立一对一或多对一的连接和访问关系。
    • 无论主机跳线到同一个Fabric(没有做zone设置或修改zone配置)的哪一个端口上,主机都能识别到相同的LUN。
    • 存储设备一般默认在卷和主机间建立多对一的对应关系,即一台主机可访问存储设备上的多个卷。
    • 在非共享的应用系统中,一般在卷和主机建立一(主机)对多(卷)的关系,不同业务类型的工作站分别访问不同的LUN。
    • 在共享式的应用系统中,一般采用多(主机)对一(卷)关系。
  2. LUN Masking一般是指磁盘阵列控制器里面的功能,用来控制哪个主机可以访问哪个LUN,实现不同操作系统主机访问LUN时的逻辑隔离,保证多种操作系统平台分享一台磁盘阵列系统时,不会互相破坏文件系统。

No.3: LUN mapping

  1. LUN Mapping是LUN与存储设备的主机端口进行绑定,工作站连接不同的主机端口时所能访问的LUN不同。
  2. 当一个存储系统同时为多个应用系统提供数据存储服务,且不同应用系统的主机分别处于不同的地理地址时,有可能用到第二种LUN Mapping方式。即将不同的LUN与不同的存储主机端口绑定,不同的主机端口与不同的FC交换机或者不同的ZONE连接,从而实现不同的工作站只能访问不同的端口。
  3. 一个LUN Mapping中所对应的LUN和存储主机端口成为一个分区。由于存储设备的主机端口数量是一定的,如果划分的LUN Mapping分区越多,分区中存储主机端口就会越少。存储设备的冗余链路连接功能就越小,当一个分区里只能设置一个主机端口是,存储就失去了冗余链路连接功能,整个系统极易因存储主机端口和交换机端口的故障而发生单点故障。
  4. 当系统无FC交换机,主机与存储设备的主机端口直连时,通过LUN Mapping实现起来LUN分区非常方便。当所有主机端口都连接到同一个FABRIC时,就需要与 FCswitch的ZONE结合起来一起使用。
  5. 不同厂商对LUN Masking和LUN Mapping的定义和解释不完全相同。有的甚至就定义成一个名称,如SAN SHARE,而有的存储干脆就没有LUN Masking和LUN Mapping功能。

IBM DS4/5000存储基础操作

No.1: Create Raid

  1. Logical栏的Total Unconfigured Capacity上右击,选择Create Array
    enter description here

  2. 介绍,点击Next
    enter description here

  3. 填写Array name,这里选择Manual(手动模式),点击Next
    enter description here

  4. 选择RAID level,选择要加入RAID的磁盘,点击Calculate Capacity计算容量,点击Finish
    enter description here

  5. 是否使用新阵列创建一个逻辑驱动器,点击”No“,在下面Create Logical Drives时创建
    enter description here

  6. 可以看到刚建的RAID了
    enter description here

No.2: Create Hotspare

  1. Physical栏中选择要做Hotspare盘的Disk右击,选择Hot Spare Coverage
    enter description here

  2. 这里有多种方式选择,尤其第一个方式功能最全,这里选择Manually assign individual drives(手动),点击OK
    enter description here

  3. 可以看到Hotspare盘了
    enter description here

No.3: Create Logical Drives

  1. Free Capacity上右击选择Create Logical Drive
    enter description here

  2. 介绍,点击Next
    enter description here

  3. 填写新建逻辑驱动器的的大小和名称,高级参数选择Customize setting(自定义设置),点击Next
    enter description here

  4. 选择启动器I/O性能类型和首选控制器,这里现在File system类型和Slot A控制器
    enter description here

  5. 选择Mapping的方式,这里选择Map later using the Mapping view,点击Finish
    enter description here

  6. 你想创建另一个逻辑启动器吗?这里点击No
    enter description here

  7. 创建完成的信息提示,点击OK
    enter description here

No.4: Mapping到主机

  1. 单击Mappings View弹出Mapping的帮助信息,有一个操作流程的概述,点击Close
    enter description here

  2. 定义主机组;有两个或多个主机共享同一个逻辑驱动器时定义主机组,否则不是必要的
    enter description here
    填写主机组名称,这里Default Group中没有定义主机,故而不需要添加主机,直接点击OK
    enter description here

  3. 定义主机
    enter description here
    是否在这个存储子系统上使用存储分区,选择NO
    a. storage partitions: 即LUN Masking技术,即采用LUN屏蔽方式实现不同主机之间的存储空间隔离。该技术与光纤交换机的Zoning技术类似,都是对访问控制器进行限制。Zoning是确定哪个主机可以访问哪个存储,Storage Partition是进一步限定这个主机只可以访问该存储的哪个/哪些LUN。此功能需要License;若果LUN Mapping 到host,一台host占用一个Storage partition;如果LUN Mapping到Host Group,一个Host Group占一个Storage partition。注意,在一个Storage partition中的主机操作系统类型必须是相同的。
    enter description here
    指定主机名/HBA属性,点击Next
    enter description here
    指定主机类型,这里选择Linux,点击Next
    enter description here
    是否指定主机组,指定主机组后可以与同组主机共享Mapping到主机组的逻辑驱动器,这里选择Yes,点击Next
    enter description here
    指定主机组,可以新建一个主机组,这里选择前面建好的Linux主机组,点击Next
    enter description here
    确认信息,点击Finish
    enter description here
    要定义另一个主机吗?选择NO
    enter description here

  4. 使用Stortage Partitioning选项定义存储分区。
    enter description here
    存储分区向导,点击Next
    enter description here
    选择主机组或主机,这里选择主机,点击Next
    enter description here
    选择逻辑驱动器(logical drives)点击Finish
    enter description here
    完成
    enter description here
    来个最终的截图
    enter description here

  5. 对端主机查看

    [root@localhost ~]# partprobe
    [root@localhost ~]# lsblk
    NAME                        MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
    sr0                          11:0    1  1024M  0 rom   
    sda                           8:0    0   557G  0 disk  
    ├─sda1                        8:1    0   200M  0 part  /boot/efi
    ├─sda2                        8:2    0   500M  0 part  /boot
    └─sda3                        8:3    0 556.3G  0 part  
      ├─VolGroup-lv_root (dm-0) 253:0    0    50G  0 lvm   /
      ├─VolGroup-lv_swap (dm-1) 253:1    0   7.8G  0 lvm   [SWAP]
      └─VolGroup-lv_home (dm-3) 253:3    0 498.4G  0 lvm   /home
    sdb                           8:16   0    50G  0 disk  
    └─mpathc (dm-2)             253:2    0    50G  0 mpath 
    sdc                           8:32   0    50G  0 disk  
    └─mpathc (dm-2)             253:2    0    50G  0 mpath 

IBM DS4/5000存储维护操作

No.1: 更换硬盘

RAID重构数据的时间的长短是以磁盘容量来决定的,而不是以数据大小决定

  1. 拔插硬盘的前提

    • 不要拔错盘,一般在软件中slot是0-15,而在存储笼子上是1-16;
    • 热备盘数据重构结束,一般热备盘的狂闪结束即数据重构结束,最后在软件确认。
  2. 注意:在有任务进行(如数据重构)的情况下最好不要有修改性的操作(如拔查盘,创建Logical Drive等),容易发生故障。这点不只是存储,其他设备最好也要操作。

  3. 当Storage Manager软件中有告警(坏道)的情况
    这中情况因为Disk没有彻底坏掉,故而Disk实际是工作的,不能直接拔插盘;应将Disk标记为failed状态,再进行移除磁盘操作

    • 这里以好盘做实验,标记好盘为failed
      enter description here
    • 确认failed磁盘
      enter description here
    • 热备盘自动顶上,数据开始重构
      enter description here
    • 可以查看进度,它是从第一个Logical Drive(即LUN)开始,必须所有的LUN结束才能拔盘(截图时另一次的实验,LUN的容量不同而已)
      enter description here
  • 数据重构结束后拔盘操作
    enter description here
  • 插入好盘数据回拷
    enter description here

    • 这里也可以看进度
      enter description here
  • 数据回拷完毕,原来的热备盘又做热备盘了
    enter description here

No.2: 更换硬盘 —— 推荐使用

缺点是需要有空的磁盘槽位,以及不适合强迫症患者(RAID组成员盘位置发生变化)
优点是安全性高一点,就那么一点点
有热备盘的我这样做失败了,我操作有误?还是不支持呢?有待验证

  1. 在空槽位插入好盘(这里是在slot6槽位)

  2. 在坏盘右击,选择Replace Drives"
    enter description here

  3. 从"Available replacement drives"选择好的硬盘,点击"Replace Drive"
    enter description here

  4. 提示“驱动器更换命令已发送到控制器“,点击OK
    enter description here

  5. 数据已经开始重构了
    enter description here

  6. 数据重构完就可以拔出坏硬盘了

No.3: 更换控制器/Cache电池

存储中报错

  • Cache电池:报警灯亮红灯电池状态为:Batterystatus:Removed(failure)
  • 控制器:

我的实验环境控制器和电池都是好的,这里模拟A控制器(或A控Cache电池)坏了

  1. 关闭控制器Cache功能
    • 笔记本连接上存储管理口,打开SM软件
    • 在Logical视图中右击lun_1(逻辑盘)— Change — Cache settings
      enter description here
  • 选择要更换控制器(A控)上的逻辑盘(这里我为了安全全选了)— 把Enable read caching、Enable write caching、Enable dynamic cache read prefetch的勾去掉 — OK
    enter description here

  • 提示保存设置,选Yes
    enter description here

  1. 手动切换该控制器(A控)上的LUN到另一控制器

    offline控制器时会切逻辑盘到另一个控制器,但为了安全,还是手动去切
    注意:主机必须做多路径配置,否则会有I/O错误

  • 在Logical视图中右击lun_1(逻辑盘)— Change — Ownership/Preferred Path — Controller in Slot B
    enter description here

  • 提示
    enter description here

  • 提示”可能需要几分钟才能更改Ownership/Preferred Path“,点击OK
    enter description here

  1. offline A控制器
    • 在Physical视图选择A控制器 — 菜单栏Advanced — Recovery — Place Controller — Offline
      enter description here
  • 提示内容中需要注意两点,选则Yes
    enter description here

    • Offline控制器会将逻辑驱动器移动到另一个控制器;如果在主机没有安装配置多路径,将导致I/O错误
    • 选择了YES,存储管理软件需要多达1分钟才能将控制器的状态更新到Offline状态。在这期间不要开始任何其他操作,直到状态已更新。
  1. 更换控制器或Cache电池
    offline后不能马上拔出,当控制器出现红叉后(状态已更新到Failed)才能拔出,可有右击控制器选择Properties查看状态
    enter description here
  • 控制器
    在真实环境中,控制器坏了,也就不需要Offline控制器了,但必须确保控制器是Failed状态

    • 拔下网线和光纤线
    • 拔下控制器换个新控制器插入
    • 接入网线、光纤线
  • Cache电池
    • 拔下电池(电池在控制器上)
    • 插入新的电池
  1. online A控制器
    online控制器后需要稍等一会,告警消失

  2. 手动从B控切回该控制器(A控)上的LUN

  3. 打开cache功能

  4. 注意事项
    我在网上有看到下面描述的情况,我这边无法验证,但还是注意下,毕竟DS4000和DS5000系列的bug较多

    在offline控制器之前一定要看下硬盘的微码,如果微码是JFQ3和JFQ4的一定要先升级到JFQ8,不然在你拔掉控制器的时候有时候会出现阵列全部丢失的情况,这种情况出现你只有找IBM的二线工程师来恢复.

Firmware升级

升级步骤:

  1. 先升级扩展柜ESM模块的firmware
  2. 其次升级控制器和NVSRAM的firmware
  3. 最后升级硬盘的firmware

No.1: 注意事项

  1. 某些firmware的升级可能需要中断I/O请求,因此升级前,确保有充足的停机和维护时间
  2. 升级前确保存储处于Optimal状态,如果不是,请排除故障后再进行升级
  3. 查看README保证firmware的兼容性后再进行升级
  4. 控制器firmware和NVSRAM是密切相关的,故而要确保他们之间的版本是匹配的

No.2: 升级扩展柜ESM模块 Firmware

  1. 下载Firmware需要有权限的账号,后期找到Firmware包后补充

No.3: 升级控制器和NVSRAM Firmware

  1. 下载Firmware需要有权限的账号,后期找到Firmware包后补充

No.4: 升级硬盘Firmware

  1. 下载Firmware需要有权限的账号,后期找到Firmware包后补充

微信扫一扫,分享到朋友圈

IBM DS4/5000系列存储维护手册
0
别把想做的事情,留给遥不可及的未来!

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
返回顶部