刀刀网
您的当前位置:首页EMC_CX硬盘、电池更换方案

EMC_CX硬盘、电池更换方案

来源:刀刀网


EMC CX300硬盘、电池更换方案

2013年6月3日

1

文档控制:

日期

作者 版本 修改记录 审 核:

姓名

职位 分发:

拷贝No.

姓名 单位 部门

2

目 录

一、故障简介 ....................................................... 4 二、技术方案 ....................................................... 4

1、更换前准备 ................................................... 4 2、对系统的影响 ................................................. 4 3、注意事项 ..................................................... 5 4、回退和保障方案 ............................................... 5 5、实施计划 ..................................................... 5 6、方案实施细节 ................................................. 7

1)、健康检查................................................ 7 2)、一般性的状态健康检查.................................... 7 3)、SP的健康性检查.......................................... 7 4)、连接性的健康性检查...................................... 8 5)、LUN的健康性检查......................................... 8 6)、建议停止需要更换备件的存储服务器当前节点服务进程........ 8 7、更换故障硬盘方法 ............................................. 8 8、更换SPS电池方法 .............................................. 9 9、更换SPS时注意的事项: ........................................ 10

3

一、故障简介

EMC CX300存储一块硬盘、一块SPS电池出现故障;处于失效状态,需要更换;故障分别出现在两台存储中,硬盘故障的存储控制器IP地址为10.13.4.137/10.13.4.138;SPS电池出现故障的存储控制器IP地址为10.13.4.139/10.13.4.140;为保证数据安全,本文档为此次更换硬盘及SPS电池操作提供一个指导性的方案。

二、技术方案

1、更换前准备

1)、检查存储系统运行正常

2)、确认能够通过管理口来管理CX300。 3)、检查主机系统状态正常。

4)、检查EMC CX300除已知故障外,没有其他异常。 5)、检查数据备份正常。

6)、建议停止需要更换备件的存储服务器当前节点服务进程(处于安全考虑)

2、对系统的影响

在更换EMC CX300故障件的过程中,出于应用的安全考虑,建议在业务不忙的的情况下进行,硬件更换时间约为2小时;更换完成后通过管理控制台确认原故障信息消除且存储运行状态正常,服务进程正常启动,即可视为更换备件工作完成

4

3、注意事项

建议在更换前备份数据,并确保备份数据的有效性。

4、回退和保障方案

如果发现更换后的备件依然没有解决故障,原故障信息任然存在,需将保持当前状态,不要再换回,另行申请新的备件。

5、实施计划

序号 一 1 操作时间 检查步骤 检查备件是否正 确、完好。 2 对EMC系统进行一次全面检查。确认除已发现故障外没有其他新发故障。(如存在其他的故障应先行修复) 二 1 实施步骤 建议停止需要更换备件的存储服务器当前节点服务进程 操作内容 执行人员 需要的配合 备注 提供存储IP、帐号、口令等相关便利条件 5

2 更换硬盘(一个小时左右) 3 更换SPS(40分钟左右) 4 检查更换后状态,SPS显示T状态为正常 5 电池换完后,可以重新enable writecatch, 提高应用的性能 6 更换完毕后观察存储30分钟的(刚更换完毕可能还告警,那是电池在充电,等一会就会消除)。 7 硬件更换成功后,观察无问题后,即可启动更换前停止的服务进程 三 回退步骤 6

1 如果发现更换后,状态依然是F,报警灯长亮,保持当前状态;如果没有其他报错,立即申请新备件

6、方案实施细节 1)、健康检查

登录SP IP,输入用户名和密码(admin/password),点击物理设备,对EMC系统进行一次全面检查。确认除已发现故障外,没有其他新发故障。(如有其他故障,应先行处理)

2)、一般性的状态健康检查

登陆Navisphere, 右击点“Array”, 并选中“Update Now”, 将存储状态刷新一下,右击点“array”, 并选中“Fault” ,这将展现一个Array中发生fault的组件列表。

3)、SP的健康性检查

右击SPA/SPB,并点击“Properties ”, 确定当前的状态为present, 并且 the peer boot state shows \"Done. Normal. Storage System Software running. Ready for I/O.\" 确定读写cache的状态。

7

4)、连接性的健康性检查

选择“Array”, 右击, 并且选择 Connectivity Status,检查主机向盘阵的注册情况。

5)、LUN的健康性检查

选择lun, 右击“Properties”;,检查Lun 的读写cache 是否enable。

6)、建议停止需要更换备件的存储服务器当前节点服务进程

执行手工停止当前存储服务器所在节点的服务器进程,其他节点服务器可以处理业务,不受任何影响。停止步骤如下:

(1)、检查当期节点及其他节点的服务进程是否正常 (2)、手工停止当前节点的数据备份 (3)、停止当前节点的服务进程

7、更换故障硬盘方法

EMC CX存储一般在二种情况下需要换盘,一为硬盘已经损坏(亮黄灯),二为频繁报DIsk soft media error错误,第一种情况很简单,直接去现场热拔插换硬盘即可,第二种情况其实硬盘还没有硬件损坏,指示灯仍正常,这种情况换硬盘需要多点步骤,下面是实际更换过程的记录:

1)、找到相应需要更换的硬盘(存储->hysical->Bus x Enclosure x->Disks),然后右键执行copy to hot Spare,即把需要更换硬盘上的数据copy到hotspare盘上

8

2)、在执行第一步操作后,存储的图标会变成带一个“T”,这表示数据正在copy,还不能换盘,需继续等待,大概需要30分钟

3)、等到存储的图标从“T”变为“F”后,需要更换的硬盘指示灯变为桔黄色,这表示已经可以拔出这块坏盘了

4)、拔出坏盘,换入新盘,注意比较一下两块块盘的型号是否一致,如转数,接口,容量

5)、换入新盘后,硬盘指示灯变为绿色,并快速闪烁,表示存储已经在重建数据,把数据从HotSpare盘上恢复到这块新盘上

6)、从存储的console页面上也能看到,存储的图标又变为“T”,大约30分钟后,重建完成,图标T消失,恢复正常

8、更换SPS电池方法

1)、关闭SPS A/SPS B电池开关, 等待最长90秒钟关闭SPS

2)、卸下前后固定螺丝,拔下输入线,输出线和侦测线,拔出电源和电池 3)、插入新电源和电池,依次插入输出线,侦测线和输入线,打开电源开关

4)、电池处于同步状况,并不断闪烁,直至绿色等常亮

5)、等待20分钟完成SPS的自检和充电,充电状态下指示灯会闪烁,完全充电完毕将会一直亮绿灯

9

6)、登录navisphere查看状态

7)、如果SPS在替换后依然显示错误,进一步检查sense cable.

9、更换SPS时注意的事项:

*确认Navisphere Manager 里面的 write cache 是不是disable . * 更换好之后要确认write cache enabled

1)、关闭故障SPS上的开关,不要拔线,此时即断掉了其中一路电源供应,SPS的状态灯会灭掉,另一个SPS电池的ON-BATTERY LED亮起,等待大概几十秒后,另一个SPS的ON-BATTERY LED 灭掉,ACTIVE LED开始慢闪。

2)、此时才能开始拔线(顺序:AC-IN,AC-OUT,连接控制器的INTERFACE)。 3)、从设备后面,卸下4个固定螺丝,从设备前面,拆开挡板,卸下6个固定螺丝,卸下故障SPS。

4)、装上新的SPS。注意要保证新SPS上的开关是在0位置,即关闭的。 5)、接好电源线后(顺序:连接控制器的INTERFACE,AC-OUT,AC-IN)。 6)、打开更换的SPS的开关。

EMC CX300电源线连接图

10

7)、重新打开Write Cache

8)、登陆Navisphere,右击“ARRAY”, 择“属性”,选择“cache” tab, 勾上Write cache 框,然后点 “ OK” ,

9)、检查状态,登录SP IP,检查SPS状态是否正常

10)、硬件更换成功后,手工起动被停止的节点的服务及相关进程 11)、确认没有告警输出,更换工作即可视为完成

11

因篇幅问题不能全部显示,请点此查看更多更全内容