服务器数据恢复环境:
HP StorageWorks某型号存储;
虚拟化平台为vmware exsi;
10块磁盘组成raid5(有1块热备盘)。
服务器故障:
raid5阵列中两块硬盘指示灯变黄掉线,无法读取序列号,在SAS扩展卡上无法读取。
故障发生后管理员把故障设备拿到我们数据恢复中心进行检测。
服务器数据恢复过程:
1、服务器数据恢复工程师把其他正常硬盘连接到北亚镜像服务器上进行扇区级镜像备份。
2、判断故障raid5阵列中硬盘故障情况是逻辑故障还是物理故障。
首先将坏盘连接到外部的SAS扩展卡,加电后通过硬盘工作声音可以判断硬盘电机能够起转,但是磁头没有寻道。硬件工程师把硬盘PCB拆下来并清洁HDA组件的氧化部分,将PCB还原后加电故障依旧。和用户沟通后将热备盘的PCB安装到故障盘,再将故障盘PCB上的ROM芯片替换到热备盘的PCB上面,加电后硬盘电机起转和磁头寻道声音正常,但是在寻道结束后有明显的敲盘声,判断磁头损坏。在和用户沟通后,将热备盘的磁头拆下安装到故障盘。在无尘工作间对故障盘进行开盘更换磁头,对故障盘进行检测,发现故障盘不能识别,数据无法读取。
因为有两块故障盘,之前修复失败的是其中一块,再次和用户沟通后尝试对另一块故障盘进行修复操作。和第一块故障盘一样,第二块故障盘依旧是磁头损坏,因为用户的OEM盘价格昂贵,于是在网上购买ST原厂的相同型号硬盘进行磁头更换。这块故障硬盘的磁头更换后能够正常识别,于是将这块修复好的故障盘所有扇区完整镜像到一块相同容量的备份盘中。
3、重组RAID5。
用工具把镜像文件解析成磁盘。所有磁盘的0扇区都有“55 AA”标志。
0x01C2H处表示该分区的类型,“05”代表这是一个扩展分区。因此从0扇区看这是一个不正常的MBR分区结构。
继续往下找,分别在9号盘和8号盘找到了“55 AA”的标志。通过9号盘查询结果可以看到,这是一个正常的MBR分区,其0x01C6处数值表示指向的下一个扇区为GPT的头部。
通过8号盘查询结果可以看到其0x01C6处数值代表指向下一个扇区。但是下一个扇区很明显不是GPT的头部。
由此可以确定9号盘是第一块盘,8号盘可能是最后一块盘。GPT分区所在扇区起始于172032扇区,因此初步判断LUN的起始扇区是172032扇区。
判断条带(stripe)大小。条带也称块,是RAID处理数据的基本单元,不同RAID的条带大小是不一样的。RAID5的1个条带组中有1个校验区,1个校验区的大小等于1个条带的大小。针对这个RAID-5案例做分析判断本案例的一个条带大小是1024个扇区。
判断RAID5成员盘盘序。按照1024扇区分割,使一个记录为一个条带的大小。所有9块盘跳到同一记录283123。
当所有盘都定位到同一位置时,通过对比就可以判断出校验区的走向,继而确定整个RAID5的走向。之前已经判断出9号盘是第一块盘了,把9号盘放在第一个位置就可以判断走向了。最终确定RAID5为左走向,盘序为9,2,3,4,10,1,7,8,5。
已经初步确定了LUN的起始扇区是172032扇区。用工具跳到172032扇区观察各硬盘实际情况。如果172032扇区是LUN的起始扇区,那么这个扇区所属条带中的5号盘应该是校验区,但是此条带中却显示8号盘是检验区。由于本案例RAID5是左走向,5号盘的校验区应该在172032-1024=171008扇区,即上一个条带。跳转到171008扇区发现校验区为5号盘。因此可以确定LUN的起始扇区为171008扇区。
重组RAID5。使用工具按照确定的盘序组好添加进去。选择RAID55,Stripe size 512KB,左异步。
点击Build进行重组。由于数据从1024 * 8=8192个扇区开始,若工具没有跳转到此扇区的功能,那么刚组好的RAID必须和一个文件再进行一次Build重组操作。RAID的起始扇区(Start sectors)选择8192,这个文件可以任意选择起始扇区和大小(Count sectors),如下图1和图2所示。下图3是组好的RAID5。
移交数据:
整个RAID5重建好后,联系用户验收数据,经过用户亲自对恢复出来的数据进行验证后确定数据没问题。根据用户要求把数据移交到用户带来的新盘上。本次数据恢复完成。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。