2块盘离线但只有1块热备盘激活导致阵列崩溃的数据恢复案例
最新动态来源:本站原创点击数:6更新时间:2025/7/9
存储数据恢复环境&故障:
某单位一台EMC某型号存储中有12块STAT接口的硬盘,其中10块硬盘组建了一组RAID5阵列,剩下2块设置为热备盘使用。
RAID5阵列中的2块硬盘出现故障离线,但是只有一块热备盘成功激活,导致RAID5阵列不可用,上层LUN无法使用。
存储数据恢复过程:
1、将故障存储设备中所有硬盘编号后取出,硬件工程师对所有磁盘做检测后没有发现有硬盘存在物理故障。使用坏道检测工具检测也没有发现有硬盘存在坏道。
2、将所有磁盘以只读方式进行全盘镜像,由于源磁盘的扇区大小为520字节,镜像完成后将所有备份数据做520字节 to 512字节的转换,便于后续的数据恢复。
3、上述步骤的检测并没有发现有磁盘存在物理故障或者是坏道,北亚企安数据恢复工程师推断导致故障发生的原因是某些磁盘读写不稳定。由于EMC存储的控制器针对磁盘的检查策略比较严格,一旦检测到某些磁盘性能不稳定,EMC存储上的控制器就很大可能性将这些磁盘识别为坏盘,并踢出RAID。一旦RAID中掉线的盘数到达到该级别RAID所允许掉盘的最大数量,RAID就会崩溃,上层基于RAID的LUN也将不可用。本案例中基于RAID的LUN只有一个,分配给SUN小机使用,上层文件系统为ZFS。
4、EMC存储的LUN是基于RAID的。分析每一块磁盘,发现其中有2快盘完全没有数据。从存储管理系统上发现这2块盘都是热备盘,其中一块盘替换了一块坏盘。虽然该块热备盘成功激活,但级别为RAID5的RAID中还缺失一块硬盘,导致数据没有同步到这块激活的热备盘中。分析其他10块硬盘,分析数据在硬盘中分布的规律、RAID条带的大小、盘序等重组raid所需的raid相关信息。
5、根据分析获取到的RAID信息虚拟重组RAID。但由于RAID中有两块盘掉线,因此需要分析这两块硬盘掉线顺序。分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘是先掉线的,通过RAID校验程序校验这个条带,确定先掉线的硬盘。
6、LUN是基于RAID的,根据上述分析出来信息重组RAID。分析LUN在RAID中的分配信息和LUN分配的数据块MAP。根据这些信息使用北亚企安自主开发的raid恢复程序,解释LUN的数据MAP并导出LUN的所有数据。
7、使用ZFS文件系统解释程序对生成的LUN做文件系统解释,解释某些文件系统元文件的时候程序报错。北亚企安开发工程师对ZFS文件系统解释程序做debug调试,分析程序报错原因。经过数小时的分析与调试,发现存储突然出现故障导致ZFS文件系统中某些元文件损坏,从而导致正常解释。
8、由于ZFS文件系统部分元文件损坏,因此需要先修复这些损坏的文件系统元文件,然后才能正常解析ZFS文件系统。北亚企安数据恢复工程师手工修复这些损坏的元文件,直到ZFS文件系统能够正常解释。对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。
9、用户方工程师对恢复出来的数据进行验证,经过验证确认恢复出来的数据完整可用。本次数据恢复工作完成。