您所在的位置:首页 > 成功案例 > RAID数据恢复

山东枣庄某企业恢复案例

最新动态来源:本站原创点击数:27更新时间:2020/9/9

北亚小编为大家分享一篇案例:用户为山东枣庄某企业,整个存储空间由600G SAS硬盘组成,共16块,其中15块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。根据日志描述:由于RAID5阵列中出现1块硬盘故障,热备盘成功激活,同步完成后,又有两块硬盘出现故障,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。
由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现六块硬盘有物理故障,其他硬盘没有物理故障。(备注:六块物理故障硬盘中,一块硬盘的盘片出现故障,盘片被划伤,无法修复、一块硬盘固件故障、此故障何以通过专业手段修复,剩余四块硬盘出现物理坏道),其中坏道硬盘坏道情况,槽位硬盘:8、9、12、14出现坏道,坏道个数分别:868、97、169、61,如下图:
北京北亚数据恢复中心案例图
图一:
 
北京北亚数据恢复中心案例图
图二:
 
北京北亚数据恢复中心案例图
图三:
 
北京北亚数据恢复中心案例图
图四:
 
【数据恢复案例分析】
数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以确保现有数据的安全。使用dd命令或WINHEX工具将所有完好磁盘以只读方式镜像成文件。
物理故障硬盘备份:固件故障和物理坏道的硬盘,使用专业工具(PC3000-SAS)进行备份,盘片故障的硬盘就彻底损坏无法备份。
 
由于前两个步骤并检测到磁盘有物理故障,由此推断可能是由于某些磁盘读写不稳定和物理故障导致故障发生。因为浪潮AS500G3控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,浪潮AS500G3控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用,目前初步了解的情况为基于RAID组的LUN划分LVM给虚拟化使用,重要数据为虚拟化中的SQL Server数据库。
       
1、由于有一块硬盘无法修复,所以要在缺少一块硬盘的情况下重组RAID5,因此部分数据肯定会有所缺失或损坏;
2、分析所有硬盘中的数据,几乎可以明确损坏的那块硬盘中的数据会影响到虚拟机及数据库,因此后续还需修复虚拟机及SQL Server数据库;
3、相比之前的电话初检,实际检测多出以下检测结果及数据恢复的复杂度:
     硬盘的物理损坏大于5块以上;
     有物理硬盘严重损坏,且无法修复;
     存储非传统RAID,而是基于数据切块的及数据MAP的LUN,因此在解决RAID问题之后还需要解决LUN逻辑卷的问题;
     已明确后续的虚拟机及SQL Server数据库会出现数据文件损坏或数据丢失的情况发生,因此后续还需要修复损坏的虚拟机及数据库。