Lustre文件系统数据恢复案例
最新动态来源:本站原创点击数:18更新时间:2024/12/25
服务器数据恢复环境&故障:
5台节点服务器,每台节点服务器上有一组RAID5阵列。每组RAID5阵列上有6块硬盘(其中1块硬盘设置为热备盘,其他5块硬盘为数据盘)。上层系统环境为Lustre分布式文件系统。
机房天花板漏水导致这5台节点服务器进水,每台服务器都有至少2块硬盘出现故障。每台服务器中的RAID5阵列短时间内同时掉线2块或以上数量的硬盘,导致RAID崩溃,服务器中数据无法正常读取。
服务器数据恢复过程:
1、将所有服务器中的硬盘做好标记后取出,硬件工程师对所有硬盘进行硬件故障检测。通过更换磁头、修复固件等方式,对存在故障且无法读取的硬盘进行修复。修复完成后以只读方式镜像故障硬盘。没有出现故障的硬盘也以只读方式进行全盘镜像。所有硬盘镜像完成后,按照原样将所有硬盘还原到服务器中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析所有磁盘底层数据,获取RAID校验形式、条带大小、盘序等重组RAID的相关信息,利用这些RAID信息虚拟重组所有RAID。
3、解析Lustre分布式文件系统。
Lustre分布式系统由元数据卷(MDS)和数据卷(OST)组成,重组RAID后就可以得到MDS分区和OST分区。Lustre文件系统中所有文件的文件名、文件路径等属性信息存放在MDS分区;文件对应的数据内容全部存放在OST分区。
MDS分区是一个EXT3文件系统,除了节点类型为文件的解析方式不同之外,其余所有解析方式和Ext3一样。
从MDS分区中获取到整个Lustre中所有文件的目录结构,文件名称,文件编号,所属OST号等属性信息。
4、根据从MDS分区中获取到的目录结构、文件名称、文件编号、所属OST号等属性信息,北亚企安数据恢复工程师整理重构出文件的原始路径,并定位到索引的OST卷及相关数据区域,获取相关数据文件。直至恢复出所有数据。
5、随机抽取部分文件校验,所有抽检的文件正确无误。对恢复数据的数据量进行校验也没有发现问题。用户方确认数据完整恢复,目录结构完好。北亚数据恢复工程师协助用户方工程师将恢复出来的数据迁移到用户方准备好的设备环境中。