儲存RAID5硬碟離線恢復教程

RAID5的空間利用率高、讀出速度快、安全性高、不需要專門的校驗碼磁碟,而且解決了寫入速度相對較慢的問題。儘管優點很多但還是會有出現故障的情況,當遇到RAID-5磁碟陣列的兩塊盤掉線,表現為兩塊硬碟亮黃燈應該怎麼辦呢?

本次小編分享的案例是HP P2000的儲存vmware exsi虛擬化平臺,由RAID-5由10塊lT硬碟組成,其中6號盤是熱備盤,由於故障導致RAID-5磁碟陣列的兩塊盤掉線,表現為兩塊硬碟亮黃燈。 經使用者維護人員檢測,故障硬碟應為物理故障,表現為:序列號無法讀取,在SAS擴充套件卡上硬碟無法識別。經檢測RAID-5的每塊成員盤是物理故障(磁頭損壞或者碟片劃傷)還是邏輯故障。對能識別的好盤用連線到北亞映象伺服器上做扇區級映象,同時對不能識別的壞盤進行檢測。首先將壞盤連線到外部的SAS擴充套件卡上,加電後通過硬碟工作聲音判斷硬碟電機能夠起轉,但是磁頭沒有進行尋道操作,於是嘗試把硬碟PCB分離下來對HDA元件氧化部分進行清潔操作,將PCB還原後故障依舊。於是和客戶溝通使用6號熱備盤的好PCB替換到故障盤上進行嘗試性修復,再將故障盤PCB上的ROM晶片替換到6號盤的好PCB上面後硬碟工作時起轉和磁頭尋道聲音都正常,但是在尋道結束後,有明顯的敲盤聲音,於是判斷有可能磁頭損壞。在和使用者溝通後嘗試使用6號熱備盤中的好磁頭對故障盤進行替換操作以讀取資料。在無塵室對故障盤進行開盤更換原廠的相同型號硬碟磁頭,這塊硬碟的磁頭更換完成後,裝置能夠正常識別硬碟,於是將故障盤所有扇區完整映象到一塊相同容量的備份盤中。

【判斷起始扇區】

所有硬碟都映象好後就可以重組了,用WinHex開啟9塊盤(熱備盤不需要加進去重組),先把映象檔案解析成磁碟。可以看到這9塊盤的0扇區都有“55 AA”標誌,如圖一所示。

查詢結果如圖2所示,0x01C2H處表示該分割槽的型別,這裡顯示“05”,代表這是一個擴充套件分割槽。因此從0扇區看這是一個不正常的MBR分割槽結構。

按圖1方式繼續往下找,分別在9號盤和8號盤找到了“55 AA”的標誌。9號盤查詢結果如圖3所示。這是一個正常的MBR分割槽,其0x01C6處數值代表指向的下一個扇區為GPT的頭部。

圖3

8號盤查詢結果如圖4所示。其0x01C6處數值代表指向下一個扇區。但是下一個扇區很明顯不是GPT的頭部。

圖4

由此可以確定9號盤是第一塊盤,8號盤可能是最後一塊盤。GPT分割槽所在扇區起始於172032扇區,因此初步確定LUN的起始扇區是172032扇區。

【判斷條帶大小】

條帶也稱塊,它是RAID處理資料的基本單元。不同的RAID其條帶大小有所不同。RAID-5的1個條帶組中有1個校驗區,1個校驗區的大小等於1個條帶的大小,根據這一點,針對這個RAID-5案例做分析。如果對VMFS的檔案系統不熟悉,可以通過比較法確定條帶大小。如某一條帶組中的校驗區跟這一條帶組中的非校驗區可能相差得很明顯,通過WinHex檢視並做對比,就可以找到條帶大小。本案例判斷出一個條帶是1024個扇區。

【判斷RAID-5成員盤盤序】

按照1024扇區分割,使一個記錄為一個條帶的大小並且9塊盤跳到同一記錄283123。當9塊盤都定位到同一位置時,通過對比可以判斷校驗區的走向,繼而判斷整個RAID-5的走向。之前已經判斷出9號盤是第一塊盤了,把9號盤放在第一個位置,接著就可以判斷走向了,結果如圖5所示(drive9是第4塊盤)。確定RAID-5為左走向,盤序為9,2,3,4,10,1,7,8,5。

圖5

前面內容初步確定了LUN的起始扇區是172032扇區。用WinHex跳到172032扇區,觀察各硬碟實際情況。如果172032扇區是LUN的起始扇區,那麼這個扇區所屬條帶中的5號盤應該是校驗區,但是此條帶中卻顯示8號盤是檢驗區,根據本案例RAID-5的左走向,5號盤的校驗區應該在172032-1024=171008扇區,即上一個條帶。跳轉到171008扇區,發現校驗區為5號盤。因此可以確定LUN的起始扇區為171008扇區。

【重組RAID-5】

使用專業恢復工具按照確定的盤序組好,新增進去,如圖6所示。選擇RAID-5,Stripe size 512KB,左非同步。

圖6

點選Build進行重組。組好後,由於資料從1024*8=8192個扇區開始,若專業恢復工具沒有跳轉到此扇區的功能,那麼剛組好的RAID必須和一個檔案再進行一次Build重組操作。RAID的起始扇區選擇8192,這個檔案可以任意選擇起始扇區和大小大小。整個RAID-5重建好後可以進行驗證,如沒有問題,本次恢復成功。