反復的磁盤丟失故障處理
這兩天遇到一個問題,很讓人頭疼,就是我們的CX3-10C上分配給一臺服務器的虛擬磁盤老是掉線,原因起先不明,不過現(xiàn)在正常了。 說說大致經(jīng)過吧,前天晚上開始出現(xiàn)這個情況,BCC告警短信發(fā)到我手機上,由于沒有及時看,過了一會廣電中心的人電話打過來說視頻上傳不上去,我然后看了一下視頻服務器,發(fā)現(xiàn)磁盤又沒有了,以為和上次的問題一樣,但是我想也不大可能啊,因為前期我的測試從來沒有出過這個問題,十一放假剛結束就出現(xiàn)這個問題確實有點奇怪,何況我的那塊HBA卡是新的,以前在服務器上插著但是沒有用過,最近才剛剛開始啟用。
問題是這臺視頻服務器上面的兩個虛擬磁盤沒有了,存儲陣列管理端提示光纖未連接,然后我就猜測是網(wǎng)通的人把線碰掉了或者是拔掉了,因為他們最近在摸線,準備機房搬遷,碰掉也很有可能。電話告訴陳乾,可能原因,我去機房檢查服務器光纖連接情況,處理這起故障。去了之后發(fā)現(xiàn)確實是光纖松掉,指示燈都不亮了。插好之后重啟,一切正常。
但是第二天早上,也就是昨天早上又出現(xiàn)這樣的問題就是這臺視頻服務器上面的兩個虛擬磁盤沒有了,但是存儲陣列管理端顯示連接一切正常,服務器端的powerpath一切也正常,也沒有提示任何錯誤,只是系統(tǒng)日志里有幾個提示錯誤。
此時問題原因不明啊,服務器端也提示正常,但是確實是沒有磁盤,很讓人意外。然后我就重啟服務器,因為windows系統(tǒng)好多問題一重啟就正常了,重啟之后果然正常,但是這時不知道原因,至少我認為在存儲陣列上是沒有問題的,光纖交換機肯定也是沒有問題的,即使有問題也是某個端口的問題,我懷疑最大的是網(wǎng)通又把線碰了,打電話問網(wǎng)通那邊的負責人問有沒有人去機房,他們說沒有人去機房,我很懷疑,但是沒有辦法,因為我們那機房暫時沒有門禁系統(tǒng),也無從判斷,我就暫時把這個問題放在這里,日志也看不出是什么原因。
郁悶的是兩個小時之后又那樣了,磁盤又沒有了,提示都正常,錯誤日志也和上次一樣,我想會不會是光纖的問題,去了機房把光纖和光纖交換機端口都換了,重啟機器又正常了,但是還是沒有用,下午三點鐘又出現(xiàn)原問題,又重啟恢復正常,待進一步觀察問題,每次提示的錯誤都是一樣的,就是數(shù)量上稍微有區(qū)別。
由于還有一件事情比這個重要,下午下班趕緊去辦另外一件事情,回來之后八點,那會在路上同事打電話說又出問題,我說你先重啟一下,又恢復正常,回來之后立即研究,時刻監(jiān)控,同時備份上面的數(shù)據(jù),防止磁盤數(shù)次卸載掛上出現(xiàn)問題,但是備份途中又壞掉,由于已很晚,這臺服務器訪問量也不是很高,晚上就沒有加班處理,說實話即使加班也不知道該怎么做,回家想了想,斷定剩下的只能是HBA卡的問題了,端口也換過了,光纖也換過了,還是重復性出現(xiàn)這個問題,時斷時續(xù),真的很煩人……
早上來的比較早,發(fā)現(xiàn)磁盤昨天晚上已經(jīng)掉了,昨晚零晨前半這兩天遇到一個問題,很讓人頭疼,就是我們的CX3-10C上分配給一臺服務器的虛擬磁盤老是掉線,原因起先不明,不過現(xiàn)在正常了。
說說大致經(jīng)過吧,前天晚上開始出現(xiàn)這個情況,BCC告警短信發(fā)到我手機上,由于沒有及時看,過了一會廣電中心的人電話打過來說視頻上傳不上去,我然后看了一下視頻服務器,發(fā)現(xiàn)磁盤又沒有了,以為和上次的問題一樣,但是我想也不大可能啊,因為前期我的測試從來沒有出過這個問題,十一放假剛結束就出現(xiàn)這個問題確實有點奇怪,何況我的那塊HBA卡是新的,以前在服務器上插著但是沒有用過,最近才剛剛開始啟用。
問題是這臺視頻服務器上面的兩個虛擬磁盤沒有了,存儲陣列管理端提示光纖未連接,然后我就猜測是網(wǎng)通的人把線碰掉了或者是拔掉了,因為他們最近在摸線,準備機房搬遷,碰掉也很有可能。電話告訴陳乾,可能原因,我去機房檢查服務器光纖連接情況,處理這起故障。去了之后發(fā)現(xiàn)確實是光纖松掉,指示燈都不亮了。插好之后重啟,一切正常。
但是第二天早上,也就是昨天早上又出現(xiàn)這樣的問題就是這臺視頻服務器上面的兩個虛擬磁盤沒有了,但是存儲陣列管理端顯示連接一切正常,服務器端的powerpath一切也正常,也沒有提示任何錯誤,只是系統(tǒng)日志里有幾個提示錯誤,錯誤截圖如下:
此時問題原因不明啊,服務器端也提示正常,但是確實是沒有磁盤,很讓人意外。然后我就重啟服務器,因為windows系統(tǒng)好多問題一重啟就正常了,重啟之后果然正常,但是這時不知道原因,至少我認為在存儲陣列上是沒有問題的,光纖交換機肯定也是沒有問題的,即使有問題也是某個端口的問題,我懷疑最大的是網(wǎng)通又把線碰了,打電話問網(wǎng)通那邊的負責人問有沒有人去機房,他們說沒有人去機房,我很懷疑,但是沒有辦法,因為我們那機房暫時沒有門禁系統(tǒng),也無從判斷,我就暫時把這個問題放在這里,日志也看不出是什么原因。
郁悶的是兩個小時之后又那樣了,磁盤又沒有了,提示都正常,錯誤日志也和上次一樣,我想會不會是光纖的問題,去了機房把光纖和光纖交換機端口都換了,重啟機器又正常了,但是還是沒有用,下午三點鐘又出現(xiàn)原問題,又重啟恢復正常,待進一步觀察問題,每次提示的錯誤都是一樣的,就是數(shù)量上稍微有區(qū)別。
由于還有一件事情比這個重要,下午下班趕緊去辦另外一件事情,回來之后八點,那會在路上同事打電話說又出問題,我說你先重啟一下,又恢復正常,回來之后立即研究,時刻監(jiān)控,同時備份上面的數(shù)據(jù),防止磁盤數(shù)次卸載掛上出現(xiàn)問題,但是備份途中又壞掉,由于已很晚,這臺服務器訪問量也不是很高,晚上就沒有加班處理,說實話即使加班也不知道該怎么做,回家想了想,斷定剩下的只能是HBA卡的問題了,端口也換過了,光纖也換過了,還是重復性出現(xiàn)這個問題,時斷時續(xù),真的很煩人……
早上來的比較早,發(fā)現(xiàn)磁盤昨天晚上已經(jīng)掉了,昨晚零晨前半個小時,早上重啟之后和dell售后服務工程師聯(lián)系,商討問題解決方案,咨詢了類似的問題,他看了一下存儲陣列spa、spb、系統(tǒng)日志、光纖交換機的supportshow命令的輸出(那個我看不懂,他讓我抓下來給他的)。然后也斷定是HBA壞掉,我當時已經(jīng)在機房,由于這臺服務器上面有兩塊HBA,我把光纖接到另外一塊HBA卡上面,然后重新再管理端注冊這個hba卡,形成對存儲陣列的有效訪問鏈接。切換過程不用多說,就是一般的注冊過程,很簡單,就這樣問題解決。一切恢復正常。
這樣的問題很煩人的,時斷時好,你說他有問題吧,他又能工作,沒有問題吧,又反復這樣出現(xiàn)故障,真的很頭疼,尤其是存儲這樣重要的東西??傊幚韱栴}一定要思路清晰,要判斷準問題發(fā)生部位,最有可能的原因。這樣才能解決問題。
個小時,早上重啟之后和dell售后服務工程師聯(lián)系,商討問題解決方案,咨詢了類似的問題,他看了一下存儲陣列spa、spb、系統(tǒng)日志、光纖交換機的supportshow命令的輸出(那個我看不懂,他讓我抓下來給他的)。然后也斷定是HBA壞掉,我當時已經(jīng)在機房,由于這臺服務器上面有兩塊HBA,我把光纖接到另外一塊HBA卡上面,然后重新再管理端注冊這個hba卡,形成對存儲陣列的有效訪問鏈接。切換過程不用多說,就是一般的注冊過程,很簡單,就這樣問題解決。一切恢復正常。
這樣的問題很煩人的,時斷時好,你說他有問題吧,他又能工作,沒有問題吧,又反復這樣出現(xiàn)故障,真的很頭疼,尤其是存儲這樣重要的東西??傊幚韱栴}一定要思路清晰,要判斷準問題發(fā)生部位,最有可能的原因。這樣才能解決問題。
關鍵詞:磁盤丟失故障
閱讀本文后您有什么感想? 已有 人給出評價!
- 0
- 0
- 0
- 0
- 0
- 0