- 相關(guān)推薦
關(guān)于數(shù)據(jù)中心網(wǎng)絡(luò)故障維護(hù)策略
對于故障原因未能及時明確的,事后根據(jù)故障時收集的信息進(jìn)行分析。數(shù)據(jù)中心技術(shù)人員的能力有限,可以召集行業(yè)內(nèi)專家、設(shè)備廠商人員對故障信息進(jìn)行分析,直到找到故障原因為止。出現(xiàn)網(wǎng)絡(luò)故障對數(shù)據(jù)中心是致命的打擊,下面是YJBYS小編收集關(guān)于數(shù)據(jù)中心網(wǎng)絡(luò)故障維護(hù)策略,希望對你有幫助!
數(shù)據(jù)中心是由大量電子設(shè)備搭建起來的復(fù)雜信息系統(tǒng),這些電子設(shè)備出現(xiàn)各種各樣的故障是不可避免的,尤其是網(wǎng)絡(luò)設(shè)備,就算是谷歌、臉譜、亞馬遜等這些互聯(lián)網(wǎng)巨頭的數(shù)據(jù)中心也難免會發(fā)生不少故障。
一旦網(wǎng)絡(luò)設(shè)備出現(xiàn)故障,往往大面積的業(yè)務(wù)就會受到影響。一方面我們要增加網(wǎng)絡(luò)設(shè)計的健壯性,關(guān)鍵節(jié)點部署冗余備份;另一方面要優(yōu)化處理網(wǎng)絡(luò)故障的手段,當(dāng)出現(xiàn)網(wǎng)絡(luò)故障時,如何快速恢復(fù)、并定位問題,消除隱患都需要諸多專業(yè)技術(shù)知識和豐富的網(wǎng)絡(luò)經(jīng)驗,同時制定完善的故障處理流程,這樣能大大縮短故障恢復(fù)的時間,同時還能有效找到故障原因,避免類似問題下次出現(xiàn)。
數(shù)據(jù)中心網(wǎng)絡(luò)出了故障并不可怕,可怕的是故障后長時間無法恢復(fù),可怕的是故障恢復(fù)后,依然不知道產(chǎn)生故障的原因,這樣數(shù)據(jù)中心網(wǎng)絡(luò)在不采取任何防護(hù)措施的情況下,繼續(xù)運行可能出現(xiàn)二次故障,所以制定詳細(xì)的網(wǎng)絡(luò)故障維護(hù)策略非常重要。一旦發(fā)生網(wǎng)絡(luò)故障,迅速找到故障原因,快速恢復(fù)業(yè)務(wù)。
俗話說“養(yǎng)兵千日,用兵一時”,平時不做足功課,出了故障必然處理起來毛手毛腳。在數(shù)據(jù)中心網(wǎng)絡(luò)日常管理中,要熟悉網(wǎng)絡(luò)運行情況,并定期、準(zhǔn)確、迅速、簡單概括評估其運行狀況,建立完善的檢修報告制度。維護(hù)人員要多學(xué)習(xí),多總結(jié),對網(wǎng)絡(luò)運行的細(xì)節(jié)了如指掌。維護(hù)人員要對網(wǎng)絡(luò)設(shè)備的端口互連、組網(wǎng)配置、業(yè)務(wù)特點牢記,當(dāng)出現(xiàn)故障時,腦海里即刻就能浮現(xiàn)出網(wǎng)絡(luò)拓?fù),故障的位置,這可為搶修故障爭取寶貴時間。
如果遇到故障時,還在確認(rèn)網(wǎng)絡(luò)設(shè)備端口互連關(guān)系,說明對網(wǎng)絡(luò)認(rèn)識還不夠深刻,這必然加長故障恢復(fù)的時間。同時,維護(hù)人員要對網(wǎng)絡(luò)設(shè)備進(jìn)行周期性巡檢,并做詳細(xì)記錄,發(fā)現(xiàn)隱患及時修復(fù),避免故障影響面擴(kuò)大。維護(hù)人員需強(qiáng)化保養(yǎng)與監(jiān)測,降低故障發(fā)生風(fēng)險,確保網(wǎng)絡(luò)能夠正常運行。
也許數(shù)據(jù)中心日常網(wǎng)絡(luò)管理和維護(hù)工作開展都是非常規(guī)范的,但依然難免可能會發(fā)生網(wǎng)絡(luò)故障。出了故障,不要慌亂,要冷靜思考。仔細(xì)觀察故障現(xiàn)象,詳細(xì)了解故障相關(guān)情況,明確出錯信息細(xì)節(jié),確定故障癥狀。明確故障發(fā)生前是否有人操作了網(wǎng)絡(luò)(70%的網(wǎng)絡(luò)故障與人為操作有關(guān))。如果沒有,再進(jìn)一步明確網(wǎng)絡(luò)故障的位置,確認(rèn)故障的設(shè)備或鏈路,這時可以采用PING、TRACERT命令或相關(guān)工具快速確認(rèn)網(wǎng)絡(luò)故障位置。同時,迅速收集故障設(shè)備信息。
維護(hù)人員根據(jù)故障發(fā)生的位置、故障基本信息,對故障產(chǎn)生原因進(jìn)行分析。若短時間內(nèi)看不出原因,要啟動隔離故障預(yù)案。要再次確認(rèn)故障信息是否收集完整,避免有遺漏,否則日后可能分析不出故障原因。啟動隔離故障預(yù)案,將故障隔離后,觀察業(yè)務(wù)是否逐漸恢復(fù),直到業(yè)務(wù)徹底恢復(fù)后,再進(jìn)行后續(xù)的問題分析。一旦預(yù)案失效,業(yè)務(wù)仍不見恢復(fù),需要啟動緊急應(yīng)急措施,比如將業(yè)務(wù)轉(zhuǎn)移到另外數(shù)據(jù)中心上,或者災(zāi)備數(shù)據(jù)中心上,再次確認(rèn)業(yè)務(wù)是否完全恢復(fù)。這些故障預(yù)案在平時的網(wǎng)絡(luò)維護(hù)中應(yīng)該做一些故障演練、故障模擬測試,以免這些預(yù)案機(jī)制在真正故障來臨時失效。
對于故障原因未能及時明確的,事后根據(jù)故障時收集的信息進(jìn)行分析。數(shù)據(jù)中心技術(shù)人員的能力有限,可以召集行業(yè)內(nèi)專家、設(shè)備廠商人員對故障信息進(jìn)行分析,直到找到故障原因為止。有些時候,為了快速恢復(fù)業(yè)務(wù),收集的信息不完善,或者設(shè)備記錄信息不完整,往往很難找到故障原因,不可能在找到原因之前將業(yè)務(wù)割回。可以在現(xiàn)有的網(wǎng)絡(luò)中做一些模擬測試,找一找故障原因,還不行就得對可能故障的節(jié)點進(jìn)行優(yōu)化或者更換,然后召集各類專家保障,再擇機(jī)將業(yè)務(wù)割回,進(jìn)行觀察。割回后一旦故障復(fù)現(xiàn)或者運行一段時間后再次出現(xiàn),各路專家及時出手,排查故障原因。這個過程也許要經(jīng)歷過數(shù)次,最終才會找到故障原因,數(shù)據(jù)中心不允許將隱患留在網(wǎng)絡(luò)中,不帶隱患運行。
網(wǎng)絡(luò)故障處理完后,要進(jìn)行細(xì)致總結(jié)?船F(xiàn)有網(wǎng)絡(luò)中哪些地方需要優(yōu)化,維護(hù)人員哪些方面的技術(shù)要加強(qiáng),避免相同的故障再次在網(wǎng)絡(luò)中出現(xiàn)。對網(wǎng)絡(luò)故障進(jìn)行深刻總結(jié),全方位進(jìn)行巡檢,類似的隱患一律消除。這些工作做完后,要將故障排除過程文檔化,對所做的工作進(jìn)行文字記錄。文檔是排錯寶貴經(jīng)驗的總結(jié),是“經(jīng)驗判斷和理論分析”這一過程中最重要的參考資料,比如要包括:故障現(xiàn)象描述及收集相關(guān)信息、故障發(fā)生原因解釋、本次排錯的心得體會、后續(xù)網(wǎng)絡(luò)優(yōu)化工作、故障處理流程上是否存在瑕疵等,都要形成正式文檔后日后查閱。維護(hù)人員必須養(yǎng)成及時進(jìn)行故障排除的文檔記錄和經(jīng)驗總結(jié)習(xí)慣,一方面是網(wǎng)絡(luò)維護(hù)工作的基本要求,另一方面也是自身提高排錯技術(shù)的需要。同時,還要對故障處理過程中,暴露出工作上的疏漏及時補救,優(yōu)化整個故障處理分析的過程。
在數(shù)據(jù)中心里,網(wǎng)絡(luò)故障不可避免,通過以上的故障維護(hù)策略步驟,可以大大減少重復(fù)網(wǎng)絡(luò)故障的發(fā)生。但是網(wǎng)絡(luò)故障產(chǎn)生是受到很多因素影響的,而且故障類型較多,要徹底消除是非常困難的,這是那些網(wǎng)絡(luò)技術(shù)實力非常雄厚的互聯(lián)網(wǎng)巨頭數(shù)據(jù)中心依然故障不斷的原因。隨著數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模越來越大,新的網(wǎng)絡(luò)技術(shù)越來越復(fù)雜,給網(wǎng)絡(luò)故障排查制造了極大的障礙,這樣更需要對網(wǎng)絡(luò)故障的維護(hù)策略進(jìn)行不斷地優(yōu)化和調(diào)整,以便適應(yīng)新的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境。
【數(shù)據(jù)中心網(wǎng)絡(luò)故障維護(hù)策略】相關(guān)文章:
說說數(shù)據(jù)中心日常維護(hù)工作的那些事兒09-15
計算機(jī)網(wǎng)絡(luò)故障診斷及維護(hù)方法06-19
計算機(jī)硬件的維護(hù)策略08-28
計算機(jī)硬件的綜合維護(hù)策略06-27
計算機(jī)硬件綜合維護(hù)的策略06-18
網(wǎng)卡引起的網(wǎng)絡(luò)故障01-05
排除網(wǎng)絡(luò)故障的原則12-14
常見的網(wǎng)絡(luò)故障原因08-20