更糟糕的是這次故障發生得太不是時候了?!拔矣浀卯敃r有一場英格蘭對印度的板球比賽正在進行,當時正處于半場休息時間。”Chakravorty這時意識到了事態的嚴重性,他從電話中得知:他的屬下所知道的全部故障信息就是,服務器機房中的每一個機架都處于帶電狀態?!澳菚r候我開始擔心,工程師無法接觸帶電狀態的機架,這意味著沒有人可以估計破壞的程度?!?/DIV>
這種情況符合他對危機的兩個定義之一?!拔C之一是當業務被中斷的時候,你卻不能清楚地了解到需要多少時間來修復?!辈恍业氖?,這次故障也符合他對危機的第二個定義?!拔覍ξC的另一個定義是,當企業必須要去做某件事情的時候,卻因為IT故障或系統失靈而無法做?!?/DIV>
公司業務對來自IT系統支持的需求萬分緊急。當時正處于半場報道時間,各方面的人都在等待系統的恢復。“管理層都快瘋了,而我卻不能告訴他們我什么時候能讓系統恢復正常,因為我不知道問題所在?!?
與此同時,無情的電老虎依然在“烘烤”著他的系統。“最先是我的SAP服務器,然后是郵件服務器、域名服務器、內網服務器和網站服務器,最后所有25臺服務器全部發生故障。”他表示。
后來電力工程師發現,需要4到5個小時才能停止電老虎繼續毀壞服務器?!暗牵斔麄兊娜蝿胀瓿珊螅业膯栴}卻剛剛才開始。SAP服務器被摧毀了,而我的隊伍卻對SAP一無所知?!彼忉尩馈T團隊不得不開始聯系HP公司,由其工程師遠程通過電話來指導他們完成對百事可樂SAP系統的恢復。
整個恢復過程大約花費了9個小時,公司的18個頂級系統都在等待這個系統。由這個事件所帶來的損失主要來自于兩方面:延遲了報道和浪費了時間;而且導致百事可樂銷售業務的中斷,因為系統無法打印發票。
“那個時候我沒有預見到這種情況的發生。但是現在我可以了,”他自我挖苦地表示?!翱梢钥隙ǖ氖?,我們從中學習了很多。經歷過那次事件,我了解到災難恢復的重要性,而且我們也創建了危機處理指南。”
如果現在類似的情況再次發生在Chakravorty身上,他可以大大減少破壞的程度。因為這次經歷擦亮了他的眼睛。
點評:從Chakravorty的經歷來看,很多企業的CIO都是真正經歷了IT危機后,才對制定合理的危機響應步驟有了真正的重視,可謂“不經一事不長一智”,不過這樣付出的學費可能會比較高昂。
IT168