到底有沒有不壞的服務器 |
發(fā)布時間: 2012/9/11 19:22:49 |
到底有沒有不壞的服務器? 世界沒有從來不壞的服務器,這是可以肯定的。但對于業(yè)務應用而言,“Uptime”,“Allthetime”也就是系統(tǒng)的永續(xù)運行是最基本的需求。要求信息系統(tǒng)能夠提供7×24×365的永不間斷服務。如果用99.999%可靠性要求,一年累計的宕機時間不能夠超過5分鐘。業(yè)務對可靠性的近似苛刻要求也有其不得已的苦衷。根據(jù)統(tǒng)計,金融企業(yè)每次宕機損失平均為1000萬美元,所造成的無形資產(chǎn)損失更是無法估量。 如何處理業(yè)務需求永續(xù)運行和服務器宕機之間的矛盾?有一點可以肯定,我們需要的不是永不宕機的服務器,而是永不宕機的系統(tǒng)。 如果我們構(gòu)建一個7×24×365穩(wěn)定運行的系統(tǒng),對于永續(xù)運行構(gòu)成威脅的故障,一個是來自硬件,一是來自軟件。無論硬件還是軟件都會造成系統(tǒng)故障。從經(jīng)驗看,軟件的故障率遠遠高于硬件。這是不是意味著硬件的高可靠性失去了意義呢? 硬件的高可靠性并不因為軟件高故障率而有所削弱。硬件的高可靠性不能夠解決應用軟件的故障。對此,專家指出,軟件錯誤屬于應用邏輯問題,硬件不能夠修復邏輯的錯誤。解決軟件故障需要通過軟件升級和打補丁來解決,但這不意味著硬件高可靠性沒有意義。在任何時候,我們都需要構(gòu)建一個穩(wěn)定可靠的硬件基礎平臺。硬件不可靠將直接導致系統(tǒng)崩潰。 我們沒有一個永不宕機的服務器。為了保障系統(tǒng)不中斷,很多用戶采用了HA(高可用性)解決方案,通過雙機冗余的方式來解決問題。目前,雙機方案普遍被采用,但是非常遺憾,系統(tǒng)中斷仍然時有發(fā)生。遠的不說,亞馬遜云計算宕機事件仍然歷歷在目。 專家指出,問題就出在雙機方案。從根本上,設計雙機冗余并能夠解決系統(tǒng)不中斷的問題。雙機只保障了在系統(tǒng)發(fā)生故障時的,系統(tǒng)可以恢復運行的問題。至于恢復的時間,也就是解決了MTTR(平均修復時間)的問題。鑒于目前系統(tǒng)日益復雜,交易量和交易規(guī)模龐大,任何一個系統(tǒng)要想進行全面恢復,其MTTR一定不會斷,5分鐘基本是不可能的。 如果雙機冗余的方案行不通,就只有繼續(xù)在硬件層面需求答案。容錯服務器就是惟一的答案。道理很簡單,從處理器、內(nèi)存、I/O通道,容錯服務器都采用了雙系統(tǒng),通過鎖步技術確保計算的可靠性和可信性。說白了,就是2個一樣的系統(tǒng)計算同一個應用,當答案一致,就認為計算結(jié)果可信。否則推倒重來。以往,業(yè)內(nèi)對容錯服務器的認知多集中在可信計算上。但人們也忽略了,雙系統(tǒng)對可靠性的貢獻。雙系統(tǒng)同時發(fā)生故障的概率非常低,當其中一個部件,例如CPU出現(xiàn)硬件故障時,容錯服務器失去鎖步,也就是失去可信計算的功能。但系統(tǒng)服務不會中斷,管理人員擁有充裕的時間對故障部件進行更換,恢復可信計算。 雙機冗余也是雙系統(tǒng),但與容錯服務器最大的差別在于,容錯的雙系統(tǒng)是一個系統(tǒng),運算處理同一個上層的應用。雙機冗余在業(yè)務處理上,是兩個單獨的系統(tǒng),分別處理應用。雙機冗余依靠HA軟件來判別故障。當一個系統(tǒng)產(chǎn)生故障時,雙機冗余的系統(tǒng),就會存在數(shù)據(jù)的不一致性。所以,雙機冗余只能夠恢復,而不能夠保障業(yè)務不中斷。容錯與雙機冗余不同,容錯不存在應用軟件不一致性,通過單系統(tǒng)承載應用,雖然降低了可信性,但卻可以保障系統(tǒng)不中斷。這也是為什么,容錯可以提供超過99.999%可靠性的俄原因。 世界上沒有不宕機的服務器,但有可能存在永續(xù)運行的系統(tǒng)。不存在悖論,容錯就是答案。 但非常可惜,出于商業(yè)上的考慮,無論是操作系統(tǒng)、數(shù)據(jù)庫,還是應用軟件的商家都不會主動向用戶推介容錯方案,因為推廣雙機冗余方案,從硬件到軟件,皆大歡喜?磥,容錯服務器只能是用戶的選擇!因為容錯意味可靠,容錯意味高效,也意味著真正可以節(jié)省大量的金錢! 本文出自:億恩科技【xuefeilisp.com】 |