融合存儲服務器:應對不同類型大數(shù)據挑戰(zhàn) |
發(fā)布時間: 2012/8/14 17:50:51 |
大數(shù)據正和云計算一起,推動著整個IT產業(yè)的發(fā)展。所謂大數(shù)據,IDC對其的定義為:“為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的數(shù)據中獲取價值而設計的新一代的架構和技術。”大數(shù)據具有高容量、高價值、多樣化和持續(xù)性的特點,尤其是非結構化的特性,使得大數(shù)據的保存、管理、挖掘等成為了當前企業(yè)面臨的挑戰(zhàn)。而正因為如此,大數(shù)據催生了一個迅猛發(fā)展的市場。有關數(shù)據顯示, 2010年全球大數(shù)據以及相關硬件、軟件和服務市場僅為30億美元,而到2015年該市場的規(guī)模將超過170億美元,平均年增長速度超過50%。 而智能手機、視頻、社交網絡、微博等媒介源源不斷地產生的海量的非結構性數(shù)據,才是企業(yè)對大數(shù)據的最真實的感受。根據IDC的報告,未來十年全球大數(shù)據將增加50倍。僅在2011年,全球就產生了1.8ZB(也即1.8萬億GB)的大數(shù)據。毫無疑問,大數(shù)據將挑戰(zhàn)企業(yè)的存儲架構及數(shù)據中心基礎設施等,也會引發(fā)云計算、數(shù)據倉庫、數(shù)據挖掘、商業(yè)智能等應用的連鎖反應。 大數(shù)據造就Hadoop 大數(shù)據也給企業(yè)帶來了新的機遇。例如,通過評估某位客戶在網站上的行為,企業(yè)可以更好地了解他們需要什么支持或尋找什么產品,或者弄清當前天氣和其他條件對于送貨路線和時間安排的影響。此外,大數(shù)據分析更加注重實時性,特別是涉及到與網上交易或者金融類相關的應用。比如,網絡成衣銷售行業(yè)的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,并準確地進行廣告投放。因而,未來將會有更多的TB級數(shù)據集用于商務智能和商務分析,這對計算和存儲甚至是分析平臺帶來了新的市場機會。 大數(shù)據的迅猛增加,使得傳統(tǒng)的數(shù)據分析軟件面對當今的海量數(shù)據顯得力不從心。新的海量數(shù)據分析引擎已經出現(xiàn),如Apache的Hadoop、LexisNexis的HPCC系統(tǒng)和1010data的以云計算為基礎的分析服務。特別是開源的Hadoop,它已經在過去5年之中證明了自己是市場中最成功的數(shù)據處理平臺。Hadoop將海量數(shù)據分解成較小的更易訪問的批量數(shù)據,并分發(fā)到多臺服務器來分析和處理,這種方式就像把一大塊食物分解成小塊更容易讓人消化一樣。 存儲和服務器融合支持開源Hadoop Hadoop是一個能夠對大量數(shù)據進行分布式處理的軟件框架,它可在單一的Linux平臺上使用,但是運行在由機架服務器組成的集群才能更大地發(fā)揮它的力量。 由于大數(shù)據更加強調實時處理,Hadoop集群中的節(jié)點服務器除了對計算性能有更高的要求外,對存儲也是追求大容量,以便節(jié)點機直接對存儲在服務器內部的數(shù)據進行訪問和分析。而伴隨著英特爾等相關廠商的推動,服務器和存儲融合的趨勢愈發(fā)明顯,這也使得存儲服務器成為了Hadoop集群首選的計算平臺。 我們不妨來看看英特爾是如何推動存儲和服務器的融合的。 首先,x86架構為兩者的融合提供基礎。隨著英特爾在處理器芯片的不懈開發(fā),x86架構不僅僅在服務器上獲得巨大的成功,很多存儲架構也日趨采用英特爾處理器;其次,固態(tài)硬盤讓服務器存儲融合更為智能。隨著英特爾等固態(tài)硬盤廠商的大力推動下,固態(tài)硬盤的出現(xiàn),使得服務器存儲在計算方面更趨智能;第三,海量存儲讓服務器更為充實,TB級大容量SATA盤的出現(xiàn),使得服務器的容量得到極大的提升。 此外,作為SAS技術的推動者之一,英特爾在其Romley平臺上集成SAS交換功能,這實際上也是服務器與存儲走向融合的一種體現(xiàn),這種做法能夠讓系統(tǒng)廠商充分利用系統(tǒng)主板空間和PCI-E端口資源,降低系統(tǒng)開發(fā)復雜性和成本,并讓用戶在系統(tǒng)使用和系統(tǒng)維護工作上更加簡單和容易。 “Hadoop+至強”意味著什么? 以上種種,讓人們看到了服務器和存儲融合的趨勢日漸明顯,也使得企業(yè)在構建Hadoop集群時將高存儲容量的x86機架服務器當作了不二之選。中國聯(lián)通和百度就是這樣來應對大數(shù)據挑戰(zhàn)的。 首先說說聯(lián)通。伴隨著智能手機的普及,廣大用戶利用手機上網和社交越來越頻繁,這也帶來了一個新的挑戰(zhàn):用戶想清清楚楚了解自己的上網流量究竟用在了哪里?在這種狀況下,聯(lián)通從去年開始部署針對移動互聯(lián)網用戶的上網記錄查詢系統(tǒng)。 而實際上,用戶即使是簡單地訪問一個新浪的首頁,上網記錄查詢系統(tǒng)也會產生20多條記錄,這樣每天產生的數(shù)據簡直是天量。此前聯(lián)通曾經試圖用甲骨文數(shù)據庫來解決該問題,但經過測試后發(fā)現(xiàn)關系型數(shù)據庫處理到百億條數(shù)據時就顯得無能為力了,一次簡單的查詢可能幾個小時都出不來結果。 為此,聯(lián)通嘗試采用英特爾至強平臺的服務器集群和英特爾Hadoop發(fā)行版組合的方式來解決該問題,并收到了良好的效果。目前,聯(lián)通Hadoop系統(tǒng)集中部署在北京,各省的數(shù)據每5分鐘生成一個文件往北京傳輸并被保存和有效管理。采用Hadoop技術后,用戶輸入中國聯(lián)通任何一個城市的號碼,其上網記錄只需一兩秒就可以檢索出來。 中國聯(lián)通研究院副院長黃文良介紹,聯(lián)通Hadoop集群系統(tǒng)的“主力軍”是178臺基于英特爾至強5600處理器的兩路刀片服務器,每臺服務器配備了高達14TB存儲容量。此外,系統(tǒng)還配有NameNode節(jié)點服務器、入庫服務節(jié)點服務器、集群監(jiān)控節(jié)點等若干臺,也都是基于英特爾架構處理器平臺的x86服務器。從聯(lián)通Hadoop解決方案來看,融合存儲服務器成為了大數(shù)據處理的“中流砥柱”。 再來看看百度。百度是國內較早開始探索Hadoop大數(shù)據解決之道的互聯(lián)網企業(yè)。百度從2007年開始使用Hadoop做離線處理業(yè)務,目前有80%的Hadoop集群用作日志處理。同其它互聯(lián)網企業(yè)面臨的相同麻煩是,Hadoop在百度經過5到6年發(fā)展之后,也已經走到了一個岔路口,F(xiàn)在百度每天的作業(yè)數(shù)超過了千萬,每天的數(shù)據處理量在6TB左右。 2011年,百度Hadoop集群的服務器規(guī)模達到了1萬多臺,2012年計劃達到2萬臺。目前百度的服務器大部分是價格在2到3萬元的基于英特爾架構的定制化服務器,標配12個1TB硬盤,32GB內存。百度高級架構師馬如悅介紹,百度的Hadoop集群規(guī)模的目標是10萬節(jié)點,而且需要充分考慮跨機房部署的問題。為此,百度正在對Hadoop的擴展上限進行研發(fā),看一旦到了上限是否需要拆分。百度還計劃將Hadoop升級到2.0版本,主要是解決Hadoop主節(jié)點的可擴展性問題。 以上兩則例子充分說明,開源的Hadoop已經成為應對大數(shù)據挑戰(zhàn)的有效利器,而Hadoop集群的基礎則是大存儲容量的英特爾架構服務器,它們的高性能和大容量,以及直接在機器內部快速傳輸數(shù)據的特性,成為了大數(shù)據的應對之道。 本文出自:億恩科技【xuefeilisp.com】 |