選擇“大數(shù)據(jù)”基礎(chǔ)架構(gòu)過程中所要考慮的問題 |
發(fā)布時間: 2012/5/16 20:23:09 |
大數(shù)據(jù)“這個詞匯出現(xiàn)在當(dāng)企業(yè)生產(chǎn)出了一系列的數(shù)據(jù),包含業(yè)務(wù)關(guān)鍵信息,并且過于龐大以至于傳統(tǒng)的關(guān)系數(shù)據(jù)庫所無法正常處理。判定什么樣數(shù)據(jù)保持非結(jié)構(gòu)化狀態(tài),這取決于企業(yè)IT基礎(chǔ)架構(gòu)的規(guī)模程度,不過對于各種規(guī)模的企業(yè)而言通常都有一些信息量可以被認(rèn)作是大數(shù)據(jù)。IT管理員和業(yè)務(wù)分析師的困難點(diǎn)不僅在于如何存儲這些數(shù)據(jù),而且還在于如何以合適地方式對其進(jìn)行存儲,便于分析,這最終可以導(dǎo)出關(guān)鍵業(yè)務(wù)模型和相應(yīng)的深入分析。
隨著IT行業(yè)持續(xù)地灌輸廉價存儲的優(yōu)勢,企業(yè)較以往擁有者更多的數(shù)據(jù),那么在評估大數(shù)據(jù)基礎(chǔ)架構(gòu)的過程中需要深入地調(diào)查哪些因素。本篇涉及到了在容量、延遲、訪問性、安全性和成本這些重要因素的評估。 大數(shù)據(jù)發(fā)展的驅(qū)動因素 除了存儲比以往更多的數(shù)據(jù),我們所面臨的數(shù)據(jù)種類也變得更加繁雜。這些數(shù)據(jù)源包括互聯(lián)網(wǎng)事務(wù)交易、社交網(wǎng)絡(luò)的活動、自動化傳感器、移動設(shè)備以及科研儀器等。除了靜態(tài)的數(shù)據(jù)增長方面,事務(wù)交易也會保持一個固定的數(shù)據(jù)“增長速度”。例如飛速增長的社交信息所產(chǎn)生的大量交易事務(wù)和記錄。不過現(xiàn)有的不斷擴(kuò)大數(shù)據(jù)集無法確保能夠?yàn)闃I(yè)務(wù)搜索出有價值的信息。 當(dāng)今的信息是一項(xiàng)重要的生產(chǎn)因素 數(shù)據(jù)業(yè)已成為了一種生產(chǎn)資料,就如何資本、勞動力和原始材料那樣,而且也不限于某一行業(yè)內(nèi)的特定應(yīng)用。企業(yè)中所有部門都旨在整合比較越來越多的數(shù)據(jù)集合,致力于降低成本、提升品質(zhì)、增強(qiáng)生產(chǎn)能力以及開發(fā)新產(chǎn)品。舉例來說,對于現(xiàn)場產(chǎn)品的直接數(shù)據(jù)分析有助于提升設(shè)計(jì)。又例如企業(yè)可以通過對用戶習(xí)慣的深入分析,比較整體市場的增長特性,大幅提升自己在競爭分析方面的能力。 存儲發(fā)展的必要性 大數(shù)據(jù)意味著數(shù)據(jù)的增長超過了其本身的基礎(chǔ)架構(gòu),這驅(qū)動著應(yīng)對這些特殊挑戰(zhàn)的存儲、網(wǎng)絡(luò)和計(jì)算系統(tǒng)進(jìn)一步的發(fā)展。軟件應(yīng)用需求最終推動了硬件功能的發(fā)展,同時在這種情況下,大數(shù)據(jù)分析的處理過程正在影響著數(shù)據(jù)存儲基礎(chǔ)架構(gòu)的發(fā)展。這對于存儲和IT基礎(chǔ)架構(gòu)企業(yè)而言是一項(xiàng)機(jī)遇。隨著結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集的持續(xù)增長,這類數(shù)據(jù)的分析方式也更為多樣化,當(dāng)前的存儲系統(tǒng)設(shè)計(jì)難以應(yīng)對大數(shù)據(jù)基礎(chǔ)架構(gòu)所需。存儲供應(yīng)商已經(jīng)開始推出基于數(shù)據(jù)塊和基于文件的系統(tǒng)來應(yīng)對許多這方面的需求。以下列出了一些大數(shù)據(jù)存儲基礎(chǔ)架構(gòu)的特性,這些都是源自大數(shù)據(jù)的挑戰(zhàn)。 容量。“大”在很多時候可以理解為PB級別的數(shù)據(jù),因此大數(shù)據(jù)基礎(chǔ)架構(gòu)當(dāng)然要能夠可以擴(kuò)展。不過其同樣必須能夠簡易地完成擴(kuò)展,以模塊化或陣列的方式為用戶直接增加容量,或者至少保持系統(tǒng)不會宕機(jī)。橫向擴(kuò)展式存儲由于能夠滿足這種需求,變得十分流行。橫向擴(kuò)展集群體系架構(gòu)的特征是由存儲節(jié)點(diǎn)構(gòu)成,每個節(jié)點(diǎn)具備處理能力和可連接性,可以無縫地擴(kuò)展,避免傳統(tǒng)系統(tǒng)可能產(chǎn)生的煙囪式存儲的問題。 大數(shù)據(jù)還意味著大量的文件。管理元數(shù)據(jù)文件系統(tǒng)的累計(jì)會降低可擴(kuò)展性并影響性能,用傳統(tǒng)的NAS系統(tǒng)就會在這種情況下出現(xiàn)問題。基于對象的存儲體系架構(gòu)則通過另一種方式,支持在大數(shù)據(jù)存儲系統(tǒng)中擴(kuò)展至十億級別的文件數(shù)量,而不會產(chǎn)生傳統(tǒng)文件系統(tǒng)中會遇到的負(fù)載問題。基于對象的存儲可以在不同的地理位置進(jìn)行擴(kuò)展,可以在多個不同地點(diǎn)擴(kuò)展出大型的基礎(chǔ)架構(gòu)。 延遲。大數(shù)據(jù)基礎(chǔ)架構(gòu)中或許同樣會包含實(shí)時性的組件,尤其是在網(wǎng)頁交互或金融處理事務(wù)中。存儲系統(tǒng)必須能夠應(yīng)對上述問題同時保持相應(yīng)的性能,因?yàn)檠舆t可能產(chǎn)生過期數(shù)據(jù)。在這一領(lǐng)域,橫向擴(kuò)展式基礎(chǔ)架構(gòu)同樣能夠通過應(yīng)用存儲節(jié)點(diǎn)集群,隨著容量擴(kuò)展的同時增強(qiáng)處理能力和可連接性。基于對象的存儲系統(tǒng)可能并發(fā)數(shù)據(jù)流,更大程度上改善吞吐量。 許多大數(shù)據(jù)環(huán)境需要提供高IOPS性能,在高性能計(jì)算環(huán)境中的應(yīng)用。億恩科技服務(wù)器虛擬化也會驅(qū)動高IOPS的需求,就和其在傳統(tǒng)IT環(huán)境中一樣。為了滿足這方面的挑戰(zhàn),固態(tài)存儲設(shè)備可以以多種不同形式進(jìn)行部署,從簡單的基于億恩科技服務(wù)器的緩存卡到全閃存架構(gòu)的可擴(kuò)展式的存儲系統(tǒng)。 可訪問性。隨著企業(yè)越來越能夠理解大數(shù)據(jù)分析的潛在應(yīng)用,對不同數(shù)據(jù)集的對比需求會讓越來越多的人員進(jìn)入到數(shù)據(jù)共享之中。在創(chuàng)造業(yè)務(wù)價值方面,企業(yè)在尋求更多的方式來從各種平臺相互參照不同的數(shù)據(jù)對象。包含全局文件系統(tǒng)的存儲基礎(chǔ)架構(gòu)可以滿足這方面的問題,因?yàn)槠湓试S多用戶,多主機(jī)的交互文件,并且支持諸多不同的,甚至是位于不同區(qū)域的后端存儲系統(tǒng)文件共享。 安全性。財務(wù)數(shù)據(jù),醫(yī)療信息以及政府確保都有其標(biāo)準(zhǔn)的安全性要求。雖然這些或許和當(dāng)前IT管理員的職責(zé)稍有不同,大數(shù)據(jù)分析可能也需要相互參照數(shù)據(jù),而這類數(shù)據(jù)在之前可能完全無關(guān),這又產(chǎn)生了新的安全性的要求。 成本。“大”同樣意味著更加昂貴。并且以許多企業(yè)今天正在運(yùn)作的大數(shù)據(jù)環(huán)境規(guī)模,對于成本的考慮可能非常重要。這意味著從“每個盒子”中更有效地產(chǎn)出,以及更加廉價的組件。存儲重復(fù)刪除已經(jīng)進(jìn)入主存儲市場,并且取決于涉及到的數(shù)據(jù)類型,這會給大數(shù)據(jù)存儲系統(tǒng)帶來一些價值。降低后端存儲容量消耗,即便是幾個百分點(diǎn),在數(shù)據(jù)集不斷增長的環(huán)境下都可以提供巨大的投資回報。自動精簡配置、快照和克隆技術(shù)同樣可能根據(jù)不同的數(shù)據(jù)類型,提升效率。 許多大數(shù)據(jù)存儲系統(tǒng)都會包含歸檔組件,尤其是對于那些和歷史趨勢或者長期存儲應(yīng)用相關(guān)的企業(yè)。從單位成本所提供的存儲容量來看,磁帶仍舊是最具性價比的存儲媒介,并且能夠支持大容量存儲磁帶盒的歸檔系統(tǒng)對于許多環(huán)境都已經(jīng)成為了約定俗成的標(biāo)準(zhǔn)。 來自于成本方面的最大影響是使用商品化的硬件。很清楚大數(shù)據(jù)基礎(chǔ)架構(gòu)無法依賴大型硬件企業(yè)傳統(tǒng)上的轉(zhuǎn)向。許多剛開始部署,或者是具有大型的大數(shù)據(jù)環(huán)境的用戶自行開發(fā)了“白盒”系統(tǒng),這類系統(tǒng)以更低的成本,以現(xiàn)成的商品的形式提供給用戶。不過更多的存儲產(chǎn)品現(xiàn)在以軟件的形式出現(xiàn),可以安裝在現(xiàn)有系統(tǒng),或者普通的現(xiàn)成硬件上。此外,許多企業(yè)正在將其軟件技術(shù)以商品化的設(shè)備,或者和硬件供應(yīng)商結(jié)合,提供類似的方案形式進(jìn)行銷售。 持續(xù)性。許多大數(shù)據(jù)應(yīng)用中涉及到合規(guī)規(guī)范的要求,使得數(shù)據(jù)需要保存幾年甚至幾十年。醫(yī)療信息通常要保存患者的一生。財務(wù)數(shù)據(jù)一般要保存7年。不過大數(shù)據(jù)用戶同樣會更長地保存期數(shù)據(jù),因?yàn)檫@是歷史記錄的一個組成部分,或者要用于以時間為基礎(chǔ)的分析。這種長期保存的需求意味著存儲供應(yīng)商需要進(jìn)行持續(xù)地一致性檢驗(yàn),并且具備其它長期的可靠性特性,以及滿足數(shù)據(jù)在線升級的需要。 靈活性。因?yàn)榇髷?shù)據(jù)存儲基礎(chǔ)架構(gòu)通常會變得十分龐大,在其設(shè)計(jì)之初就應(yīng)當(dāng)十分注意,以確保其能夠增長,并且隨著分析組件的增長而發(fā)展。數(shù)據(jù)遷移在大數(shù)據(jù)領(lǐng)域中已成為歷史,尤其是自從數(shù)據(jù)可以在多個地點(diǎn)開始。大數(shù)據(jù)存儲基礎(chǔ)架構(gòu)從你開始向里面寫入數(shù)據(jù)的那一刻就已確定,因此其在發(fā)展過程中必需能夠滿足不同的應(yīng)用環(huán)境和數(shù)據(jù)場景。 應(yīng)用感知。有一些首次部署大數(shù)據(jù)的過程中會涉及到特定應(yīng)用的基礎(chǔ)架構(gòu),諸如為政府項(xiàng)目而開發(fā)的系統(tǒng),或者為大型互聯(lián)網(wǎng)服務(wù)公司所開發(fā)的白牌系統(tǒng)。應(yīng)用感知作為改善效率和性能的一種途徑,在主流存儲系統(tǒng)中變得日益普及,并且其也是在大數(shù)據(jù)環(huán)境中應(yīng)當(dāng)部署的一種技術(shù)。 小型用戶。隨著業(yè)務(wù)需要,大數(shù)據(jù)的應(yīng)用會延伸至那些小型的企業(yè),這種企業(yè)遠(yuǎn)遠(yuǎn)小于那些存儲基礎(chǔ)架構(gòu)市場部門所關(guān)聯(lián)的大數(shù)據(jù)應(yīng)用分析。這也不只是處于“技術(shù)狂熱”或者獨(dú)特的應(yīng)用需求,因此大數(shù)據(jù)領(lǐng)域的存儲供應(yīng)商需要提供更小的配置,并更加關(guān)注成本效益。 本文出自:億恩科技【xuefeilisp.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |