作為當今互聯網行業最為熱門的兩個詞匯,“云計算”與“大數據”是每位企業CIO都不會錯過的。然而“大數據”并不是解決方案,在被合理利用之前,它更多指的是信息爆炸所導致的一類問題。真正能夠理解并運用大數據以實現企業價值飛躍的,想必都是IT界的精英。而能夠將云計算與大數據完美結合以使企業獲利,則是每一位決策者至高的愿景。
云計算如何應用于大數據分析
1. 云計算作為大數據的必備條件
關于大數據,維基百科給出了如下的定義:“大數據指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。總數據量相同的情況下,與個別分析獨立的小型數據集(data set)相比,將各個小型數據集合并后進行分析可得出許多額外的信息和數據關系性,可用來察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因”。正是由于大數據本身所具有的商業價值,才使得它在我們這個時代變得如此火熱。如果提取、處理和利用數據的成本超過了數據價值本身,那么這項工作就是沒意義的。而隨著數據量的不斷增長以及技術的不斷地發展,大部分企業都可以通過大數據獲得額外的利益。而強大的云計算能力,無論是建立在公有云、私有云還是混合云的基礎之上,則都是企業提取分析大數據所不可或缺的一個前提。
2. 收集數據以供分析
在海量的數據中,其實能為企業提供顯示經濟利益的可用部分很少,因此有大量的數據需要過濾,以便建立關聯并存儲其有用性。對大量存儲著臨時信息的基礎設施而言,幾乎不存在任何投資的利益,因為這一臨時數據中的絕大部分最終都會被丟棄。另外,從公司防火墻外部轉移到公司內部的網絡數據也很難產生多少有價值的信息。而云平臺的使用則能很好地解決這一問題。在收集過濾數據這一階段中,建立一個公有云平臺是最明智的選擇,它可以提供按需擴展的計算和存儲資源。
3. 進行數據分析
一旦數據轉化為可用的形式,那么就進入到分析產生信息的階段。從長遠來看,提供給分析應用的原始數據沒有必要一下保留,需要有效存儲是分析處理的結果。公有云和混合云技術可用在分析階段,在數據集處理階段可引入Hadoop或類似替代方案。在公有云用戶的情況下,原始分析階段可以在公有云基礎設施上執行,然后使用私有云組件把處理過的、可用的信息拿到公司內部。
4. 企業管理虛擬化
在這一階段,我們已經擁有了足夠的可用信息,可以用來指導決策。但這還沒有結束,還要使這些信息可為用戶使用,還需要將其轉化并存儲到現有的系統中,如企業資源規劃(ERP)和客戶資源管理(CRM)系統。通過將軟件即服務(SAAS)應用運行在云平臺中,企業能夠充分利用之前幾個階段開發得來的數據信息,以強化集成管理模式,并合理規劃用戶間的相互協作。