肯睿Cloudera亞太區(qū)首席技術官Daniel Hand
企業(yè)在管理數據和從數據中獲得洞察的過程面臨著諸多挑戰(zhàn)。由于越來越多的數據被創(chuàng)建并在多個位置進行存儲,采用靈活的混合數據戰(zhàn)略對于管理和編排各種不同的數據集則變得至關重要。誠然,單靠技術無法解決以下挑戰(zhàn),但它是解決方案的關鍵要素,企業(yè)必須結合指導原則和政策來應對這些挑戰(zhàn)。
挑戰(zhàn)1:提高創(chuàng)新力和業(yè)務敏捷性
第一項挑戰(zhàn)來自于如何提高創(chuàng)新力和業(yè)務敏捷性,包括如何實現數據和數據資產平權。這能夠幫助企業(yè)避開數據關守(Data Gatekeeper),以便更好地利用他們所擁有的數據。
創(chuàng)新的另一個要素是幫助企業(yè)快速擴展并向新的市場提供數據產品和服務。如果需要在數據中心建立一個新的分析集群,尤其是在一個新的國家,則往往需要延長周期。在公有云中管理數據和運行分析可以大幅加快價值變現周期,但需要應對風險和運營復雜性。
以近乎實時的方式獲取洞察與傳統的批量分析方法存在明顯的區(qū)別。從數據中獲得的洞察,其價值會隨著時間的推移而減少,因此企業(yè)越來越需要通過近乎實時的流處理來增強批處理分析。
挑戰(zhàn)2:管理運營風險
第二項挑戰(zhàn)來自于管理運營風險,包括企業(yè)如何確保在每個所支持的環(huán)境中統一、可靠地實施安全政策和控制。
這方面的另一個變量因素是需要在整個數據生命周期中捕獲數據沿襲和來源。如果企業(yè)無法了解數據來源以及誰在數據生命周期中訪問并改造了數據,那么從數據中獲得的洞察價值就會降低。
隨著所采集的數據量成倍增加,企業(yè)越來越需要對數據進行自動剖析、分類和采取適當的控制手段,比如新的數據集是否包含敏感的個人身份信息(PII)數據等;此外,另一個相關的挑戰(zhàn)是如何高效地管理和分析高達PB量級的海量數據。
為了應對監(jiān)管和治理變化,企業(yè)還可能需要在不同環(huán)境之間安全、高效地移動數據和應用。這不僅包括將數據從云遣返到本地,還包括當平臺被監(jiān)管機構認為缺乏足夠的控制手段來應對政策變化時,在公有云供應商之間移動數據。
挑戰(zhàn)3:管理運營復雜性
最后一項挑戰(zhàn)是管理各種數據集和分析工作負載所帶來的運營復雜性。若在每個公有云平臺和本地均采用不同的解決方案,那么不論是承擔運營費用或是維系一支具備合適技能的團隊,都會帶來沉重負擔。這些因素綜合起來將引發(fā)并增加運營風險,影響敏捷性。
基于以上三項挑戰(zhàn),以下是一些指導原則和政策,以幫助企業(yè)在構建強大的數據戰(zhàn)略時克服障礙。在考慮采用何種技術時,企業(yè)應牢記:在支持混合云、多云基礎架構和處理引擎開放生態(tài)的同時也應留有余地。這樣,在整個數據生命周期便可以部署集成分析服務集,也可以規(guī)定安全策略和控制手段,使其在任何受支持的環(huán)境中都能統一一致地執(zhí)行。
理想情況下,該技術應該可以進一步擴展,不但能夠支持當前的數據管理和分析需求,還能夠支持未來幾年可預測的需求。并且,該技術最好是專為云而設計,以實現計算和存儲能夠獨立擴展。
總結
支持數據編織、湖倉一體、數據網格等現代化數據架構的功能繼續(xù)影響著當前提供給企業(yè)的解決方案。因此,企業(yè)可以采用一個能夠在多種環(huán)境中統一管理不同數據集的平臺,結合數據湖和數據倉庫的統一化,以及支持數據產品、域所有權和自助服務。Cloudera Data Platform(CDP)與其他企業(yè)數據平臺解決方案的不同之處在于,其能夠在整個數據生命周期內借助共享安全和治理結構持續(xù)實現這一點。對于幫助全球各大企業(yè)制定和實施靈活的數據戰(zhàn)略來說,這項能力是不可或缺的。