企業(yè)能否負擔得起大數(shù)據(jù)解決方案的成本?

HERO編譯
大數(shù)據(jù)技術關注客戶的另一個重要方面——變更成本。經驗表明,大數(shù)據(jù)與任何其他技術之間沒有區(qū)別。如果解決方案不是過度設計的,那么變更成本就可以與非大數(shù)據(jù)堆棧完全媲美。大數(shù)據(jù)帶來了一個好處,大數(shù)據(jù)解決方案被設計為分離是很自然的。設計正確的解決方案看起來不像是整體解決方案,可以允許在需要時在短期內應用局部更改,并且影響生產的風險更小。

人們仍然存在的一個誤解是,只有大企業(yè)才能負擔得起采用大數(shù)據(jù)驅動的解決方案的成本,它只適用于海量數(shù)據(jù),而且成本高昂。近年來的幾次革命性發(fā)展將會改變這種想法。

大數(shù)據(jù)技術的成熟度

第一次革命性發(fā)展與大數(shù)據(jù)的成熟度和質量有關。毫無疑問,企業(yè)采用大數(shù)據(jù)技術需要付出一定的努力才能使其發(fā)揮作用。

11.jpg

圖1.技術正在成長的階段

以往有很多來自開發(fā)人員的故事,他們浪費了80%的時間試圖用Spark、Hadoop、Kafka或其他方法來克服一些故障。如今,這些技術變得足夠可靠,并且在成長階段學會了如何相互合作。

與捕獲內部錯誤相比,基礎設施出現(xiàn)故障的機會要多得多。在大多數(shù)情況下,即使是基礎設施出現(xiàn)問題也可以容忍,因為大多數(shù)的大數(shù)據(jù)處理框架設計都是容錯的。此外,這些技術為計算提供了穩(wěn)定、強大、簡單的抽象,并允許開發(fā)人員專注于開發(fā)的業(yè)務。

各種大數(shù)據(jù)技術

目前正在發(fā)生第二次革命,近年來涌現(xiàn)出許多開源和專有技術——Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等。數(shù)千名開發(fā)人員的創(chuàng)造力和創(chuàng)意已轉化為大膽而卓越的解決方案,并具有巨大的協(xié)同作用。

22.jpg

圖2.大數(shù)據(jù)技術堆棧

以下介紹一個典型的分析數(shù)據(jù)平臺(ADP)。它包括四個主要層次:

•儀表板和可視化–分析數(shù)據(jù)平臺(ADP)的外觀,可將分析摘要提供給最終用戶。

•數(shù)據(jù)處理–驗證、豐富數(shù)據(jù)并將數(shù)據(jù)從一種形式轉換為另一種形式的數(shù)據(jù)管道。

•數(shù)據(jù)倉庫–存放組織良好的數(shù)據(jù)的地方,例如匯總和數(shù)據(jù)集市等。

•數(shù)據(jù)湖–用于存放純原始數(shù)據(jù)的地方,是數(shù)據(jù)倉庫的基礎。

每個層次都有足夠的選擇,可滿足任何需要和要求。這些技術中有一半是在過去5年內出現(xiàn)的。

關于它們的重要一點是,技術的開發(fā)旨在相互兼容。例如,典型的低成本小型分析數(shù)據(jù)平臺(ADP)可能包含Apache Spark作為處理組件的基礎,AWS S3或類似的數(shù)據(jù)湖,Clickhouse作為倉庫,OLAP用于低延遲查詢,而Grafana用于漂亮的儀表板(見圖3)。

33.jpg

圖3.典型的低成本小型分析數(shù)據(jù)平臺(ADP)

提供更強保證的更復雜的分析數(shù)據(jù)平臺(ADP)能夠以不同的方式組成。例如,將Apache Hudi和S3引入作為數(shù)據(jù)倉庫可以確保更大的規(guī)模,而Clickhouse仍然可以低延遲地訪問聚合數(shù)據(jù)(見圖4)。

44.jpg

圖4.更大規(guī)模的ADP具有更強的保障

成本效益

第三次革命性變化是由云層造成的。云計算服務成為真正的游戲規(guī)則改變者,它們將大數(shù)據(jù)作為即用型平臺(大數(shù)據(jù)即服務)進行處理,使開發(fā)人員可以專注于功能開發(fā),從而減少對云計算基礎設施的關注。

圖5展示了分析數(shù)據(jù)平臺(ADP)的另一個示例,該示例利用了無服務器技術從存儲、處理到表示層的強大功能。當其技術被AWS公共云托管服務取代時,它具有相同的設計思想。

55.jpg

圖5.典型的低成本無服務器分析數(shù)據(jù)平臺(ADP)

值得一提的是,這里的AWS云平臺只是一個例子,其他云計算提供商也可以構建分析數(shù)據(jù)平臺(ADP)。

開發(fā)人員可以選擇特定技術和無服務器。無服務器越多,其可組合性就越好,而越是被供應商鎖定,就越是不利。采用特定的云計算提供商的服務和無服務器堆棧上的解決方案可以加快上市時間。在無服務器技術之間明智地選擇可使解決方案具有成本效益。

不過,這種選擇對初創(chuàng)公司來說并不十分有用,因為他們傾向于利用典型的10萬美元的云計算信用額度,并且在AWS、GCP和Azure之間進行跳轉是一種很普遍的工作方式,必須提前弄清這個事實。

通常情況下,工程師區(qū)分以下成本:

•開發(fā)費用

•維修費用

•變更成本

以下一一進行解答。

(1)開發(fā)費用

云計算技術無疑可以簡化工程工作,它在幾個方面產生積極影響:

第一個是架構和設計決策。無服務器堆棧提供了豐富的模式和可重用組件集,為解決方案的體系結構提供了堅實而一致的基礎。只有一個問題可能會減慢設計階段:大數(shù)據(jù)技術本質上是分布式的,因此在設計相關的解決方案時必須考慮可能的故障和中斷,以確保數(shù)據(jù)的可用性和一致性。另外,解決方案需要更少的努力來擴展。

第二個是集成和端到端測試。無服務器堆棧允許創(chuàng)建獨立的沙盒、播放、測試、修復問題,從而減少開發(fā)回送和時間。

另一個優(yōu)勢是,云計算實現(xiàn)了解決方案部署過程的自動化。而這個特性是任何成功團隊的必備特性。

(2)維護費用

云計算提供商聲稱要解決的主要目標之一是減少監(jiān)視和保持生產環(huán)境活動的精力。他們試圖在幾乎沒有Devops參與的情況下構建某種理想的抽象。

但是,實際情況有所不同。關于這個想法,通常維護工作仍然需要一些努力。下表顯示最突出的種類。

但除此之外,在很大程度上取決于基礎設施和許可成本。設計階段是非常重要的,因為它有機會挑戰(zhàn)特定技術并提前估算其運行成本。

(3)變更成本

大數(shù)據(jù)技術關注客戶的另一個重要方面——變更成本。經驗表明,大數(shù)據(jù)與任何其他技術之間沒有區(qū)別。如果解決方案不是過度設計的,那么變更成本就可以與非大數(shù)據(jù)堆棧完全媲美。大數(shù)據(jù)帶來了一個好處,大數(shù)據(jù)解決方案被設計為分離是很自然的。設計正確的解決方案看起來不像是整體解決方案,可以允許在需要時在短期內應用局部更改,并且影響生產的風險更小。

概要

總而言之,企業(yè)可以負擔得起采用大數(shù)據(jù)的成本。它向開發(fā)人員提出了新的設計模式和方法,開發(fā)人員可以利用它來組裝任何符合嚴格業(yè)務需求的分析數(shù)據(jù)平臺,同時具有成本效益。

大數(shù)據(jù)驅動的解決方案可能是快速成長的初創(chuàng)公司的重要基礎,這些初創(chuàng)公司希望變得靈活,其應用可以快速更改。一旦企業(yè)需要更大的數(shù)據(jù)量,大數(shù)據(jù)驅動的解決方案就可以與企業(yè)的業(yè)務一起擴展。

大數(shù)據(jù)技術允許以各種規(guī)模實施近實時分析,而傳統(tǒng)解決方案則在性能上陷入困境。

云計算提供商已將大數(shù)據(jù)提升到了一個新的水平,從而提供了可靠、可擴展以及隨時可用的功能。開發(fā)具有快速交付的經濟高效的分析數(shù)據(jù)平臺(ADP)從未如此容易,企業(yè)需要利用大數(shù)據(jù)技術提升其業(yè)務。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論