人物訪談|Hadoop之父:Hadoop的從0到1

CDSN
佚名
  【每日科技網(wǎng)】作為關(guān)注大數(shù)據(jù)領(lǐng)域的編輯,小編一聽說能采訪到Hadoop創(chuàng)始人就激動不以。CSDN早在2013年已采訪過Cloudera首席架構(gòu)師Doug Cutting先生,時隔多年,我們在北京Strata Data Conference活動中...
  【每日科技網(wǎng)】作為關(guān)注大數(shù)據(jù)領(lǐng)域的編輯,小編一聽說能采訪到Hadoop創(chuàng)始人就激動不以。CSDN早在2013年已采訪過Cloudera首席架構(gòu)師Doug Cutting先生,時隔多年,我們在北京Strata Data Conference活動中,再次見到這位老朋友。今天,包括Hadoop和一些近期涌現(xiàn)的新技術(shù),與Doug先生進行了探討。

  以下是訪談?wù)?br />
  Hadoop的從0到1

  記者:Doug Cutting先生,請問您做Hadoop的初衷是什么,最初打算解決什么問題?現(xiàn)在的Hadoop與你之前想象的一樣嗎?

  小貼士:2004年,Cutting決定開發(fā)一款可以代替當(dāng)時的主流搜索產(chǎn)品的開源搜索引擎——Nutch。Google此時正好發(fā)布了一項研究報告,介紹了兩款自家的搜索引擎而開發(fā)的軟件平臺:GFS(Google File System),用于存儲不同設(shè)備所產(chǎn)生的海量數(shù)據(jù);另一個是MapReduce,負責(zé)分布式大規(guī)模數(shù)據(jù)。

  Doug:創(chuàng)建Hadoop的時候,當(dāng)時我正在做一個項目,這個項目的代號叫Nutch。當(dāng)時希望能夠基于開源去創(chuàng)建出一種網(wǎng)絡(luò)搜索的引擎,實現(xiàn)一種具有可擴展性、可收縮性的數(shù)據(jù)技術(shù)。同期我們看到了來自于Google的幾篇論文,我們覺得他們的想法和我們的想法是完全一致的,所以我們把Google的想法放到了Nutch項目當(dāng)中來實施了。當(dāng)時需要做好手上的項目,確實是沒有預(yù)想到這個技術(shù)以后有如此之廣的用途。當(dāng)時我認為僅僅也就是主要用于搜索引擎和網(wǎng)站的創(chuàng)建上,現(xiàn)在Hadoop在制造、銀行、電信很多的行業(yè)有著廣泛應(yīng)用,讓我感覺到非常驚喜。

  當(dāng)初也沒有一個關(guān)于Hadoop將來如何發(fā)展的計劃,Hadoop發(fā)展的演進范圍、規(guī)模大大超出了我當(dāng)初的預(yù)想。最讓我驚喜的就是圍繞著Hadoop以及基于Hadoop所有的項目和技術(shù),并不是基于某一個單獨的技術(shù)。而是基于多種技術(shù)組成的系列家族,整個技術(shù)系列是在不斷發(fā)展和演進之中,也就是說圍繞著Hadoop現(xiàn)在已經(jīng)形成了非常強大的生態(tài)系統(tǒng),Hadoop整體生態(tài)系統(tǒng)的演進和發(fā)展并不受制于其中的任何一種組成的技術(shù)。

  點評:大神也是踩在巨人的肩膀造出了“Hadoop”,當(dāng)年的星星之火,現(xiàn)在已經(jīng)燎原。

  Hadoop的小伙伴——云計算

  記者:云計算和Hadoop幾乎同歲,它們之間現(xiàn)在是什么關(guān)系?

  Doug:我認為云計算或云模式使得客戶在使用Hadoop的方式上具有了更大的靈活性。如果他們把Hadoop用本地安裝運行的形式來使用的話,往往需要建一個單個很大的集群來支持各種不同的應(yīng)用。如果在云環(huán)境當(dāng)中來運行Hadoop,他們的數(shù)據(jù)會在亞馬遜存儲之類的系統(tǒng)當(dāng)中,云環(huán)境供應(yīng)商已經(jīng)幫助他們管理了數(shù)據(jù)的拷貝。

  與此同時在云環(huán)境當(dāng)中使用Hadoop,客戶可以針對不同的應(yīng)用創(chuàng)建應(yīng)用不同的集群,而這樣的集群開關(guān)或者是規(guī)模的伸縮,都可以按需進行,這樣對于客戶來說,他們對于應(yīng)用有了更好控制的同時也增加了靈活性。

  從整個IT長遠的發(fā)展趨勢來看,過去IT在一個企業(yè)當(dāng)中往往是集中在一個部門的手中,但是現(xiàn)在我們看到很多的企業(yè)的數(shù)據(jù)和數(shù)字技術(shù),是在整個企業(yè)當(dāng)中得到了擴散和廣泛使用,并不是所有IT的事項像過去一樣要找IT部門解決,各個非IT的部門具有越來越大的能力,云計算是促進和推動了這一趨勢的發(fā)展,云計算使得一個公司當(dāng)中非IT部門,例如運營、制造、市場營銷部門都能夠自行采購一些服務(wù)并且加以運行,他們的控制能力和靈活性都大大增加了。所以說云計算本身也是促進了IT和數(shù)據(jù)的分散化、自助化,而不是像過去那種集中化的模式。

  Hadoop背后的AI、IoT商機

  記者:前些年我們談大數(shù)據(jù)談得比較多,這兩年人工智能、IoT非常熱,在您看來這它們之間有什么樣的聯(lián)系? IoT和AI是否給現(xiàn)在Hadoop和spark帶來更多的是商機呢?

  Doug:我覺得Hadoop和AI之間是非常適合、非常匹配的一項技術(shù),因為AI本身就是一種大數(shù)據(jù)的應(yīng)用。特別是在對于AI的系統(tǒng)進行訓(xùn)練的時候,使用的數(shù)據(jù)越多,AI系統(tǒng)就越先進。上周Google發(fā)表了一篇文章,主要講的是AI的圖象識別,也就是說在用數(shù)以十億計的圖象識別的深度智能系統(tǒng)進行培訓(xùn)的基礎(chǔ)之上,仍然是使用的數(shù)據(jù)越多、有的圖片越多,這種深度學(xué)習(xí)圖象識別的能力就越強。也就是說對于人工智能系統(tǒng)進行訓(xùn)練使用的數(shù)據(jù)量越大,人工智能系統(tǒng)的質(zhì)量就越高,從這個意義上來說,AI本身也是一種大數(shù)據(jù)應(yīng)用。

  Hadoop作為一項基礎(chǔ)仍然是在發(fā)揮著關(guān)鍵作用,與此同時spark對于像IoT和AI的應(yīng)用,也在起到越來越重要的作用。除此之外,新的技術(shù)會涌現(xiàn)出來,這樣能夠使得開源的整個生態(tài)系統(tǒng)進一步得到發(fā)展和改進。如果有了更好的存儲技術(shù)或者是更好的分析技術(shù),毫無疑問Cloudera會采用這些技術(shù)。在開源的世界當(dāng)中,競爭的邏輯是不一樣的,沒有哪個公司是擁有開源的技術(shù)。每當(dāng)開源的技術(shù)有了新的發(fā)明或進展,開源群體的每一分子都會受益于其中。如果有一些領(lǐng)域會出現(xiàn)新的技術(shù),在某些方面會優(yōu)于Hadoop,那Cloudera也會毫無疑問去采納這樣的技術(shù)放到我們的解決方案當(dāng)中去交付給客戶。

  處理器數(shù)量和延遲之間的平衡

  記者:對于Hadoop分布式存儲來說,整個存儲的平衡和調(diào)度非常重要,如果節(jié)點多了網(wǎng)絡(luò)延時會比較長,如果節(jié)點少了就有算不過來的現(xiàn)象。請問在處理速度、網(wǎng)絡(luò)延時和成本幾個要素之間如何取得比較好的平衡?請問您有什么樣的經(jīng)驗。

  Doug:實際情況也并不是那么簡單,或者說實際情況是有很多的例外。在很多案例當(dāng)中,有時候處理器越多也能夠做到延遲越低,主要是看對于要處理的問題、處理的任務(wù)怎樣劃分。比如通過Hbase或通過很多交互式的系統(tǒng),在節(jié)點越多的情況下反而能降低延遲,這是因為任務(wù)處理有很好的并行性。所以說現(xiàn)在大部分情況下,節(jié)點的數(shù)量或處理器的數(shù)量和延遲之間的平衡是不難找到的。

  接下來就要講成本,成本確實是一個考慮因素,首先我們的軟件是開源的,而且我們所有解決方案能夠使用普通的商用硬件,所以和上一代相比成本有大幅度降低。而且我們認為今天這種低成本的架構(gòu)是可以去運行很多其他的應(yīng)用,只不過有很多其他的應(yīng)用暫時還沒有用上低成本的架構(gòu),還有進一步降低成本的潛力。

  Hadoop未來在云上還是地上?

  記者:您認為未來Hadoop在主流的應(yīng)用是在云上,還是在實體的物理機上?

  Doug:我認為這兩種使用方式在未來若干年當(dāng)中會長期共存下去,比方說對于一些數(shù)據(jù)量非常之大,而且本身企業(yè)的處理資源很強的客戶來說,很多的工作負載特別是像需要全天候永續(xù)運行的工作負載是放在本地的物理機上運行,經(jīng)濟實用性更強,擴展性也更強。另外對于其他一些類型的工作負載,包括對于一些剛剛起步的企業(yè)來說,可能放在云環(huán)境當(dāng)中運行更加合適。還有一些工作負載或者是數(shù)據(jù)的處理,由于受制于法律上的要求,規(guī)定必須要放在本地的物理機當(dāng)中來運行的。

  就Cloudera而言,我們目前的業(yè)務(wù)以云模式做的占到了15%到20%,這肯定會增長。我預(yù)計將來會達到40%到60%,但是不會到90%。本地安裝運行的模式仍然會是我們業(yè)務(wù)的一個重要組成部分。

  中國用戶更喜歡開源版本

  記者:第一個問題,中國跟其他國家相比,在大數(shù)據(jù)應(yīng)用方面有哪些不一樣的地方,或者說Hadoop的生態(tài)體系現(xiàn)在是什么樣的狀況?

  Doug:從中國的角度來說,從大數(shù)據(jù)出現(xiàn)一直到今天,中國一直是在大量使用、采用和參與推進大數(shù)據(jù)的發(fā)展。而且在過去十年當(dāng)中,Hadoop在中國也是一直得到了大力推進,取得了非常大的成功。我們可以看到中國市場和Hadoop之間有一個非常自然的契合和匹配,從數(shù)據(jù)的角度來說中國可能是世界上的單一市場,在中國擁有數(shù)據(jù)的數(shù)量和規(guī)模超過了世界上大部分其他的國家,這也就是為什么Hadoop在中國有著非常成功的發(fā)展。

  講到中國Hadoop的生態(tài)圈和其他國家有沒有不同呢?可能有一個不同,就是在中國很多Hadoop的用戶習(xí)慣使用Hadoop的開源版本,而不需要去具體得到哪一家公司的支持和幫助。中國市場和美國相比,是需要花更多的時間對市場進行教育和培育,也就是讓人們能夠了解到從更加長遠的角度來說,在使用這些軟件的過程當(dāng)中如果能夠得到有關(guān)方面的支持和幫助,會有更好的結(jié)果。這樣的市場教育在中國可能是要花更長的時間,但是對于Hadoop在中國的發(fā)展前景我是非常有信心的。

  想學(xué)Hadoop,要從實踐出發(fā)

  記者:CSDN這邊有很多的開發(fā)者用戶,大家很關(guān)注Hadoop的教育課程。如果是一個零基礎(chǔ)的學(xué)生或者是入門者想學(xué)習(xí)Hadoop,應(yīng)該如何入手?是從案例的角度去出發(fā),還是先閱讀相關(guān)的書籍?Cloudera對于這些開發(fā)者的支持方面,未來有哪些計劃?

  Doug就培訓(xùn)而言,Cloudera是一直在推動各種培訓(xùn)的項目。對于一個零起步的開發(fā)者來說,學(xué)習(xí)Hadoop的方式我認為是不要通過看教科書,要通過案例來學(xué)習(xí),通過案例的需求在具體實施當(dāng)中、具體實踐當(dāng)中來學(xué),這樣的學(xué)習(xí)效果是更好的。

  在教育培訓(xùn)的計劃方面,Cloudera有一個學(xué)術(shù)計劃,在這個計劃當(dāng)中我至少知道在北京已經(jīng)有一個合作伙伴加入了,那就是清華大學(xué),可能在中國還有其他的大學(xué)加入。在這個計劃當(dāng)中,Cloudera把大數(shù)據(jù)培訓(xùn)的技能、教材、內(nèi)容免費提供給大學(xué)合作伙伴。另外在亞洲有一個BASE Initiative(大數(shù)據(jù)分析技能培訓(xùn)計劃)的教育項目,在新加坡以及不久前在臺灣都已經(jīng)做了。BASE Initiative主要是Cloudera和大學(xué)、政府部門,和需要招聘大數(shù)據(jù)人才的公司一起來合作,對潛在對象進行大數(shù)據(jù)技能的教育培訓(xùn),并且招聘其中的一些人到有大數(shù)據(jù)技能需求的公司來工作。

  結(jié)語

  這次簡短的采訪,讓我認識到一個技術(shù)傳奇的平凡與不同。作為Hadoop的,他的經(jīng)歷對未來有著深遠的影響,但通過其回答的問題,我們也看到一個普通技術(shù)從業(yè)人員的樸實與真誠。包括小編在內(nèi),CSDN作為中國的技術(shù)社區(qū),有著太多他的粉絲,CSDN計劃將在今年年末舉辦2017 BDTC(中國大數(shù)據(jù)技術(shù)大會,前身是Hadoop中國云計算大會),希望Doug Cutting先生能再次蒞臨我們的盛會。
THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論