亚洲情欧美色中文字幕,久久综合一区二区三区,亚洲AV永久无码精品天堂妖精

人物訪談|Hadoop之父：Hadoop的從0到1

2017-07-26 01:21

CDSN

佚名

&emsp;&emsp;【每日科技網(wǎng)】作為關(guān)注大數(shù)據(jù)領(lǐng)域的編輯，小編一聽說能采訪到Hadoop創(chuàng)始人就激動不以。CSDN早在2013年已采訪過Cloudera首席架構(gòu)師Doug Cutting先生，時隔多年，我們在北京Strata Data Conference活動中...

【每日科技網(wǎng)】作為關(guān)注大數(shù)據(jù)領(lǐng)域的編輯，小編一聽說能采訪到Hadoop創(chuàng)始人就激動不以。CSDN早在2013年已采訪過Cloudera首席架構(gòu)師Doug Cutting先生，時隔多年，我們在北京Strata Data Conference活動中，再次見到這位老朋友。今天，包括Hadoop和一些近期涌現(xiàn)的新技術(shù)，與Doug先生進行了探討。

以下是訪談?wù)?br />
Hadoop的從0到1

記者：Doug Cutting先生，請問您做Hadoop的初衷是什么，最初打算解決什么問題?現(xiàn)在的Hadoop與你之前想象的一樣嗎?

小貼士：2004年，Cutting決定開發(fā)一款可以代替當(dāng)時的主流搜索產(chǎn)品的開源搜索引擎——Nutch。Google此時正好發(fā)布了一項研究報告，介紹了兩款自家的搜索引擎而開發(fā)的軟件平臺：GFS(Google File System)，用于存儲不同設(shè)備所產(chǎn)生的海量數(shù)據(jù);另一個是MapReduce，負責(zé)分布式大規(guī)模數(shù)據(jù)。

Doug：創(chuàng)建Hadoop的時候，當(dāng)時我正在做一個項目，這個項目的代號叫Nutch。當(dāng)時希望能夠基于開源去創(chuàng)建出一種網(wǎng)絡(luò)搜索的引擎，實現(xiàn)一種具有可擴展性、可收縮性的數(shù)據(jù)技術(shù)。同期我們看到了來自于Google的幾篇論文，我們覺得他們的想法和我們的想法是完全一致的，所以我們把Google的想法放到了Nutch項目當(dāng)中來實施了。當(dāng)時需要做好手上的項目，確實是沒有預(yù)想到這個技術(shù)以后有如此之廣的用途。當(dāng)時我認為僅僅也就是主要用于搜索引擎和網(wǎng)站的創(chuàng)建上，現(xiàn)在Hadoop在制造、銀行、電信很多的行業(yè)有著廣泛應(yīng)用，讓我感覺到非常驚喜。

當(dāng)初也沒有一個關(guān)于Hadoop將來如何發(fā)展的計劃，Hadoop發(fā)展的演進范圍、規(guī)模大大超出了我當(dāng)初的預(yù)想。最讓我驚喜的就是圍繞著Hadoop以及基于Hadoop所有的項目和技術(shù)，并不是基于某一個單獨的技術(shù)。而是基于多種技術(shù)組成的系列家族，整個技術(shù)系列是在不斷發(fā)展和演進之中，也就是說圍繞著Hadoop現(xiàn)在已經(jīng)形成了非常強大的生態(tài)系統(tǒng)，Hadoop整體生態(tài)系統(tǒng)的演進和發(fā)展并不受制于其中的任何一種組成的技術(shù)。

點評：大神也是踩在巨人的肩膀造出了“Hadoop”，當(dāng)年的星星之火，現(xiàn)在已經(jīng)燎原。

Hadoop的小伙伴——云計算

記者：云計算和Hadoop幾乎同歲，它們之間現(xiàn)在是什么關(guān)系?

Doug：我認為云計算或云模式使得客戶在使用Hadoop的方式上具有了更大的靈活性。如果他們把Hadoop用本地安裝運行的形式來使用的話，往往需要建一個單個很大的集群來支持各種不同的應(yīng)用。如果在云環(huán)境當(dāng)中來運行Hadoop，他們的數(shù)據(jù)會在亞馬遜存儲之類的系統(tǒng)當(dāng)中，云環(huán)境供應(yīng)商已經(jīng)幫助他們管理了數(shù)據(jù)的拷貝。

與此同時在云環(huán)境當(dāng)中使用Hadoop，客戶可以針對不同的應(yīng)用創(chuàng)建應(yīng)用不同的集群，而這樣的集群開關(guān)或者是規(guī)模的伸縮，都可以按需進行，這樣對于客戶來說，他們對于應(yīng)用有了更好控制的同時也增加了靈活性。

從整個IT長遠的發(fā)展趨勢來看，過去IT在一個企業(yè)當(dāng)中往往是集中在一個部門的手中，但是現(xiàn)在我們看到很多的企業(yè)的數(shù)據(jù)和數(shù)字技術(shù)，是在整個企業(yè)當(dāng)中得到了擴散和廣泛使用，并不是所有IT的事項像過去一樣要找IT部門解決，各個非IT的部門具有越來越大的能力，云計算是促進和推動了這一趨勢的發(fā)展，云計算使得一個公司當(dāng)中非IT部門，例如運營、制造、市場營銷部門都能夠自行采購一些服務(wù)并且加以運行，他們的控制能力和靈活性都大大增加了。所以說云計算本身也是促進了IT和數(shù)據(jù)的分散化、自助化，而不是像過去那種集中化的模式。

Hadoop背后的AI、IoT商機

記者：前些年我們談大數(shù)據(jù)談得比較多，這兩年人工智能、IoT非常熱，在您看來這它們之間有什么樣的聯(lián)系? IoT和AI是否給現(xiàn)在Hadoop和spark帶來更多的是商機呢?

Doug：我覺得Hadoop和AI之間是非常適合、非常匹配的一項技術(shù)，因為AI本身就是一種大數(shù)據(jù)的應(yīng)用。特別是在對于AI的系統(tǒng)進行訓(xùn)練的時候，使用的數(shù)據(jù)越多，AI系統(tǒng)就越先進。上周Google發(fā)表了一篇文章，主要講的是AI的圖象識別，也就是說在用數(shù)以十億計的圖象識別的深度智能系統(tǒng)進行培訓(xùn)的基礎(chǔ)之上，仍然是使用的數(shù)據(jù)越多、有的圖片越多，這種深度學(xué)習(xí)圖象識別的能力就越強。也就是說對于人工智能系統(tǒng)進行訓(xùn)練使用的數(shù)據(jù)量越大，人工智能系統(tǒng)的質(zhì)量就越高，從這個意義上來說，AI本身也是一種大數(shù)據(jù)應(yīng)用。

Hadoop作為一項基礎(chǔ)仍然是在發(fā)揮著關(guān)鍵作用，與此同時spark對于像IoT和AI的應(yīng)用，也在起到越來越重要的作用。除此之外，新的技術(shù)會涌現(xiàn)出來，這樣能夠使得開源的整個生態(tài)系統(tǒng)進一步得到發(fā)展和改進。如果有了更好的存儲技術(shù)或者是更好的分析技術(shù)，毫無疑問Cloudera會采用這些技術(shù)。在開源的世界當(dāng)中，競爭的邏輯是不一樣的，沒有哪個公司是擁有開源的技術(shù)。每當(dāng)開源的技術(shù)有了新的發(fā)明或進展，開源群體的每一分子都會受益于其中。如果有一些領(lǐng)域會出現(xiàn)新的技術(shù)，在某些方面會優(yōu)于Hadoop，那Cloudera也會毫無疑問去采納這樣的技術(shù)放到我們的解決方案當(dāng)中去交付給客戶。

處理器數(shù)量和延遲之間的平衡

記者：對于Hadoop分布式存儲來說，整個存儲的平衡和調(diào)度非常重要，如果節(jié)點多了網(wǎng)絡(luò)延時會比較長，如果節(jié)點少了就有算不過來的現(xiàn)象。請問在處理速度、網(wǎng)絡(luò)延時和成本幾個要素之間如何取得比較好的平衡?請問您有什么樣的經(jīng)驗。

Doug：實際情況也并不是那么簡單，或者說實際情況是有很多的例外。在很多案例當(dāng)中，有時候處理器越多也能夠做到延遲越低，主要是看對于要處理的問題、處理的任務(wù)怎樣劃分。比如通過Hbase或通過很多交互式的系統(tǒng)，在節(jié)點越多的情況下反而能降低延遲，這是因為任務(wù)處理有很好的并行性。所以說現(xiàn)在大部分情況下，節(jié)點的數(shù)量或處理器的數(shù)量和延遲之間的平衡是不難找到的。

接下來就要講成本，成本確實是一個考慮因素，首先我們的軟件是開源的，而且我們所有解決方案能夠使用普通的商用硬件，所以和上一代相比成本有大幅度降低。而且我們認為今天這種低成本的架構(gòu)是可以去運行很多其他的應(yīng)用，只不過有很多其他的應(yīng)用暫時還沒有用上低成本的架構(gòu)，還有進一步降低成本的潛力。

Hadoop未來在云上還是地上?

記者：您認為未來Hadoop在主流的應(yīng)用是在云上，還是在實體的物理機上?

Doug：我認為這兩種使用方式在未來若干年當(dāng)中會長期共存下去，比方說對于一些數(shù)據(jù)量非常之大，而且本身企業(yè)的處理資源很強的客戶來說，很多的工作負載特別是像需要全天候永續(xù)運行的工作負載是放在本地的物理機上運行，經(jīng)濟實用性更強，擴展性也更強。另外對于其他一些類型的工作負載，包括對于一些剛剛起步的企業(yè)來說，可能放在云環(huán)境當(dāng)中運行更加合適。還有一些工作負載或者是數(shù)據(jù)的處理，由于受制于法律上的要求，規(guī)定必須要放在本地的物理機當(dāng)中來運行的。

就Cloudera而言，我們目前的業(yè)務(wù)以云模式做的占到了15%到20%，這肯定會增長。我預(yù)計將來會達到40%到60%，但是不會到90%。本地安裝運行的模式仍然會是我們業(yè)務(wù)的一個重要組成部分。

中國用戶更喜歡開源版本

記者：第一個問題，中國跟其他國家相比，在大數(shù)據(jù)應(yīng)用方面有哪些不一樣的地方，或者說Hadoop的生態(tài)體系現(xiàn)在是什么樣的狀況?

Doug：從中國的角度來說，從大數(shù)據(jù)出現(xiàn)一直到今天，中國一直是在大量使用、采用和參與推進大數(shù)據(jù)的發(fā)展。而且在過去十年當(dāng)中，Hadoop在中國也是一直得到了大力推進，取得了非常大的成功。我們可以看到中國市場和Hadoop之間有一個非常自然的契合和匹配，從數(shù)據(jù)的角度來說中國可能是世界上的單一市場，在中國擁有數(shù)據(jù)的數(shù)量和規(guī)模超過了世界上大部分其他的國家，這也就是為什么Hadoop在中國有著非常成功的發(fā)展。

講到中國Hadoop的生態(tài)圈和其他國家有沒有不同呢?可能有一個不同，就是在中國很多Hadoop的用戶習(xí)慣使用Hadoop的開源版本，而不需要去具體得到哪一家公司的支持和幫助。中國市場和美國相比，是需要花更多的時間對市場進行教育和培育，也就是讓人們能夠了解到從更加長遠的角度來說，在使用這些軟件的過程當(dāng)中如果能夠得到有關(guān)方面的支持和幫助，會有更好的結(jié)果。這樣的市場教育在中國可能是要花更長的時間，但是對于Hadoop在中國的發(fā)展前景我是非常有信心的。

想學(xué)Hadoop，要從實踐出發(fā)

記者：CSDN這邊有很多的開發(fā)者用戶，大家很關(guān)注Hadoop的教育課程。如果是一個零基礎(chǔ)的學(xué)生或者是入門者想學(xué)習(xí)Hadoop，應(yīng)該如何入手?是從案例的角度去出發(fā)，還是先閱讀相關(guān)的書籍?Cloudera對于這些開發(fā)者的支持方面，未來有哪些計劃?

Doug就培訓(xùn)而言，Cloudera是一直在推動各種培訓(xùn)的項目。對于一個零起步的開發(fā)者來說，學(xué)習(xí)Hadoop的方式我認為是不要通過看教科書，要通過案例來學(xué)習(xí)，通過案例的需求在具體實施當(dāng)中、具體實踐當(dāng)中來學(xué)，這樣的學(xué)習(xí)效果是更好的。

在教育培訓(xùn)的計劃方面，Cloudera有一個學(xué)術(shù)計劃，在這個計劃當(dāng)中我至少知道在北京已經(jīng)有一個合作伙伴加入了，那就是清華大學(xué)，可能在中國還有其他的大學(xué)加入。在這個計劃當(dāng)中，Cloudera把大數(shù)據(jù)培訓(xùn)的技能、教材、內(nèi)容免費提供給大學(xué)合作伙伴。另外在亞洲有一個BASE Initiative(大數(shù)據(jù)分析技能培訓(xùn)計劃)的教育項目，在新加坡以及不久前在臺灣都已經(jīng)做了。BASE Initiative主要是Cloudera和大學(xué)、政府部門，和需要招聘大數(shù)據(jù)人才的公司一起來合作，對潛在對象進行大數(shù)據(jù)技能的教育培訓(xùn)，并且招聘其中的一些人到有大數(shù)據(jù)技能需求的公司來工作。

結(jié)語

這次簡短的采訪，讓我認識到一個技術(shù)傳奇的平凡與不同。作為Hadoop的，他的經(jīng)歷對未來有著深遠的影響，但通過其回答的問題，我們也看到一個普通技術(shù)從業(yè)人員的樸實與真誠。包括小編在內(nèi)，CSDN作為中國的技術(shù)社區(qū)，有著太多他的粉絲，CSDN計劃將在今年年末舉辦2017 BDTC(中國大數(shù)據(jù)技術(shù)大會，前身是Hadoop中國云計算大會)，希望Doug Cutting先生能再次蒞臨我們的盛會。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

AR、VR技術(shù)走進文化遺產(chǎn)領(lǐng)域拓展博物館展示手段

人物訪談|Hadoop之父：Hadoop的從0到1

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

人物訪談|Hadoop之父：Hadoop的從0到1

最新評論（評論僅代表用戶觀點）

物聯(lián)網(wǎng)網(wǎng)關(guān)的定義，作用及工作原理

ChatGPT時代下，人形機器人能做“人”嗎？

物聯(lián)網(wǎng)在建筑中的6個變革性示例

人工智能（AI）和道德倫理的標準在哪里？

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

聚力產(chǎn)學(xué)研用融合發(fā)展吉大正元投建網(wǎng)絡(luò)安全產(chǎn)業(yè)園區(qū)

2024國有企業(yè)數(shù)智化轉(zhuǎn)型推進大會在京成功召開

構(gòu)筑智慧城市數(shù)字世界的安全空間

【報名倒計時】2021第四屆中國信息技術(shù)主管大會參會指南，請查收!

2019年十一大科技預(yù)測：區(qū)塊鏈、5G和量子計算

惠而特創(chuàng)始人譚曙光獲評“2021-2022工業(yè)互聯(lián)網(wǎng)數(shù)字化轉(zhuǎn)型先鋒人物”

熱點資訊

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標綠色新生

AR、VR技術(shù)走進文化遺產(chǎn)領(lǐng)域拓展博物館展示手段

為人工智能鋪就發(fā)展快軌

人物訪談|Hadoop之父：Hadoop的從0到1

最新評論（評論僅代表用戶觀點）

欄目推薦

物聯(lián)網(wǎng)網(wǎng)關(guān)的定義，作用及工作原理

ChatGPT時代下，人形機器人能做“人”嗎 ？

物聯(lián)網(wǎng)在建筑中的6個變革性示例

人工智能（AI）和道德倫理的標準在哪里？

本月熱門

精選文章

熱點資訊

AR、VR技術(shù)走進文化遺產(chǎn)領(lǐng)域 拓展博物館展示手段

為人工智能鋪就發(fā)展快軌

物聯(lián)網(wǎng)網(wǎng)關(guān)的定義，作用及工作原理

ChatGPT時代下，人形機器人能做“人”嗎？

人工智能（AI）和道德倫理的標準在哪里？

AR、VR技術(shù)走進文化遺產(chǎn)領(lǐng)域拓展博物館展示手段