AI浪潮下的清華五道口人 | 成為通用人工智能機器人認知技術的引領者——訪2020級GELP校友冉祥

信息化觀察網(wǎng)
周航
工業(yè)自動化這個相對傳統(tǒng)的領域已經(jīng)發(fā)展了很多年,但為什么仍然有如此多的產(chǎn)業(yè)工人?以汽車行業(yè)為例,為什么仍然需要大量的人力?根本原因在于產(chǎn)品的復雜性。例如,如果我們想將車門安裝在汽車上,當車門從傳送帶上運送過來時,可能存在位置上的偏移。但傳統(tǒng)的工業(yè)自動化并不能解決這類問題。

640 (1).png

冉祥,2020級GELP校友,微鏈視覺董事長。

問:請您和我們簡單介紹一下最早創(chuàng)辦微鏈視覺的契機和初衷。

冉祥:我們是從2016年開始調研,并在2019年正式啟動這個項目的。當時,我們注意到制造業(yè)的工作環(huán)境相對惡劣,與寫字樓里舒適的條件形成鮮明對比。工廠在冬天可能會達到零下10度到零下20度的低溫,夏天也會非常炎熱。此外,一些例如焊接和涂膠的工作,還存在一定的危害性,對人體健康有影響。因此,我們預測未來的年輕人不太可能再從事這些工作。在這種背景下,我們開始思考如何利用數(shù)據(jù)和技術替代這些繁重、危險且對健康有害的工作場景。

工業(yè)自動化這個相對傳統(tǒng)的領域已經(jīng)發(fā)展了很多年,但為什么仍然有如此多的產(chǎn)業(yè)工人?以汽車行業(yè)為例,為什么仍然需要大量的人力?根本原因在于產(chǎn)品的復雜性。例如,如果我們想將車門安裝在汽車上,當車門從傳送帶上運送過來時,可能存在位置上的偏移。但傳統(tǒng)的工業(yè)自動化并不能解決這類問題。

因此,我們認為人工智能和視覺技術是解決問題的關鍵,特別是傳統(tǒng)的二維視覺無法解決的情況,可能需要運用三維視覺技術。隨著技術儲備的積累和技術進步,這個問題終將被解決。因此,我們決定進入這個行業(yè),在這個過程中我們也遇到了很多以前沒有想過的問題。

問:遇到了哪些問題?

冉祥:在工業(yè)領域,不論是使用視覺技術、運動控制還是人工智能,工業(yè)場景都需要一個綜合性的跨學科技術。特別是在人工智能受到廣泛關注后,大家開始思考人工智能如何進入物理世界。因此,我們非常早就開始研究如何讓人工智能認知我們的物理世界、控制我們的物理世界,并真正取代物理世界中的工作。在這個過程中,會面臨一些挑戰(zhàn)。

首先是精度的問題。例如,在光線條件下,許多物料會反光,比如金屬,而反光會導致在拍照時信息的丟失。我們就需要思考在這種情況下如何實現(xiàn)精確的識別。其次是運動控制的問題。舉個例子,當我們使用工業(yè)機器人分揀抓取一個深箱里面的物體的時候,機械運動抓取上面物體的時候容易實現(xiàn),但當我們的機器人開始抓取下層物體的時候,就可能會撞到箱子甚至撞壞物體,機器很難理解空間,并學會如何繞過障礙物和根據(jù)空間和目標的姿態(tài)變化來生產(chǎn)新的運動軌跡。因此,我們需要思考如何讓人工智能理解三維空間,結合空間里的目標和之間的障礙物與運動控制的規(guī)則,并讓機器人可以實時生成最優(yōu)的運動軌跡規(guī)劃,實現(xiàn)智能化的機械操作。想要解決這些問題需要研究精細的技術解決方案,而不僅僅是一個算法、一個模型,因為其中涉及許多細節(jié)上的挑戰(zhàn)。

實際上,許多學術研究機構也在探索人工智能在物理世界的應用,但它們做的任務相對簡單,比如抓取零食、倒咖啡等。這與我們所面對的工業(yè)場景相比存在很大的差距。在工業(yè)場景中,倒水的精度肯定是不夠的,如果我們想要將兩個物體安裝在一起,通常需要達到亞毫米級別的精度。在這種級別下,光線的明暗變化、溫度的升降和地面輕微的振動等因素都會影響識別和抓取的失敗。因此,在工業(yè)領域,想要打造一個產(chǎn)品并使其可用、可交互,其中需要突破無數(shù)個技術難點和技術極限。同時,作為走在前沿的人,我們會遇到許多前人從未遇到過的問題,也很難獲得別人的開源算法。所以,工業(yè)領域的技術研究是相當艱辛的。

問:請您具體講一講,微鏈視覺AI技術具體的運用場景有哪些?

冉祥:我們大約70%到80%的技術都用于解決生產(chǎn)線上的工人問題。首先解決的是一些比較危險的情況,就像前面提到的焊接、涂膠等損害人體健康的場景,我們的目標是盡量讓工人不參與這些任務。逐步地,我們還會讓機器替代人工進行一些較重、較大物件的搬運工作。我們最終的目標是實現(xiàn)無人工廠,即逐步減少工人的參與,包括螺絲的擰緊、裝配以及物流分揀等環(huán)節(jié)。我們在其他領域也有一些拓展應用,例如,垃圾處理站的檢測、分揀和投爐焚燒發(fā)電,大件貨物的卡車裝載,具有污染排放和輻射風險場景的作業(yè),自動化的糧食種植、智能化的畜牧業(yè)養(yǎng)殖,等等。

目前我們的產(chǎn)品在某些方面還未得到廣泛應用,主要有兩個原因。第一個原因是,從客觀條件來看,在標準的工業(yè)自動化產(chǎn)品領域,我們現(xiàn)有的技術和產(chǎn)品只能解決大約30%的問題,還有70%的問題是現(xiàn)有技術無法解決的。技術是不斷進步的,所以需要年輕人去研究和突破這70%的難題。第二個原因是,有一些問題盡管現(xiàn)有技術也可以解決,但投資成本太高,在目前階段廣泛應用的成本并不劃算。但隨著技術的進步和規(guī)?;夹g價格是在下降的,成本最終也會降到非常低的水平,這時,大規(guī)模應用就會變得普遍。就像我們看到的早期電腦和手機的價格很高,只有公司、大老板才能用,而現(xiàn)在電腦和手機已經(jīng)變得非常普遍。所以,雖然現(xiàn)在存在一些限制,但我相信隨著技術的發(fā)展,我們的愿景最終將實現(xiàn)。

我認為AI進步的重要價值應該不僅僅在于提高人類社會的效率和價值,還可以解決一些我們目前無法解決的問題,如星際探索。為什么人類不能在月球、火星上建立基地?是因為那些地方?jīng)]有氧氣,不適合人類長時間生存。但如果我們的AI機器人能夠自己工作,我們就可以把機器人送上去。因為機器人只需要電能,不需要氧氣。它可以在那里建造大型建筑物,在里面建立一個封閉的生態(tài)系統(tǒng),實現(xiàn)循環(huán)的氧氣供應。這樣,我們就可以逐步解決星際探索中的難題。

問:AI發(fā)展到今天,其應用的難點是什么?

冉祥:事實上,AI已經(jīng)經(jīng)歷了多個發(fā)展階段。第一代AI主要是通過讀取大數(shù)據(jù)并預測多種可能性來應對各種情況。然后,我們通過不斷投喂數(shù)據(jù)的方式讓AI成為了所謂的“文科生”,即通過對大量數(shù)據(jù)的死記硬背,用匹配的方式應答各種問題。

然而,我認為現(xiàn)在的AI已經(jīng)從匹配開始走向理解。新一代的AI需要學會識別物體,更進一步地,AI還要理解空間,知道物體的空間位置。理解空間和匹配空間是不同的,因為匹配空間需要大量的數(shù)據(jù),比如想要識別杯子在桌子上的空間位置,這個杯子在桌面上每一個微小的變化就會產(chǎn)生一個數(shù)據(jù),那如果想定位杯子的三維位置,就需要海量的數(shù)據(jù),這是難以完全標記出來的。但我們?nèi)祟惿钤谌S空間中,如果我們想讓AI進入我們的物理世界,就必須讓它首先具備識別三維空間的能力。既然我們無法標記出所有的三維數(shù)據(jù)讓AI去匹配,那么我們就可以采用一種教“理科生”的方法來讓它理解空間。簡單來說,我們需要一個通用人工智能(Artificial General Intelligence),就是像教小孩子認識杯子一樣,我們不可能教他認識世界上的每一個杯子,我們只需要拿一個杯子告訴他,經(jīng)過幾次訓練,下次他就能夠自己識別出來。目前,通用人工智能(AGI)盡管還沒有商業(yè)化,但在實驗室中,我們的AI不要提前投喂任何新的數(shù)據(jù),他就已經(jīng)能夠識別出任何新的物體,并計算出它們在空間中的位置,你可以定義讓他做任何工作。當然,我們更愿意叫這個為微鏈DaoAI強機器人智能。因為他不僅僅是識別和理解,他還需要自主工作。

問:您認為未來AI的發(fā)展是否存在安全性的問題?

冉祥:失控的可能性存在,但從根本上來說,這是人類的問題。人工智能本質上是由人類創(chuàng)造的工具。AI目前掌握的所謂認知能力和推理能力,都是人類利用數(shù)學模型構建出來的。我們賦予它什么樣的能力,它就具備什么樣的能力。就像人類自身也受到社會馴化的影響,中國人受到儒家文化的影響,西方人受到基督教文化的影響。為什么我們無法跳脫這些影響呢?原因在于我們被一套模型所塑造,人工智能也是如此。人類是否存在殺人犯,是的,有些人失控了,變得反社會。因此人工智能也可能出現(xiàn)這種情況。

因此,我認為問題的本質仍然是人類的問題。我們現(xiàn)在需要關注的并不是如何防范人工智能,而是防范那些創(chuàng)造和控制人工智能的人。如果人工智能的進步帶來了不好的后果,那也是人類造成的,而不是人工智能本身造成的。我認為真正的風險在于人類,管理人工智能的本質是管理人類。我比較同意采取類似核武器管理的方法,建立一個人工智能保護傘組織。

問:對于AI在發(fā)展過程中數(shù)據(jù)的安全性問題,您是怎么看的?

冉祥:數(shù)據(jù)的安全問題歸根結底是利益的問題。在我們社會的基本形態(tài)中,無論是國家,還是個體、組織,都有各自的利益,因此,數(shù)據(jù)保護的核心在于保護利益。各方為了保護自身的核心數(shù)據(jù)會采取一些方法和措施,數(shù)據(jù)的安全邊界也因此而存在。AI公司的員工通常不會人為去看數(shù)據(jù),都是直接將數(shù)據(jù)投喂給AI模型去訓練,也就是說工作人員并不會知道投喂的是什么數(shù)據(jù),而且數(shù)據(jù)的流向在服務器上都是有日志的,他是受到企業(yè)嚴格監(jiān)管的,也就是任何人非法使用了數(shù)據(jù),從技術路徑上都是可以追責的。

從另一個角度來看,數(shù)據(jù)的安全性問題也可以說是一個相對的概念。隨著社會的發(fā)展和開放程度的提高,我們對數(shù)據(jù)的安全邊界也在不斷變化。同樣,工業(yè)數(shù)據(jù)也是如此。過去,工廠的生產(chǎn)線數(shù)據(jù)和視頻是不允許外泄的,但最近大眾汽車公司卻將自己的生產(chǎn)工藝視頻公開給大家觀看。類似的例子比如過去我們非常注重信息的隱私,但現(xiàn)在我們刷個短視頻,類似的視頻馬上就會涌現(xiàn)出來,它知道我們在看什么。因此,數(shù)據(jù)的安全邊界是相對的,并且隨著社會的發(fā)展和技術的進步,隱私的概念可能會進一步改變。

此外,我認為開源對于學術研究和技術進步也是非常重要的。將學術研究成果公開,可以促進學術和技術的進步,避免重復造輪子,良性地推動研究的快速迭代和創(chuàng)新。當然,企業(yè)技術的開源也是有益的,它可以幫助建立一個生態(tài)系統(tǒng),讓更多的人參與其中,推動整個行業(yè)的發(fā)展。

問:您認為未來AI會發(fā)展到什么程度?

冉祥:我認為未來人工智能的發(fā)展將極其深遠。最終,我相信人類將不需要親自去做任何事情,一切都可以由人工智能來完成。更重要的是,我預見未來所有人都會使用人工智能來處理事務,就像現(xiàn)在如果你不會使用電腦,你幾乎無法完成任何工作一樣?,F(xiàn)在的人工智能正在不斷迭代,直接的結果是我們過去十年、二十年甚至一百年、兩百年都無法突破的一些技術可能在未來的五到十年會有爆發(fā)式的突破。因此,人工智能的進步不僅僅是人工智能本身的進步,更是整個人類文明的進步,人工智能只是提供了一個讓人類文明前進的工具。

對于人們對人工智能的恐懼,他們所害怕的不是人工智能本身,而是人工智能強大工具所帶來的后果。但就像過去有了汽車,馬車夫就失業(yè)了一樣,這是人類社會文明進步的一個附帶屬性。因此,我們不應該停留在過去,而是要趕緊學習人工智能,不要一直學習騎馬,而是要學習開車。

問:是什么契機讓您選擇來到五道口金融學院深造?在這里您有哪些收獲?對于企業(yè)的發(fā)展有哪些幫助?

冉祥:在過去,我對金融和資本并不了解,因為我一直專注于實施自己的想法和愿景,對未來充滿樂觀。后來,我認識到資本能夠極大地提高效率,借助資本的力量,我們可以將原本需要花費十年時間完成的事情,在一兩年內(nèi)實現(xiàn)。我希望通過在五道口金融學院的學習,了解如何利用資本賦能來加速公司的發(fā)展。我相信除了技術壁壘之外,人才和資本也是成功的要素。

在創(chuàng)業(yè)領袖項目中,與同學們,特別是與更年輕的創(chuàng)業(yè)者的互動對我來說也非常重要。通過交流,我從他們身上學到了不同的思維方式,也開闊了自己的視野,找到了進步的關鍵點,這對我的第二次創(chuàng)業(yè)非常有幫助。

問:對于那些希望了解并應用AI技術的校友和同學,您對他們有什么建議?

冉祥:首先,對于任何技術,尤其是新技術和顛覆性創(chuàng)新技術的出現(xiàn),在社會上總是會有很多爭議和不同的觀點。但我認為,無論是哪種技術,我們都應該擁抱它。因為技術推動了人類的進步和發(fā)展。人類真正的進步不是由哲學、宗教或政治推動的,而是由技術推動的。從最早的鉆木取火到青銅器、鐵器的運用,再到蒸汽機、電氣時代,以及現(xiàn)在的信息技術和人工智能時代,我們一直處于技術不斷發(fā)展的過程中。

現(xiàn)代文明是建立在芯片和軟件之上的,我們的武器、知識、隱私、思想、工具、金錢和社交關系,都存在于芯片和軟件中。當今信息技術的發(fā)展帶來了人工智能,我們無法拒絕它,只能好好利用它。任何技術都會帶來負面影響,但這些都只是其副作用。最好的情況是,我們能夠引領技術的發(fā)展,如果無法引領,我們也應該緊跟其后,但不要成為因技術進步而被拋棄的人。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論