多模態(tài)AI崛起,2022年人工智能5大發(fā)展趨勢(shì)

丁廣輝
人工智能的語(yǔ)言模型是基于自然語(yǔ)言處理技術(shù)和算法創(chuàng)建的。比如在某一句話說(shuō)一半的時(shí)候,這個(gè)模型會(huì)根據(jù)以往記錄的實(shí)例,來(lái)推斷出這句話后面的幾個(gè)字。

隨著深度學(xué)習(xí)的開(kāi)放,人工智能在幾年中快速發(fā)展,尖端技術(shù)慢慢向普及應(yīng)用到各行各業(yè)。以下是國(guó)外一家專注于開(kāi)源和堆棧技術(shù)新聞網(wǎng)站TheNewStark盤(pán)點(diǎn)的2022年值得人們期待的五個(gè)人工智能發(fā)展趨勢(shì)。

2345截圖20211028093243.png

趨勢(shì)1:大型語(yǔ)言模型(LLMs),定義交互式人工智能的下一個(gè)浪潮

人工智能的語(yǔ)言模型是基于自然語(yǔ)言處理技術(shù)和算法創(chuàng)建的。比如在某一句話說(shuō)一半的時(shí)候,這個(gè)模型會(huì)根據(jù)以往記錄的實(shí)例,來(lái)推斷出這句話后面的幾個(gè)字??偟膩?lái)說(shuō)就是總結(jié)文本信息,甚至從純文本中創(chuàng)建視覺(jué)圖表。

大型語(yǔ)言模型(LLMs)是在包含巨大數(shù)據(jù)量的大規(guī)模數(shù)據(jù)集上訓(xùn)練的。像是Google的BERT和OpenAI的GPT-2和GPT-3就是LLMs很好的例子。據(jù)了解,GPT-3中約有1750億個(gè)參數(shù),在570千兆字節(jié)的文本上進(jìn)行訓(xùn)練。這些模型生成的東西可以從簡(jiǎn)單的文章到復(fù)雜的金融模型。現(xiàn)如今,包括OpenAI、Hugging Face、Cohere、AI21 Labs以及AI12在內(nèi)的人工智能初創(chuàng)公司,正在通過(guò)訓(xùn)練具有數(shù)十億參數(shù)的模型來(lái)推動(dòng)LLMs的發(fā)展。

韓國(guó)一家叫做Naver的公司宣布,它已經(jīng)建立了最全面的基于人工智能的語(yǔ)言模型之——HyperCLOVA,一個(gè)類似于GPT-3的韓語(yǔ)模型。與上述模型不同的是,華為的PanGu-Alpha以及百度的Ernie 3.0 Titan則是在由電子書(shū)、百科全書(shū)和社交媒體組成的海量中文數(shù)據(jù)集上進(jìn)行訓(xùn)練的。

在2022年,我們將看到大型語(yǔ)言模型成為下一代交互式人工智能工具的基礎(chǔ)模型。

趨勢(shì)2:多模態(tài)人工智能的崛起

“模態(tài)”(Modality)是德國(guó)理學(xué)家赫爾姆霍茨提出的一種生物學(xué)概念,即生物憑借感知器官與經(jīng)驗(yàn)來(lái)接收信息的通道,如人類有視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、味覺(jué)和嗅覺(jué)模態(tài)。多模態(tài)是指將多種感官進(jìn)行融合,而多模態(tài)交互是指人通過(guò)聲音、肢體語(yǔ)言、信息載體(文字、圖片、音頻、視頻)、環(huán)境等多個(gè)通道與計(jì)算機(jī)進(jìn)行交流,充分模擬人與人之間的交互方式。

傳統(tǒng)的深度學(xué)習(xí)算法專注于從一個(gè)單一的數(shù)據(jù)源訓(xùn)練其模型。例如,計(jì)算機(jī)視覺(jué)模型是在一組圖像上訓(xùn)練的,NLP模型是在文本內(nèi)容上訓(xùn)練的,語(yǔ)音處理則涉及聲學(xué)模型的創(chuàng)建、喚醒詞檢測(cè)和噪音消除。這種類型的機(jī)器學(xué)習(xí)與單模態(tài)人工智能有關(guān),其結(jié)果都被映射到一個(gè)單一的數(shù)據(jù)類型來(lái)源。而多模態(tài)人工智能是計(jì)算機(jī)視覺(jué)和交互式人工智能智能模型的最終融合,為計(jì)算器提供更接近于人類感知的場(chǎng)景。

多模態(tài)人工智能的最新例子是OpenAI的DALL-E,該模型使用藝術(shù)家薩爾瓦多-達(dá)利和皮克斯的瓦力的諧音來(lái)命名。它可以從文本描述中生成對(duì)應(yīng)圖像。例如,當(dāng)文本描述為"一個(gè)甜甜圈形狀的時(shí)鐘"被發(fā)送到該模型時(shí),它就可以生成以下圖像。

2345截圖20211028093243.png

圖片來(lái)源TheNewStark

谷歌的多任務(wù)統(tǒng)一模型(MUM)是多模態(tài)人工智能的另一個(gè)例子。它承諾通過(guò)從75種不同語(yǔ)言中挖掘出的上下文信息對(duì)用戶搜索結(jié)果進(jìn)行優(yōu)先排序,從而提高用戶的搜索體驗(yàn)。MUM使用T5文本到文本框架,比BERT中流行的基于變換器的自然語(yǔ)言處理模型要強(qiáng)大1000倍。

英偉達(dá)的GauGAN2模型則將根據(jù)簡(jiǎn)單的文本輸入生成照片般逼真的圖像。它在一個(gè)單一的模型中結(jié)合了分割映射、內(nèi)畫(huà)和文本到圖像的生成,使其成為一個(gè)強(qiáng)大的多模態(tài)工具,可以用文字和圖畫(huà)的混合來(lái)創(chuàng)造逼真的藝術(shù)。

在不遠(yuǎn)的未來(lái)我們就可以見(jiàn)到計(jì)算機(jī)視覺(jué)、語(yǔ)言以及語(yǔ)音模型的融合,這使得人工智能更豐富,更自然逼真。

趨勢(shì)3:簡(jiǎn)化和精簡(jiǎn)MLOps

機(jī)器學(xué)習(xí)操作(MLOps),是一個(gè)將機(jī)器學(xué)習(xí)投入到工業(yè)生產(chǎn)中的實(shí)踐,是機(jī)器學(xué)習(xí)和DevOPs在軟件領(lǐng)域交叉的產(chǎn)物,所以它在許多方面與2012年的DevOps相似。在2012年DevOps上線的時(shí)候,許多企業(yè)就意識(shí)到了它的價(jià)值,但是他們?cè)趯?shí)施DevOps的時(shí)候很困難,工具鏈非常復(fù)雜,生態(tài)系統(tǒng)也不夠完善。而MLOps相比來(lái)說(shuō)更加復(fù)雜,它的軟件包包括安裝、配置訓(xùn)練、推理基礎(chǔ)設(shè)施、配置特征存儲(chǔ)、配置模型注冊(cè)表、監(jiān)控模型的衰減以及檢測(cè)模型漂移等所有的相關(guān)內(nèi)容。其龐大的軟件包也導(dǎo)致MLOps的部署比DevOps還困難。

MLOps是被納入基于云計(jì)算的ML平臺(tái)的概念之一,平臺(tái)包括如亞馬遜網(wǎng)絡(luò)服務(wù)的Amazon SageMaker,Azure ML,以及谷歌的Vertex AI。然而,它所擁有的這些能力卻不能用于混合和邊緣計(jì)算這兩個(gè)環(huán)境。因此,監(jiān)測(cè)邊緣計(jì)算的環(huán)境模型被證明是企業(yè)要面臨的一個(gè)重大挑戰(zhàn)。在處理計(jì)算機(jī)視覺(jué)系統(tǒng)和交互式人工智能系統(tǒng)時(shí),創(chuàng)建一個(gè)為其服務(wù)的監(jiān)測(cè)邊緣計(jì)算的模型就變得更加具有挑戰(zhàn)性。

隨著Kubeflow和MLflow等開(kāi)源項(xiàng)目的逐漸成熟,MLOps其實(shí)已經(jīng)很容易就能獲取到。在未來(lái)幾年我們或許可以看到一個(gè)精簡(jiǎn)和簡(jiǎn)化的MLOps方法橫跨云領(lǐng)域和邊緣計(jì)算環(huán)境。

趨勢(shì)4:AI驅(qū)動(dòng)的開(kāi)發(fā)者生產(chǎn)力

在未來(lái),人工智能幾乎會(huì)影響到IT行業(yè)的每個(gè)方面,包括編程和開(kāi)發(fā)。在過(guò)去的幾年里,我們已經(jīng)看到了諸如亞馬遜代碼大師這樣的工具,該產(chǎn)品會(huì)在開(kāi)發(fā)者編程時(shí),為其提供智能建議,以提高代碼質(zhì)量,并識(shí)別出應(yīng)用程序中最重要的代碼行。就在最近,Github Copilot作為一個(gè)"人工智能配對(duì)程序員"首次亮相,協(xié)助開(kāi)發(fā)人員編寫(xiě)高效的代碼。而Salesforce的研究團(tuán)隊(duì)也推出了CodeT5,這是一個(gè)開(kāi)源項(xiàng)目,將幫助Apex開(kāi)發(fā)人員進(jìn)行由人工智能驅(qū)動(dòng)的編碼。Tabnine,即以前的Codata,將智能代碼完全帶到了主流開(kāi)發(fā)環(huán)境。Ponicode也是一個(gè)AI驅(qū)動(dòng)的工具,可以提供函數(shù)創(chuàng)建、可視化和運(yùn)行單元測(cè)試的快捷方式。

2345截圖20211028093243.png

圖片來(lái)源TheNewStark

大型語(yǔ)言模型(LLMs)的興起和開(kāi)源代碼更廣泛的可用性,使IDE供應(yīng)商能夠再其基礎(chǔ)上建立智能代碼生成和分析系統(tǒng)。

展望未來(lái),人們期望看到能夠從內(nèi)聯(lián)注釋中生成高質(zhì)量和緊湊代碼的工具。它們甚至能夠從一種語(yǔ)言編寫(xiě)的代碼翻譯成另一種語(yǔ)言,通過(guò)將傳統(tǒng)代碼轉(zhuǎn)換為現(xiàn)代語(yǔ)言來(lái)實(shí)現(xiàn)應(yīng)用程序的現(xiàn)代化。

趨勢(shì)5:云平臺(tái)新的垂直化人工智能解決方案

世界領(lǐng)先的人工智能供應(yīng)商,包括亞馬遜、谷歌和微軟,都正專注于將研究和開(kāi)發(fā)工作商業(yè)化。他們通過(guò)旗下的云平臺(tái)提供托管服務(wù),并建立硬件設(shè)備,配備人工智能加速器和針對(duì)特定場(chǎng)景的預(yù)訓(xùn)練模型。

亞馬遜連接和谷歌聯(lián)絡(luò)中心AI是垂直整合的典型例子。兩者都利用機(jī)器學(xué)習(xí)能力來(lái)執(zhí)行智能路由,由機(jī)器人驅(qū)動(dòng)的客服對(duì)話,以及對(duì)聯(lián)絡(luò)中心代理商的自動(dòng)協(xié)助。AWS Panorama可以連接到現(xiàn)有的IP攝像機(jī),以此來(lái)執(zhí)行基于計(jì)算機(jī)視覺(jué)的推理。客戶可以在其云平臺(tái)訓(xùn)練新的模型,并將它們部署在全景設(shè)備的邊緣。Azure Percept采用了類似的方法,在邊緣提供計(jì)算機(jī)視覺(jué)模型和交互式人工智能。微軟基于Azure上現(xiàn)有的物聯(lián)網(wǎng)、人工智能和邊緣計(jì)算服務(wù)建立了Percept。

最后,亞馬遜Lookout for Equipment和谷歌Cloud Visual Inspection AI等服務(wù),利用基于云的人工智能平臺(tái),對(duì)設(shè)備進(jìn)行預(yù)測(cè)性維護(hù)和產(chǎn)品的異常檢測(cè)。這些服務(wù)是專為零售和制造業(yè)定制的。

在2022年,我們將看到人工智能平臺(tái)和云供應(yīng)商利用前沿研究技術(shù)和現(xiàn)有的管理服務(wù),提供針對(duì)特定的例子和場(chǎng)景的解決方案。

參考鏈接:https://thenewstack.io/5-ai-trends-to-watch-out-for-in-2022/

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論