AI大模型百舸爭(zhēng)流 數(shù)據(jù)質(zhì)量決勝負(fù)

當(dāng)模型規(guī)模較小時(shí),模型的性能和參數(shù)大致符合比例定律,即模型的性能提升和參數(shù)增長(zhǎng)基本呈線(xiàn)性關(guān)系。然而,當(dāng)GPT-3/ChatGPT這種千億級(jí)別的大規(guī)模模型被提出后,人們發(fā)現(xiàn)其可以打破比例定律,實(shí)現(xiàn)模型能力質(zhì)的飛躍。這些能力也被稱(chēng)為大模型的“涌現(xiàn)能力”。

本文來(lái)自微信公眾號(hào)“人民中科研究院”,作者/任軻正。

ChatGPT在全球掀起熱潮以來(lái),國(guó)內(nèi)已有多家公司發(fā)布或?qū)l(fā)布自己的大模型,據(jù)統(tǒng)計(jì),國(guó)內(nèi)目前已有超30個(gè)大模型亮相。既有阿里巴巴、百度、京東、華為等互聯(lián)網(wǎng)或科技大廠(chǎng),也有以商湯為代表的AI公司,以及備受矚目的初創(chuàng)企業(yè),比如王慧文的光年之外,王小川的百川智能等。

所以有人說(shuō),“最近大模型的涌現(xiàn),比大模型能力的「涌現(xiàn)」都要快。”

1

什么是大模型的涌現(xiàn)能力

復(fù)雜系統(tǒng)學(xué)科里已經(jīng)對(duì)涌現(xiàn)現(xiàn)象做過(guò)很久的相關(guān)研究。當(dāng)一個(gè)復(fù)雜系統(tǒng)由很多微小個(gè)體構(gòu)成,這些微小個(gè)體湊到一起,相互作用,當(dāng)數(shù)量足夠多時(shí),在宏觀層面上展現(xiàn)出微觀個(gè)體無(wú)法解釋的特殊現(xiàn)象,就可以稱(chēng)之為“涌現(xiàn)現(xiàn)象”。

在日常生活中也有一些涌現(xiàn)現(xiàn)象,比如雪花的形成、堵車(chē)、動(dòng)物遷徙、渦流形成等。這里以雪花為例來(lái)解釋?zhuān)貉┗ǖ臉?gòu)成是水分子,水分子很小,但是大量的水分子如果在外界溫度條件變化的前提下相互作用,在宏觀層面就會(huì)形成一個(gè)很規(guī)律、很對(duì)稱(chēng)、很美麗的雪花。

360截圖16251112669372.png

涌現(xiàn)放在大模型的語(yǔ)境里,指的是模型在突破某個(gè)規(guī)模時(shí),出現(xiàn)了意想不到的能力。

復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS系統(tǒng)負(fù)責(zé)人邱錫鵬在接受媒體采訪(fǎng)時(shí)表示,ChatGPT的革命性體現(xiàn)在大模型的“涌現(xiàn)能力”上。據(jù)悉,在訓(xùn)練計(jì)算量大概在10的22次方之后,模型能力會(huì)完成從量變到質(zhì)變的飛躍,呈現(xiàn)出驚人的爆發(fā)式增長(zhǎng)。

當(dāng)模型規(guī)模較小時(shí),模型的性能和參數(shù)大致符合比例定律,即模型的性能提升和參數(shù)增長(zhǎng)基本呈線(xiàn)性關(guān)系。然而,當(dāng)GPT-3/ChatGPT這種千億級(jí)別的大規(guī)模模型被提出后,人們發(fā)現(xiàn)其可以打破比例定律,實(shí)現(xiàn)模型能力質(zhì)的飛躍。這些能力也被稱(chēng)為大模型的“涌現(xiàn)能力”。

360截圖16251112669372.png

大語(yǔ)言模型參數(shù)增長(zhǎng)示意圖

涌現(xiàn)能力的背后,則進(jìn)一步隱含著三個(gè)非常重要的技術(shù):情景學(xué)習(xí)、思維鏈和指令學(xué)習(xí),這也是ChatGPT得以在人工智能領(lǐng)域叱咤風(fēng)云的關(guān)鍵原因。

情景學(xué)習(xí)深刻改變了傳統(tǒng)機(jī)器學(xué)習(xí)的范式,只需要通過(guò)一系列精心設(shè)計(jì)的提示語(yǔ)句(Prompt),對(duì)任務(wù)進(jìn)行詳細(xì)描述,然后再輔以一些情景例子,就能夠讓模型參考著既定例子完成特定任務(wù)。

思維鏈則使得模型具有了推理的能力,讓本來(lái)模型不會(huì)解的一個(gè)個(gè)復(fù)雜問(wèn)題,分解成很多簡(jiǎn)單問(wèn)題,然后通過(guò)逐一解決簡(jiǎn)單問(wèn)題,最終使得復(fù)雜問(wèn)題同樣迎刃而解。

指令學(xué)習(xí)則使模型能夠理解并執(zhí)行各種自然語(yǔ)言指令,將任務(wù)指令化以便機(jī)器理解。人類(lèi)只需要在少量的任務(wù)上進(jìn)行指令化,在經(jīng)歷大概40多個(gè)任務(wù)指令化之后,對(duì)模型進(jìn)行適度微調(diào),就很容易泛化到上百、上千種任務(wù),即使它從來(lái)沒(méi)有見(jiàn)過(guò)。

360截圖16251112669372.png

2

大模型進(jìn)化加速,高質(zhì)量數(shù)據(jù)成差異化競(jìng)爭(zhēng)關(guān)鍵

大模型競(jìng)相綻放還反映了一個(gè)信息:至少?gòu)谋砻嫔峡?,大模型不再稀缺。?shù)據(jù)、算法、算力是AI能力三要素。AI大模型包含“預(yù)訓(xùn)練”和“大模型”兩層含義,大數(shù)據(jù)是其“隱式知識(shí)庫(kù)”。數(shù)據(jù)是AI大模型輸入的源頭和輸出的結(jié)果,貫穿人工智能的整個(gè)生命周期,而算力則是訓(xùn)練模型的關(guān)鍵基礎(chǔ)設(shè)施之一,為其快速發(fā)展提供堅(jiān)實(shí)支撐。

“有大模型”不難,難的是“有一個(gè)能持續(xù)迭代,性能不斷提升的優(yōu)質(zhì)大模型”。一些觀點(diǎn)也提到,決定大模型發(fā)展的關(guān)鍵要素是高質(zhì)量數(shù)據(jù),尤其是在大模型“百花齊放”的背景下,數(shù)據(jù)是“勝負(fù)手”。

360截圖16251112669372.png

就國(guó)內(nèi)數(shù)據(jù)市場(chǎng)而言,據(jù)國(guó)家發(fā)改委官方批露,我國(guó)政府?dāng)?shù)據(jù)資源占全國(guó)數(shù)據(jù)資源的比重超過(guò)3/4,但開(kāi)放規(guī)模不足美國(guó)的10%,個(gè)人和企業(yè)可以利用的規(guī)模更是不及美國(guó)的7%。因此,加強(qiáng)公共數(shù)據(jù)的開(kāi)放開(kāi)發(fā),是當(dāng)前急需落實(shí)的核心問(wèn)題,而國(guó)家數(shù)據(jù)局的組建有望從數(shù)據(jù)源頭加快重要政務(wù)部門(mén)、重點(diǎn)關(guān)鍵行業(yè)的數(shù)據(jù)分類(lèi)、確權(quán)進(jìn)程。

此外AIGC算法日新月異,更加證明數(shù)據(jù)要素在當(dāng)今的重要性。有分析指出,Meta發(fā)布基礎(chǔ)模型SAM并開(kāi)源。SAM已在1100萬(wàn)張圖片和11億個(gè)掩碼的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,具有超強(qiáng)的自動(dòng)識(shí)別、切割功能。SAM使用的1100萬(wàn)張圖片訓(xùn)練集僅是一個(gè)開(kāi)始,未來(lái)隨著用戶(hù)數(shù)量增加,SAM的圖片訓(xùn)練量和分割掩碼體量會(huì)呈指數(shù)級(jí)增長(zhǎng),因此數(shù)據(jù)要素的價(jià)值應(yīng)得到持續(xù)關(guān)注。

360截圖16251112669372.png

3

我國(guó)數(shù)據(jù)要素市場(chǎng)體系已初步形成

近期,國(guó)內(nèi)多地政府頻出數(shù)據(jù)政策,加速數(shù)字化建設(shè)。同時(shí),多地?cái)?shù)據(jù)交易所動(dòng)作頻頻。

4月4日,廣州數(shù)據(jù)交易所通過(guò)建設(shè)算力發(fā)布共享平臺(tái),推動(dòng)算力一體化協(xié)同,賦能數(shù)字經(jīng)濟(jì)發(fā)展,積極融入國(guó)家東數(shù)西算工程全國(guó)一體化算力布局。廣州數(shù)據(jù)交易所即將推出的算力發(fā)布共享平臺(tái),是國(guó)內(nèi)首個(gè)“1+1”場(chǎng)景式算力資源類(lèi)平臺(tái)。

4月3日,《2023年河南省大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作方案》印發(fā),其中提到,今年?duì)巹?chuàng)5個(gè)以上國(guó)家級(jí)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展試點(diǎn)示范項(xiàng)目,支持鄭州數(shù)據(jù)交易中心創(chuàng)建國(guó)家級(jí)數(shù)據(jù)交易場(chǎng)所。

早前,貴州省大數(shù)據(jù)發(fā)展管理局發(fā)布《關(guān)于印發(fā)面向全國(guó)的算力保障基地建設(shè)規(guī)劃的通知》。其中提到,大數(shù)據(jù)交易市場(chǎng)規(guī)模從目前的3億元要提高至2025年的100億元,增幅達(dá)到32倍。

360截圖16251112669372.png

目前,我國(guó)數(shù)據(jù)要素市場(chǎng)體系已經(jīng)初步形成。國(guó)家工業(yè)信息安全發(fā)展研究中心發(fā)布的《2022年數(shù)據(jù)交易平臺(tái)發(fā)展白皮書(shū)》顯示,截至2022年8月,全國(guó)已成立44家數(shù)據(jù)交易機(jī)構(gòu),平臺(tái)的注冊(cè)資本多數(shù)介于5000萬(wàn)元至1億元之間。

綜合來(lái)看,在政策的大力推動(dòng)和各方面參與者的不懈努力下,我國(guó)數(shù)據(jù)要素市場(chǎng)體系已經(jīng)初步形成。另一方面,我國(guó)的數(shù)據(jù)要素市場(chǎng)正處于蓬勃發(fā)展過(guò)程中,同時(shí)也面臨數(shù)據(jù)確權(quán)、數(shù)據(jù)分類(lèi)分級(jí)、數(shù)據(jù)流通交易過(guò)程的安全保障、數(shù)據(jù)流通交易機(jī)制等挑戰(zhàn)。隨著我國(guó)數(shù)據(jù)要素產(chǎn)業(yè)法律法規(guī)、行業(yè)標(biāo)準(zhǔn)持續(xù)完善,數(shù)據(jù)交易所數(shù)量的持續(xù)擴(kuò)容,數(shù)據(jù)要素產(chǎn)業(yè)發(fā)展有望加速。

責(zé)編:岳青植

監(jiān)制:李紅梅

文章參考:

1.《專(zhuān)訪(fǎng)復(fù)旦大學(xué)MOSS系統(tǒng)負(fù)責(zé)人邱錫鵬:ChatGPT的革命性體現(xiàn)在大模型的“涌現(xiàn)能力”》21世紀(jì)經(jīng)濟(jì)報(bào)道

2.《大語(yǔ)言模型密集涌現(xiàn),專(zhuān)家認(rèn)為:人工智能永遠(yuǎn)不會(huì)跟人的智能畫(huà)等號(hào)》科技日?qǐng)?bào)

3.《國(guó)產(chǎn)大模型扎堆發(fā)布業(yè)內(nèi):數(shù)據(jù)將成為差異化競(jìng)爭(zhēng)關(guān)鍵》第一財(cái)經(jīng)

4.《ChatGPT浪潮下,看中國(guó)大語(yǔ)言模型產(chǎn)業(yè)發(fā)展》艾瑞咨詢(xún)

5.《ChatGPT類(lèi)大語(yǔ)言模型為什么會(huì)帶來(lái)“神奇”的涌現(xiàn)能力?》CSDN

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論