機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)“智源指數(shù)”發(fā)布, AI大模型有了評(píng)測(cè)新基準(zhǔn)

劉燕
人工智能大模型時(shí)代,評(píng)測(cè)基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。從扁平到全面系統(tǒng),從簡(jiǎn)化到多重維度,智源指數(shù)CUGE旨在嘗試為大模型評(píng)測(cè)設(shè)計(jì)一張全面評(píng)估綜合能力的“新考卷”。

近日,北京智源人工智能研究院(以下簡(jiǎn)稱“智源研究院”)在自然語言處理重大研究方向前沿技術(shù)開放日活動(dòng)上發(fā)布了大模型評(píng)測(cè)的“命題”新方案——智源指數(shù)(CUGE)。

“如果說自然語言處理是人工智能皇冠上的一顆明珠,建立科學(xué)的評(píng)價(jià)標(biāo)準(zhǔn)就需要尋找這顆明珠的本身,如果方向錯(cuò)了,走的越遠(yuǎn),偏離越多,很有可能就找不到。近十年里,自然語言處理突飛猛進(jìn),特別是超大規(guī)模預(yù)訓(xùn)練語言模型等技術(shù)的突破,英文語言能力評(píng)價(jià)基準(zhǔn)發(fā)揮了至關(guān)重要的指引作用”,中國(guó)工程院院士、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)、清華大學(xué)教授戴瓊海院士表示,“如今,智源NLP學(xué)者共同建立機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)智源指數(shù),對(duì)于中文信息處理乃至我國(guó)人工智能發(fā)展都具有重要的里程碑意義”。

大模型評(píng)測(cè)“命題”新方案

清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)詳細(xì)介紹了智源指數(shù)構(gòu)建背后的思考和具體設(shè)計(jì)方案。

為什么推出智源指數(shù)CUGE?

自然語言處理是通過圖靈測(cè)試實(shí)現(xiàn)人工智能的關(guān)鍵,如何評(píng)判一臺(tái)計(jì)算機(jī)的語言能力,需要有科學(xué)的評(píng)價(jià)體系。如今自然語言處理的任務(wù)眾多,如何從這些任務(wù)中篩選出、建立起科學(xué)有效的評(píng)價(jià)體系非常重要。

特別是最近這三年,預(yù)訓(xùn)練模型能夠通過自監(jiān)督學(xué)習(xí)的方式,習(xí)得通用的語言能力,意味著人工智能和自然語言處理有了新的發(fā)展范式。面向具有通用語言能力的預(yù)訓(xùn)練模型,如何全面準(zhǔn)確的對(duì)它進(jìn)行評(píng)價(jià),也需要有科學(xué)有效的評(píng)價(jià)體系。

基于這樣的考慮,智源研究院自然語言處理(NLP)重大研究方向的學(xué)者團(tuán)隊(duì)推出了智源指數(shù)CUGE(Chinese Language Enderstanding and Generation Evaluation)。

兩大特色

人工智能大模型時(shí)代,評(píng)測(cè)基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。從扁平到全面系統(tǒng),從簡(jiǎn)化到多重維度,智源指數(shù)CUGE旨在嘗試為大模型評(píng)測(cè)設(shè)計(jì)一張全面評(píng)估綜合能力的“新考卷”。

劉知遠(yuǎn)教授介紹,智源指數(shù)有兩個(gè)特色,一是建立了全面、系統(tǒng)的評(píng)測(cè)體系;二是在這個(gè)體系的基礎(chǔ)上建立了多層次、多維度的評(píng)測(cè)方案。

在基準(zhǔn)框架上,不同于傳統(tǒng)將常用數(shù)據(jù)集扁平組織的方式,智源指數(shù)根據(jù)人類語言考試大綱和當(dāng)前NLP研究現(xiàn)狀,以語言能力-任務(wù)-數(shù)據(jù)集的分層框架來選擇和組織數(shù)據(jù)集,涵蓋7種重要的語言能力、17個(gè)主流NLP任務(wù)和19個(gè)代表性數(shù)據(jù)集,通過不同的能力、不同的任務(wù)以及不同的數(shù)據(jù)集,希望能全面均衡地對(duì)機(jī)器中文語言能力做評(píng)測(cè)。

在評(píng)分策略上,智源指數(shù)能更好展現(xiàn)模型不同維度的模型語言智能差異,依托層次性基準(zhǔn)框架,提供不同層次的模型性能評(píng)分,包括在數(shù)據(jù)集、任務(wù)和語言能力等,系統(tǒng)性大大加強(qiáng)。

智源指數(shù)所覆蓋的數(shù)據(jù)集達(dá)到了近20個(gè),任務(wù)體系龐大。為了更好的讓更多單位、機(jī)構(gòu)在智源平臺(tái)開展相關(guān)評(píng)測(cè),智源NLP學(xué)者團(tuán)隊(duì)選擇了各語言能力下更具有代表性的任務(wù)和數(shù)據(jù)集,構(gòu)建了一個(gè)智源指數(shù)的精簡(jiǎn)榜,這樣可以更方便、快捷的評(píng)估模型的能力。參與者既可以用綜合榜也也可以用精簡(jiǎn)榜。

本次活動(dòng)還同時(shí)發(fā)布了在線評(píng)測(cè)平臺(tái)和公開排行榜,支持多種展示模式,包含綜合榜、精簡(jiǎn)榜和單數(shù)據(jù)集榜,方便用戶快速多角度了解模型和數(shù)據(jù)集特性及最新動(dòng)態(tài)。

與GLUE等評(píng)估基準(zhǔn)的區(qū)別

GLUE是業(yè)內(nèi)公認(rèn)的最具權(quán)威的語言理解評(píng)測(cè)基準(zhǔn)之一。2018年以來,伴隨著預(yù)訓(xùn)練大模型的爆發(fā),GLUE、SuperGLUE等成為現(xiàn)在語言大模型評(píng)測(cè)的主要基準(zhǔn)。

劉知遠(yuǎn)教授表示,現(xiàn)在在中文的世界,面向中文的自然語言處理,缺少一個(gè)比較科學(xué)有效、全面的評(píng)測(cè)基準(zhǔn)。國(guó)內(nèi)很多公司關(guān)注CUGE,但CUGE里包含的數(shù)據(jù)集,它所覆蓋的能力以及數(shù)據(jù)集的質(zhì)量,還有待于商榷。

智源NLP學(xué)者團(tuán)隊(duì)認(rèn)為,需要從學(xué)術(shù)界的視角更科學(xué)有效的構(gòu)建出一個(gè)評(píng)測(cè)體系,通過這種方式更好的指引中文預(yù)訓(xùn)練模型包括大模型發(fā)展的方向。

“我們希望把機(jī)器要掌握的語言能力,包括的緯度,從這個(gè)角度劃分,確定每個(gè)能力對(duì)應(yīng)的任務(wù)以及對(duì)應(yīng)的數(shù)據(jù)集。這樣在選擇上更均衡一些,更有效的反映大模型在不同語言能力上的表現(xiàn),以及進(jìn)一步努力的方向”,劉知遠(yuǎn)教授說。

與其他評(píng)估基準(zhǔn)相比,CUGE的另一個(gè)特點(diǎn)是更加開放,希望并支持全國(guó)乃至全世界做中文自然語言數(shù)據(jù)的機(jī)構(gòu)智源指數(shù)的平臺(tái)上發(fā)布數(shù)據(jù)集,且能為其提供單數(shù)據(jù)集評(píng)測(cè)的支持,包括組織比賽等。希望結(jié)合行業(yè)的力量,共建智源指數(shù)。

在智源指數(shù)評(píng)測(cè)方案上,智源NLP學(xué)者團(tuán)隊(duì)參考了現(xiàn)有評(píng)測(cè)方案的優(yōu)點(diǎn)和缺點(diǎn),構(gòu)建出了一個(gè)多層次的評(píng)測(cè)方案。即依托于智源指數(shù),從能力-任務(wù)-數(shù)據(jù)集層次性的體系,向上逐層匯總模型相應(yīng)得分,反映模型或者是機(jī)器語言能力在不同方面的效果。此外,在這個(gè)過程中會(huì)以一些代表性的基線模型的得分作為基準(zhǔn),去規(guī)劃不同任務(wù)下評(píng)測(cè)指標(biāo)的特點(diǎn),確保不同的能力互相之間在加合時(shí)是均衡的,有助于建立起機(jī)器語言能力在不同維度的效果評(píng)估。

智源指數(shù)還會(huì)提供一個(gè)參與者模型的性能排行榜。這個(gè)排行榜在設(shè)計(jì)時(shí),也在充分吸收了國(guó)內(nèi)外相關(guān)評(píng)測(cè)基準(zhǔn)的特點(diǎn)的基礎(chǔ)上,構(gòu)建出了以下特色設(shè)計(jì):

首先,排行榜會(huì)基于能力、任務(wù)和數(shù)據(jù)集的體系給每一個(gè)數(shù)據(jù)集所對(duì)應(yīng)的標(biāo)簽。例如,某個(gè)數(shù)據(jù)集隸屬于哪一個(gè)語言能力,哪一個(gè)任務(wù)...未來還會(huì)標(biāo)注出難度、效果和信度等相關(guān)標(biāo)簽,從而方便參與者篩選出感興趣的能力或角度去進(jìn)行相應(yīng)的評(píng)測(cè)。

第二,基于標(biāo)簽體系,支持參與者通過標(biāo)簽篩選的方式定制排行榜。同時(shí),官方也會(huì)提供若干代表推薦套餐,如精簡(jiǎn)榜等,方便讓參與者開展有針對(duì)性的能力評(píng)測(cè)。

第三,根據(jù)所研制的7種能力進(jìn)行能力呈現(xiàn)的雷達(dá)圖。這個(gè)雷達(dá)圖能較直觀的讓參與者認(rèn)識(shí)到不同的模型在不同能力上提升的效果,以及未來努力的方向。

第四,平臺(tái)同時(shí)會(huì)支持單數(shù)據(jù)集的排行榜和評(píng)測(cè),能更加有利于參與者追蹤數(shù)據(jù)集研究的進(jìn)展和動(dòng)態(tài)。也就是說,任何一個(gè)單個(gè)數(shù)據(jù)集,也可以看到相關(guān)評(píng)測(cè)效果的榜單。

劉知遠(yuǎn)教授表示,基于單數(shù)據(jù)集的榜單能力,未來智源指數(shù)將定期吸納最新優(yōu)秀數(shù)據(jù)集。

強(qiáng)調(diào)誠信,控制刷榜問題

現(xiàn)在很多榜單被各大玩家不斷“刷分”。但刷分、刷榜往往容易帶來一些問題。例如谷歌近期在一篇文章中指出,現(xiàn)有的Benchmark不能做到對(duì)模型的公平性評(píng)估,更多的是在某些特定的任務(wù)上刷分?jǐn)?shù)。

對(duì)此,劉知遠(yuǎn)教授認(rèn)為,應(yīng)當(dāng)辯證地看待這個(gè)問題,面對(duì)過去,Benchmark發(fā)揮了重要的作用,它指引這些模型發(fā)展到現(xiàn)在的狀態(tài),但再往下發(fā)展,Benchmark里面包含的數(shù)據(jù)集,如果長(zhǎng)時(shí)間一成不變,的確指引的作用會(huì)越來越小。因?yàn)樵降桨l(fā)展后期,“內(nèi)卷”往往越嚴(yán)重,例如,CLUE,現(xiàn)在已經(jīng)刷到比人的水平還高出很多,這并不意味著機(jī)器比一定比人強(qiáng),只是在有限的幾個(gè)采樣上,機(jī)器表達(dá)能力很強(qiáng)而已。

為緩解“刷分”問題,智源指數(shù)作了一些特別設(shè)計(jì)。

劉知遠(yuǎn)教授表示,CUGE特別強(qiáng)調(diào)“未來持續(xù)改進(jìn)性”。“CUGE會(huì)不斷更新,每年會(huì)更新新的數(shù)據(jù)集,避免大家把精力都放在某幾個(gè)數(shù)據(jù)集上,把時(shí)間用偏在別的地方。這就跟大學(xué)里考試一樣,雖說很多學(xué)生會(huì)為了期末考試做針對(duì)性復(fù)習(xí),但平時(shí)的學(xué)習(xí)也很重要,主要精力應(yīng)該放在對(duì)學(xué)業(yè)本身的掌握和改進(jìn)上,這是智源指數(shù)想要做到的狀態(tài)”。

此外,智源指數(shù)還特別強(qiáng)調(diào)評(píng)測(cè)過程中的誠信,要求所有的提交者必須填寫Honor Code并展示,鼓勵(lì)用戶誠信,不人工干預(yù)數(shù)據(jù)預(yù)訓(xùn)練和測(cè)試過程,讓模型真正反映學(xué)習(xí)算法和數(shù)據(jù)體現(xiàn)出來的威力。

劉知遠(yuǎn)教授表示,未來還將依托智源研究院、智源社區(qū)的力量,建立用戶面向數(shù)據(jù)集和評(píng)測(cè)結(jié)果的反饋、討論機(jī)制,通過交互交流構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū),推動(dòng)中文自然語言處理的發(fā)展。

成立智源指數(shù)委員會(huì)

為了更好地支持智源指數(shù)未來的發(fā)展,在智源研究院的支持下,搭起了依托于現(xiàn)有的自然語言處理學(xué)者團(tuán)隊(duì),還構(gòu)建了一個(gè)智源指數(shù)工作委員會(huì)。

據(jù)悉,委員單位目前已經(jīng)吸納了國(guó)內(nèi)在自然語言處理方面10余家優(yōu)勢(shì)單位,接近20個(gè)相關(guān)優(yōu)勢(shì)研究組,針對(duì)智源指數(shù)不斷進(jìn)行改進(jìn)。

智源指數(shù)工作委員會(huì)未來的職責(zé)主要包括智源指數(shù)研發(fā)、構(gòu)建、發(fā)布、吸引新的數(shù)據(jù)集、評(píng)測(cè)網(wǎng)站的維護(hù)和更新工作等。

智源委員會(huì)明年將持續(xù)完善智源指數(shù)。劉知遠(yuǎn)教授透露,預(yù)計(jì)會(huì)在明年的智源大會(huì)上發(fā)布新版智源指數(shù)平臺(tái)。

智源NLP研究方向10余項(xiàng)成果落地

自然語言處理(NLP)是智源重大學(xué)術(shù)研究方向之一,由清華大學(xué)孫茂松教授任該方向首席科學(xué)家,北京語言大學(xué)楊爾弘教授任項(xiàng)目經(jīng)理,學(xué)者包括李涓子、穗志方、劉洋、萬小軍、何曉冬,青年科學(xué)家包括劉知遠(yuǎn)教授、韓先培、孫栩、嚴(yán)睿、張家俊、趙鑫、楊植麟、李紀(jì)為等。

除“智源指數(shù)”外,本次開放日活動(dòng)還進(jìn)行了“自然語言處理評(píng)測(cè)中的問題與對(duì)策”“邁向通用連續(xù)型知識(shí)庫”“文本復(fù)述生成”等研究成果的階段性匯報(bào),內(nèi)容涵蓋預(yù)訓(xùn)練模型、知識(shí)計(jì)算、人機(jī)對(duì)話、文本生成等10余項(xiàng)重點(diǎn)NLP科研問題。

落地應(yīng)用方面,清華大學(xué)李涓子教授團(tuán)隊(duì)構(gòu)建的“多模態(tài)北京旅游知識(shí)圖譜”可以為路徑規(guī)劃和景點(diǎn)信息查詢等功能提供數(shù)據(jù)支持,為游客進(jìn)行旅游行程的規(guī)劃。

京東集團(tuán)副總裁、智源研究員何曉冬博士團(tuán)隊(duì)針對(duì)大規(guī)模與訓(xùn)練語言模型在長(zhǎng)文本理解任務(wù)上的不足,通過從局部視角到全局視角的重復(fù)閱讀方法(Read-over-Read,RoR),提出了一種基于多視角的機(jī)器閱讀理解模型,顯著地提高了針對(duì)長(zhǎng)文本的閱讀理解能力。

預(yù)訓(xùn)練大模型方面,為突破預(yù)訓(xùn)練語言模型(Pretrained Language Model,PLM)的高計(jì)算成本、高設(shè)備需求、難應(yīng)用適配等瓶頸問題,清華大學(xué)副教授、智源青年科學(xué)家劉知遠(yuǎn)教授等提出了面向PLM的全流程高效計(jì)算框架,并基于此框架構(gòu)建了以中文為核心的超大規(guī)模預(yù)訓(xùn)練語言模型CPM-2,具有1980億參數(shù),覆蓋多語言、兼顧語言理解和語言生成的功能,并研制了BMInf、OpenPrompt等配套開源工具。

多樣性文本復(fù)述方面,北京大學(xué)王選計(jì)算機(jī)研究所研究員、智源研究員萬小軍團(tuán)隊(duì)的科研成果包括,構(gòu)建了業(yè)界首個(gè)面向?qū)W術(shù)文獻(xiàn)領(lǐng)域的文本復(fù)述數(shù)據(jù)集ParaSCI,提出了多樣化語句復(fù)述模型DivGAN,并提出業(yè)界首個(gè)篇章復(fù)述模型-CoRPG。該系列研究分別為文本復(fù)述領(lǐng)域提供了基礎(chǔ)數(shù)據(jù)資源、方法模型以及新的思路,從而推動(dòng)文本復(fù)述技術(shù)的應(yīng)用落地。

此外,趙鑫、韓先培、張家俊等7位青年科學(xué)家,也發(fā)布了關(guān)于預(yù)訓(xùn)練模型、多模態(tài)語言等方面的最新成果分享。

孫茂松教授在接受InfoQ等少數(shù)采訪時(shí)表示,現(xiàn)在人工智能技術(shù)為下一代自然語言處理更好的應(yīng)用打下了基礎(chǔ),例如語音識(shí)別、機(jī)器翻譯、同傳等技術(shù),跟十年前相比已經(jīng)不可同日而語。此外,NLP對(duì)其他領(lǐng)域應(yīng)用有很大的促進(jìn)作用,如財(cái)經(jīng)、金融、法律等等。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論