久久综合亚洲鲁鲁五月天69堂,亚洲最大天堂无码精品区,无码不卡一区二区三区在线

機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)“智源指數(shù)”發(fā)布， AI大模型有了評(píng)測(cè)新基準(zhǔn)

2022-01-10 14:52

AI前線

劉燕

人工智能大模型時(shí)代，評(píng)測(cè)基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。從扁平到全面系統(tǒng)，從簡(jiǎn)化到多重維度，智源指數(shù)CUGE旨在嘗試為大模型評(píng)測(cè)設(shè)計(jì)一張全面評(píng)估綜合能力的“新考卷”。

近日，北京智源人工智能研究院（以下簡(jiǎn)稱“智源研究院”）在自然語言處理重大研究方向前沿技術(shù)開放日活動(dòng)上發(fā)布了大模型評(píng)測(cè)的“命題”新方案——智源指數(shù)（CUGE）。

“如果說自然語言處理是人工智能皇冠上的一顆明珠，建立科學(xué)的評(píng)價(jià)標(biāo)準(zhǔn)就需要尋找這顆明珠的本身，如果方向錯(cuò)了,走的越遠(yuǎn)，偏離越多，很有可能就找不到。近十年里，自然語言處理突飛猛進(jìn)，特別是超大規(guī)模預(yù)訓(xùn)練語言模型等技術(shù)的突破，英文語言能力評(píng)價(jià)基準(zhǔn)發(fā)揮了至關(guān)重要的指引作用”，中國(guó)工程院院士、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)、清華大學(xué)教授戴瓊海院士表示，“如今，智源NLP學(xué)者共同建立機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)智源指數(shù)，對(duì)于中文信息處理乃至我國(guó)人工智能發(fā)展都具有重要的里程碑意義”。

大模型評(píng)測(cè)“命題”新方案

清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)詳細(xì)介紹了智源指數(shù)構(gòu)建背后的思考和具體設(shè)計(jì)方案。

為什么推出智源指數(shù)CUGE？

自然語言處理是通過圖靈測(cè)試實(shí)現(xiàn)人工智能的關(guān)鍵，如何評(píng)判一臺(tái)計(jì)算機(jī)的語言能力，需要有科學(xué)的評(píng)價(jià)體系。如今自然語言處理的任務(wù)眾多，如何從這些任務(wù)中篩選出、建立起科學(xué)有效的評(píng)價(jià)體系非常重要。

特別是最近這三年，預(yù)訓(xùn)練模型能夠通過自監(jiān)督學(xué)習(xí)的方式，習(xí)得通用的語言能力，意味著人工智能和自然語言處理有了新的發(fā)展范式。面向具有通用語言能力的預(yù)訓(xùn)練模型，如何全面準(zhǔn)確的對(duì)它進(jìn)行評(píng)價(jià)，也需要有科學(xué)有效的評(píng)價(jià)體系。

基于這樣的考慮，智源研究院自然語言處理（NLP）重大研究方向的學(xué)者團(tuán)隊(duì)推出了智源指數(shù)CUGE（Chinese Language Enderstanding and Generation Evaluation）。

兩大特色

劉知遠(yuǎn)教授介紹，智源指數(shù)有兩個(gè)特色，一是建立了全面、系統(tǒng)的評(píng)測(cè)體系；二是在這個(gè)體系的基礎(chǔ)上建立了多層次、多維度的評(píng)測(cè)方案。

在基準(zhǔn)框架上，不同于傳統(tǒng)將常用數(shù)據(jù)集扁平組織的方式，智源指數(shù)根據(jù)人類語言考試大綱和當(dāng)前NLP研究現(xiàn)狀，以語言能力-任務(wù)-數(shù)據(jù)集的分層框架來選擇和組織數(shù)據(jù)集，涵蓋7種重要的語言能力、17個(gè)主流NLP任務(wù)和19個(gè)代表性數(shù)據(jù)集，通過不同的能力、不同的任務(wù)以及不同的數(shù)據(jù)集，希望能全面均衡地對(duì)機(jī)器中文語言能力做評(píng)測(cè)。

在評(píng)分策略上，智源指數(shù)能更好展現(xiàn)模型不同維度的模型語言智能差異，依托層次性基準(zhǔn)框架，提供不同層次的模型性能評(píng)分，包括在數(shù)據(jù)集、任務(wù)和語言能力等，系統(tǒng)性大大加強(qiáng)。

智源指數(shù)所覆蓋的數(shù)據(jù)集達(dá)到了近20個(gè)，任務(wù)體系龐大。為了更好的讓更多單位、機(jī)構(gòu)在智源平臺(tái)開展相關(guān)評(píng)測(cè)，智源NLP學(xué)者團(tuán)隊(duì)選擇了各語言能力下更具有代表性的任務(wù)和數(shù)據(jù)集，構(gòu)建了一個(gè)智源指數(shù)的精簡(jiǎn)榜，這樣可以更方便、快捷的評(píng)估模型的能力。參與者既可以用綜合榜也也可以用精簡(jiǎn)榜。

本次活動(dòng)還同時(shí)發(fā)布了在線評(píng)測(cè)平臺(tái)和公開排行榜，支持多種展示模式，包含綜合榜、精簡(jiǎn)榜和單數(shù)據(jù)集榜，方便用戶快速多角度了解模型和數(shù)據(jù)集特性及最新動(dòng)態(tài)。

與GLUE等評(píng)估基準(zhǔn)的區(qū)別

GLUE是業(yè)內(nèi)公認(rèn)的最具權(quán)威的語言理解評(píng)測(cè)基準(zhǔn)之一。2018年以來，伴隨著預(yù)訓(xùn)練大模型的爆發(fā)，GLUE、SuperGLUE等成為現(xiàn)在語言大模型評(píng)測(cè)的主要基準(zhǔn)。

劉知遠(yuǎn)教授表示，現(xiàn)在在中文的世界，面向中文的自然語言處理，缺少一個(gè)比較科學(xué)有效、全面的評(píng)測(cè)基準(zhǔn)。國(guó)內(nèi)很多公司關(guān)注CUGE，但CUGE里包含的數(shù)據(jù)集，它所覆蓋的能力以及數(shù)據(jù)集的質(zhì)量，還有待于商榷。

智源NLP學(xué)者團(tuán)隊(duì)認(rèn)為，需要從學(xué)術(shù)界的視角更科學(xué)有效的構(gòu)建出一個(gè)評(píng)測(cè)體系，通過這種方式更好的指引中文預(yù)訓(xùn)練模型包括大模型發(fā)展的方向。

“我們希望把機(jī)器要掌握的語言能力，包括的緯度，從這個(gè)角度劃分，確定每個(gè)能力對(duì)應(yīng)的任務(wù)以及對(duì)應(yīng)的數(shù)據(jù)集。這樣在選擇上更均衡一些，更有效的反映大模型在不同語言能力上的表現(xiàn)，以及進(jìn)一步努力的方向”，劉知遠(yuǎn)教授說。

與其他評(píng)估基準(zhǔn)相比，CUGE的另一個(gè)特點(diǎn)是更加開放，希望并支持全國(guó)乃至全世界做中文自然語言數(shù)據(jù)的機(jī)構(gòu)智源指數(shù)的平臺(tái)上發(fā)布數(shù)據(jù)集，且能為其提供單數(shù)據(jù)集評(píng)測(cè)的支持，包括組織比賽等。希望結(jié)合行業(yè)的力量，共建智源指數(shù)。

在智源指數(shù)評(píng)測(cè)方案上，智源NLP學(xué)者團(tuán)隊(duì)參考了現(xiàn)有評(píng)測(cè)方案的優(yōu)點(diǎn)和缺點(diǎn)，構(gòu)建出了一個(gè)多層次的評(píng)測(cè)方案。即依托于智源指數(shù)，從能力-任務(wù)-數(shù)據(jù)集層次性的體系，向上逐層匯總模型相應(yīng)得分，反映模型或者是機(jī)器語言能力在不同方面的效果。此外，在這個(gè)過程中會(huì)以一些代表性的基線模型的得分作為基準(zhǔn)，去規(guī)劃不同任務(wù)下評(píng)測(cè)指標(biāo)的特點(diǎn)，確保不同的能力互相之間在加合時(shí)是均衡的，有助于建立起機(jī)器語言能力在不同維度的效果評(píng)估。

智源指數(shù)還會(huì)提供一個(gè)參與者模型的性能排行榜。這個(gè)排行榜在設(shè)計(jì)時(shí)，也在充分吸收了國(guó)內(nèi)外相關(guān)評(píng)測(cè)基準(zhǔn)的特點(diǎn)的基礎(chǔ)上，構(gòu)建出了以下特色設(shè)計(jì)：

首先，排行榜會(huì)基于能力、任務(wù)和數(shù)據(jù)集的體系給每一個(gè)數(shù)據(jù)集所對(duì)應(yīng)的標(biāo)簽。例如，某個(gè)數(shù)據(jù)集隸屬于哪一個(gè)語言能力，哪一個(gè)任務(wù)...未來還會(huì)標(biāo)注出難度、效果和信度等相關(guān)標(biāo)簽，從而方便參與者篩選出感興趣的能力或角度去進(jìn)行相應(yīng)的評(píng)測(cè)。

第二，基于標(biāo)簽體系，支持參與者通過標(biāo)簽篩選的方式定制排行榜。同時(shí)，官方也會(huì)提供若干代表推薦套餐，如精簡(jiǎn)榜等，方便讓參與者開展有針對(duì)性的能力評(píng)測(cè)。

第三，根據(jù)所研制的7種能力進(jìn)行能力呈現(xiàn)的雷達(dá)圖。這個(gè)雷達(dá)圖能較直觀的讓參與者認(rèn)識(shí)到不同的模型在不同能力上提升的效果，以及未來努力的方向。

第四，平臺(tái)同時(shí)會(huì)支持單數(shù)據(jù)集的排行榜和評(píng)測(cè)，能更加有利于參與者追蹤數(shù)據(jù)集研究的進(jìn)展和動(dòng)態(tài)。也就是說，任何一個(gè)單個(gè)數(shù)據(jù)集，也可以看到相關(guān)評(píng)測(cè)效果的榜單。

劉知遠(yuǎn)教授表示，基于單數(shù)據(jù)集的榜單能力，未來智源指數(shù)將定期吸納最新優(yōu)秀數(shù)據(jù)集。

強(qiáng)調(diào)誠信，控制刷榜問題

現(xiàn)在很多榜單被各大玩家不斷“刷分”。但刷分、刷榜往往容易帶來一些問題。例如谷歌近期在一篇文章中指出，現(xiàn)有的Benchmark不能做到對(duì)模型的公平性評(píng)估，更多的是在某些特定的任務(wù)上刷分?jǐn)?shù)。

對(duì)此，劉知遠(yuǎn)教授認(rèn)為，應(yīng)當(dāng)辯證地看待這個(gè)問題，面對(duì)過去，Benchmark發(fā)揮了重要的作用，它指引這些模型發(fā)展到現(xiàn)在的狀態(tài)，但再往下發(fā)展，Benchmark里面包含的數(shù)據(jù)集，如果長(zhǎng)時(shí)間一成不變，的確指引的作用會(huì)越來越小。因?yàn)樵降桨l(fā)展后期，“內(nèi)卷”往往越嚴(yán)重，例如，CLUE，現(xiàn)在已經(jīng)刷到比人的水平還高出很多，這并不意味著機(jī)器比一定比人強(qiáng)，只是在有限的幾個(gè)采樣上，機(jī)器表達(dá)能力很強(qiáng)而已。

為緩解“刷分”問題，智源指數(shù)作了一些特別設(shè)計(jì)。

劉知遠(yuǎn)教授表示，CUGE特別強(qiáng)調(diào)“未來持續(xù)改進(jìn)性”。“CUGE會(huì)不斷更新，每年會(huì)更新新的數(shù)據(jù)集，避免大家把精力都放在某幾個(gè)數(shù)據(jù)集上，把時(shí)間用偏在別的地方。這就跟大學(xué)里考試一樣，雖說很多學(xué)生會(huì)為了期末考試做針對(duì)性復(fù)習(xí)，但平時(shí)的學(xué)習(xí)也很重要，主要精力應(yīng)該放在對(duì)學(xué)業(yè)本身的掌握和改進(jìn)上，這是智源指數(shù)想要做到的狀態(tài)”。

此外，智源指數(shù)還特別強(qiáng)調(diào)評(píng)測(cè)過程中的誠信，要求所有的提交者必須填寫Honor Code并展示，鼓勵(lì)用戶誠信，不人工干預(yù)數(shù)據(jù)預(yù)訓(xùn)練和測(cè)試過程，讓模型真正反映學(xué)習(xí)算法和數(shù)據(jù)體現(xiàn)出來的威力。

劉知遠(yuǎn)教授表示，未來還將依托智源研究院、智源社區(qū)的力量，建立用戶面向數(shù)據(jù)集和評(píng)測(cè)結(jié)果的反饋、討論機(jī)制，通過交互交流構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū)，推動(dòng)中文自然語言處理的發(fā)展。

成立智源指數(shù)委員會(huì)

為了更好地支持智源指數(shù)未來的發(fā)展，在智源研究院的支持下，搭起了依托于現(xiàn)有的自然語言處理學(xué)者團(tuán)隊(duì)，還構(gòu)建了一個(gè)智源指數(shù)工作委員會(huì)。

據(jù)悉，委員單位目前已經(jīng)吸納了國(guó)內(nèi)在自然語言處理方面10余家優(yōu)勢(shì)單位，接近20個(gè)相關(guān)優(yōu)勢(shì)研究組，針對(duì)智源指數(shù)不斷進(jìn)行改進(jìn)。

智源指數(shù)工作委員會(huì)未來的職責(zé)主要包括智源指數(shù)研發(fā)、構(gòu)建、發(fā)布、吸引新的數(shù)據(jù)集、評(píng)測(cè)網(wǎng)站的維護(hù)和更新工作等。

智源委員會(huì)明年將持續(xù)完善智源指數(shù)。劉知遠(yuǎn)教授透露，預(yù)計(jì)會(huì)在明年的智源大會(huì)上發(fā)布新版智源指數(shù)平臺(tái)。

智源NLP研究方向10余項(xiàng)成果落地

自然語言處理（NLP）是智源重大學(xué)術(shù)研究方向之一，由清華大學(xué)孫茂松教授任該方向首席科學(xué)家，北京語言大學(xué)楊爾弘教授任項(xiàng)目經(jīng)理，學(xué)者包括李涓子、穗志方、劉洋、萬小軍、何曉冬，青年科學(xué)家包括劉知遠(yuǎn)教授、韓先培、孫栩、嚴(yán)睿、張家俊、趙鑫、楊植麟、李紀(jì)為等。

除“智源指數(shù)”外，本次開放日活動(dòng)還進(jìn)行了“自然語言處理評(píng)測(cè)中的問題與對(duì)策”“邁向通用連續(xù)型知識(shí)庫”“文本復(fù)述生成”等研究成果的階段性匯報(bào)，內(nèi)容涵蓋預(yù)訓(xùn)練模型、知識(shí)計(jì)算、人機(jī)對(duì)話、文本生成等10余項(xiàng)重點(diǎn)NLP科研問題。

落地應(yīng)用方面，清華大學(xué)李涓子教授團(tuán)隊(duì)構(gòu)建的“多模態(tài)北京旅游知識(shí)圖譜”可以為路徑規(guī)劃和景點(diǎn)信息查詢等功能提供數(shù)據(jù)支持，為游客進(jìn)行旅游行程的規(guī)劃。

京東集團(tuán)副總裁、智源研究員何曉冬博士團(tuán)隊(duì)針對(duì)大規(guī)模與訓(xùn)練語言模型在長(zhǎng)文本理解任務(wù)上的不足，通過從局部視角到全局視角的重復(fù)閱讀方法（Read-over-Read，RoR），提出了一種基于多視角的機(jī)器閱讀理解模型，顯著地提高了針對(duì)長(zhǎng)文本的閱讀理解能力。

預(yù)訓(xùn)練大模型方面，為突破預(yù)訓(xùn)練語言模型（Pretrained Language Model,PLM）的高計(jì)算成本、高設(shè)備需求、難應(yīng)用適配等瓶頸問題，清華大學(xué)副教授、智源青年科學(xué)家劉知遠(yuǎn)教授等提出了面向PLM的全流程高效計(jì)算框架，并基于此框架構(gòu)建了以中文為核心的超大規(guī)模預(yù)訓(xùn)練語言模型CPM-2，具有1980億參數(shù)，覆蓋多語言、兼顧語言理解和語言生成的功能，并研制了BMInf、OpenPrompt等配套開源工具。

多樣性文本復(fù)述方面，北京大學(xué)王選計(jì)算機(jī)研究所研究員、智源研究員萬小軍團(tuán)隊(duì)的科研成果包括，構(gòu)建了業(yè)界首個(gè)面向?qū)W術(shù)文獻(xiàn)領(lǐng)域的文本復(fù)述數(shù)據(jù)集ParaSCI，提出了多樣化語句復(fù)述模型DivGAN，并提出業(yè)界首個(gè)篇章復(fù)述模型-CoRPG。該系列研究分別為文本復(fù)述領(lǐng)域提供了基礎(chǔ)數(shù)據(jù)資源、方法模型以及新的思路，從而推動(dòng)文本復(fù)述技術(shù)的應(yīng)用落地。

此外，趙鑫、韓先培、張家俊等7位青年科學(xué)家，也發(fā)布了關(guān)于預(yù)訓(xùn)練模型、多模態(tài)語言等方面的最新成果分享。

孫茂松教授在接受InfoQ等少數(shù)采訪時(shí)表示，現(xiàn)在人工智能技術(shù)為下一代自然語言處理更好的應(yīng)用打下了基礎(chǔ)，例如語音識(shí)別、機(jī)器翻譯、同傳等技術(shù)，跟十年前相比已經(jīng)不可同日而語。此外，NLP對(duì)其他領(lǐng)域應(yīng)用有很大的促進(jìn)作用，如財(cái)經(jīng)、金融、法律等等。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

四大因素促使工業(yè)AIoT成“新寵”

機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)“智源指數(shù)”發(fā)布， AI大模型有了評(píng)測(cè)新基準(zhǔn)

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)“智源指數(shù)”發(fā)布， AI大模型有了評(píng)測(cè)新基準(zhǔn)

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

三天帶你了解全球AI趨勢(shì)，2024深圳國(guó)際通用人工智能大會(huì)即將開幕

大規(guī)模商用在即!5G消息未來發(fā)展如何？

人工智能大爆發(fā)，你怕了嗎？

2024年巴黎奧運(yùn)會(huì)是如何使用人工智能的?

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

2023算力互聯(lián)互通大會(huì) | 算網(wǎng)云開源操作系統(tǒng)CNCOS1.0（OpenCNC、ODPU、OGPU、oneRDMA）正式發(fā)布

用力軟低代碼開發(fā)平臺(tái)高效打造倉儲(chǔ)管理數(shù)字生態(tài)

與中航工業(yè)第三次合作!華磊迅拓助力深圳航標(biāo)實(shí)現(xiàn)智造管理數(shù)字化

存力中心——構(gòu)建新型數(shù)據(jù)基礎(chǔ)設(shè)施，加速數(shù)據(jù)要素X行業(yè)推進(jìn)高質(zhì)量發(fā)展

全天智能榮獲「2019中國(guó)信息技術(shù)大數(shù)據(jù)可視化+人工智能行業(yè)領(lǐng)軍企業(yè) 」年度獎(jiǎng)項(xiàng)

MasterGo 聯(lián)合創(chuàng)始人朱峰：未來已來設(shè)計(jì)邁入?yún)f(xié)同時(shí)代

熱點(diǎn)資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動(dòng)力引擎!

四大因素促使工業(yè)AIoT成“新寵”

5G技術(shù)存在的弊端，或?qū)е滤蔀槎堂倪^渡技術(shù)，4G將長(zhǎng)期存在

機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)“智源指數(shù)”發(fā)布， AI大模型有了評(píng)測(cè)新基準(zhǔn)

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

三天帶你了解全球AI趨勢(shì)，2024深圳國(guó)際通用人工智能大會(huì)即將開幕

大規(guī)模商用在即!5G消息未來發(fā)展如何？

人工智能大爆發(fā)，你怕了嗎？

2024年巴黎奧運(yùn)會(huì)是如何使用人工智能的?

本月熱門

精選文章

熱點(diǎn)資訊

四大因素促使工業(yè)AIoT成“新寵”

5G技術(shù)存在的弊端，或?qū)е滤蔀槎堂倪^渡技術(shù)，4G將長(zhǎng)期存在

機(jī)器中文語言能力評(píng)測(cè)基準(zhǔn)“智源指數(shù)”發(fā)布， AI大模型有了評(píng)測(cè)新基準(zhǔn)

三天帶你了解全球AI趨勢(shì)，2024深圳國(guó)際通用人工智能大會(huì)即將開幕

大規(guī)模商用在即!5G消息未來發(fā)展如何？

人工智能大爆發(fā)，你怕了嗎？

5G技術(shù)存在的弊端，或?qū)е滤蔀槎堂倪^渡技術(shù)，4G將長(zhǎng)期存在