亚洲中文人妻无码中文,国产亚洲日产

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

2024-10-14 11:07

DeepTech深科技

目前，GenAI-Arena 已能支持 14 個(gè)文生圖模型、10 個(gè)圖像編輯模型和 8 個(gè)文生圖模型，并一共收集到 9000 多個(gè)人類(lèi)偏好的投票。這些投票結(jié)果經(jīng)過(guò)處理之后，都將用于 GenAI Arena 榜單的計(jì)算。同時(shí)，在 GenAI-Arena 上收集的數(shù)據(jù)，能被用于多個(gè)不同的應(yīng)用場(chǎng)景。

本文來(lái)自微信公眾號(hào)“DeepTech深科技”。

2023年底，文生圖、文生視頻等各種模型并沒(méi)有很好的評(píng)測(cè)標(biāo)準(zhǔn)。很多論文都還在使用比較傳統(tǒng)的工具來(lái)進(jìn)行自動(dòng)化評(píng)測(cè)。

但是，這些指標(biāo)并不能反應(yīng)真實(shí)世界的用戶對(duì)于這些生成模型的偏好。

而對(duì)于生成模型來(lái)說(shuō)，生成結(jié)果的好壞，又恰恰非常容易被人們所看出來(lái)，比如圖像是否扭曲、模糊，再比如視頻是否不自然等。

那么，如何開(kāi)發(fā)一個(gè)能夠收集人類(lèi)偏好并能直接評(píng)測(cè)各個(gè)多模態(tài)模型能力的榜單？

為了解決這個(gè)問(wèn)題，加拿大滑鐵盧大學(xué)博士生姜東甫和所在團(tuán)隊(duì)，提出一個(gè)由用戶來(lái)打分的多模態(tài)生成模型的競(jìng)技場(chǎng)——GenAI Arena。

圖|左起：姜東甫、max ku、tianle li（來(lái)源：姜東甫）

定下課題之后，本次論文的共同一作Tianle Li開(kāi)始在Chatbot Arena的代碼基礎(chǔ)之上進(jìn)行改進(jìn)，并添加了對(duì)于多模態(tài)生成模型的支持。

由于Chatbot Arena只支持生成文字的大模型，因此需要針對(duì)模型和網(wǎng)站用戶界面（UI，User Interface）做出修改。

比如，在UI上增加對(duì)于圖片的支持、進(jìn)行底層數(shù)據(jù)類(lèi)型的修改、以及添加對(duì)于各種生成模型的支持等。

得益于之前該團(tuán)隊(duì)成員Max Ku的ImagenHub的成功，讓姜東甫等人得以利用其中包裝好的文生圖與圖片編輯模型的應(yīng)用程序編程接口（API，Application Programming Interface），借此順利地支持了一系列文生圖模型的部署。

研究中，姜東甫主要負(fù)責(zé)提供網(wǎng)站部署的技術(shù)支持和榜單維護(hù)。

而由于之前他們自己的服務(wù)器沒(méi)有提供網(wǎng)站部署的服務(wù)，出于服務(wù)器安全問(wèn)題的考量，他們只能開(kāi)放https端口。

后來(lái)，課題組使用nginx來(lái)進(jìn)行端口轉(zhuǎn)發(fā)，在購(gòu)買(mǎi)服務(wù)器網(wǎng)址，并使用certbot生成ssl許可證之后，才終于支持了這一整套流程。

最終，他們?cè)?024年2月發(fā)布了本次產(chǎn)品的第一個(gè)版本，并能支持文生圖和圖生圖這兩類(lèi)任務(wù)。

再后來(lái)，本次產(chǎn)品在上線之后受到了一些關(guān)注，Hugging Face的工作人員主動(dòng)聯(lián)系他們，表示愿意給他們提供圖形處理器（GPU，graphics processing unit）支持。

姜東甫表示：“維護(hù)這樣一個(gè)Arena需要很多GPU資源，一般來(lái)說(shuō)一個(gè)模型就要單獨(dú)占用一張GPU來(lái)進(jìn)行部署。”

于是，為了適配Hugging Face所提供的GPU的使用特性，姜東甫和同事Yuansheng Ni開(kāi)始針對(duì)代碼進(jìn)行徹底重構(gòu)。

重構(gòu)之后的代碼，不僅能夠保持之前所有的功能，并能順利在Hugging Face的Space上進(jìn)行部署。

同時(shí)，姜東甫的導(dǎo)師認(rèn)為同樣需要增加對(duì)于文生視頻任務(wù)的支持。于是，該團(tuán)隊(duì)的Max Ku帶領(lǐng)Shizhuo Sun和RongQi Fan開(kāi)發(fā)了VideoGenHub。

只用幾行代碼，VideoGenHub就可以在本地完成一個(gè)文生視頻模型的推理。

最終，他們?cè)?024年4月發(fā)布了GenAI-Arena上的text-to-video板塊。

日前，相關(guān)論文以《GenAI競(jìng)技場(chǎng)：生成模型的開(kāi)放式評(píng)估平臺(tái)》（GenAI Arena:An Open Evaluation Platform for Generative Models）發(fā)表于NeurIPS 2024 Dataset&Benchmark Track，論文可在arXiv上閱讀[1]。

圖|相關(guān)論文（來(lái)源：arXiv）

據(jù)姜東甫介紹，這一成果受到了Chatbot Arena的啟發(fā)。

如前所述，在2023年底啟動(dòng)本次項(xiàng)目的時(shí)候，對(duì)于大模型的評(píng)測(cè)來(lái)說(shuō)，很多人批評(píng)采用傳統(tǒng)基準(zhǔn)只能測(cè)試出來(lái)準(zhǔn)確率，并不能反應(yīng)大模型在人類(lèi)真實(shí)世界中的交互能力，也就是無(wú)法反應(yīng)人類(lèi)偏好。

而Chatbot Arena作為一個(gè)人人都可以參與的大模型競(jìng)技場(chǎng)，逐漸成為大模型評(píng)測(cè)的權(quán)威榜單。

對(duì)于該課題組來(lái)說(shuō)，他們也希望自己研發(fā)的GenAI-Arena，能在未來(lái)逐漸成為多模態(tài)生成模型的可靠榜單。

目前，GenAI-Arena已能支持14個(gè)文生圖模型、10個(gè)圖像編輯模型和8個(gè)文生圖模型，并一共收集到9000多個(gè)人類(lèi)偏好的投票。

這些投票結(jié)果經(jīng)過(guò)處理之后，都將用于GenAI Arena榜單的計(jì)算。同時(shí)，在GenAI-Arena上收集的數(shù)據(jù)，能被用于多個(gè)不同的應(yīng)用場(chǎng)景。

姜東甫展望稱：“除了GenAI-Arena這樣直接由人類(lèi)進(jìn)行投票進(jìn)行評(píng)測(cè)的方法，能否開(kāi)發(fā)出更快、更準(zhǔn)確的指標(biāo)，來(lái)對(duì)模型進(jìn)行自動(dòng)化評(píng)測(cè)？”

他和所在團(tuán)隊(duì)認(rèn)為：目前的多模態(tài)語(yǔ)言模型已經(jīng)具有這方面的潛力。

比如，可以通過(guò)使用GPT-4o、LLaVA-Next、Mantis等多模態(tài)模型，來(lái)進(jìn)行文生圖、文生視頻的打分與評(píng)測(cè)。

基于此，該團(tuán)隊(duì)將自己收集的人類(lèi)偏好投票，打包處理后變成了GenAI-Bench，以用于衡量這些多模態(tài)語(yǔ)言模型的能力。

同時(shí)，GenAI-Bench可以促進(jìn)生成更好的自動(dòng)化指標(biāo)，在更加符合人類(lèi)偏好的同時(shí)，還能更好地衡量生成式模型的能力。

另外，姜東甫所思考的另一個(gè)問(wèn)題是：“能否利用所收集的偏好數(shù)據(jù)，來(lái)針對(duì)生成模型訓(xùn)練獎(jiǎng)勵(lì)模型？或者直接針對(duì)生成模型進(jìn)行DPO（Direct Preference Optimization，一種用于語(yǔ)言模型對(duì)齊的技術(shù)）？這樣一來(lái)就能直接提升生成模型的能力。”

最近，領(lǐng)域內(nèi)的一篇論文已經(jīng)證明，這是一個(gè)非常有潛力的方向。

當(dāng)然，姜東甫等人還需要收集更多的數(shù)據(jù)，只有達(dá)到類(lèi)似Chatbot Arena那樣的量級(jí)（百萬(wàn)的投票），才能達(dá)到更好的影響力。

參考資料：

1.https://arxiv.org/pdf/2406.04485

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

AMD最強(qiáng)AI芯片，性能強(qiáng)過(guò)英偉達(dá)H200，但市場(chǎng)仍不買(mǎi)賬，生態(tài)是最大短板？

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

準(zhǔn)確預(yù)測(cè)“杜蘇芮”行動(dòng)軌跡，智慧氣象立功

Gartner：2023年AI半導(dǎo)體市場(chǎng)將達(dá)到534億美元

如何利用人工智能技術(shù)應(yīng)對(duì)氣象災(zāi)害？

增長(zhǎng)勢(shì)頭強(qiáng)勁!虛擬數(shù)字人的應(yīng)用及變現(xiàn)

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車(chē)涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

零數(shù)科技林樂(lè)：助力新時(shí)代數(shù)字中國(guó)建設(shè)，區(qū)塊鏈賦能數(shù)字經(jīng)濟(jì)蓬勃發(fā)展

八爪魚(yú)入駐華為云云市場(chǎng)，攜手打造數(shù)據(jù)生態(tài)

服務(wù)企業(yè) 賦能行業(yè) 中國(guó)信息協(xié)會(huì)線上公益講堂系列活動(dòng)——“網(wǎng)信大講堂”開(kāi)講啦

2021（第六屆）中國(guó)網(wǎng)絡(luò)信息安全峰會(huì)在北京成功召開(kāi)

中國(guó)電子商會(huì)會(huì)長(zhǎng)王寧：凝心聚力，搭建中國(guó)半導(dǎo)體創(chuàng)新發(fā)展高端平臺(tái)

邢臺(tái)攜手華為云，以數(shù)據(jù)為引擎推動(dòng)智慧城市發(fā)展

熱點(diǎn)資訊

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動(dòng)力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標(biāo)綠色新生

AMD最強(qiáng)AI芯片，性能強(qiáng)過(guò)英偉達(dá)H200，但市場(chǎng)仍不買(mǎi)賬，生態(tài)是最大短板？

數(shù)據(jù)中心邁入液冷時(shí)代

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

準(zhǔn)確預(yù)測(cè)“杜蘇芮”行動(dòng)軌跡，智慧氣象立功

Gartner：2023年AI半導(dǎo)體市場(chǎng)將達(dá)到534億美元

如何利用人工智能技術(shù)應(yīng)對(duì)氣象災(zāi)害？

增長(zhǎng)勢(shì)頭強(qiáng)勁!虛擬數(shù)字人的應(yīng)用及變現(xiàn)

本月熱門(mén)

精選文章

熱點(diǎn)資訊

AMD最強(qiáng)AI芯片，性能強(qiáng)過(guò)英偉達(dá)H200，但市場(chǎng)仍不買(mǎi)賬，生態(tài)是最大短板？

數(shù)據(jù)中心邁入液冷時(shí)代

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

準(zhǔn)確預(yù)測(cè)“杜蘇芮”行動(dòng)軌跡，智慧氣象立功

如何利用人工智能技術(shù)應(yīng)對(duì)氣象災(zāi)害？

AMD最強(qiáng)AI芯片，性能強(qiáng)過(guò)英偉達(dá)H200，但市場(chǎng)仍不買(mǎi)賬，生態(tài)是最大短板？