9項國際主流測試集第一,訊飛星火大模型預計今年底可實現(xiàn)類“o1”能力

沈湫莎
由艾倫人工智能研究所、OpenAI等國內(nèi)外權威單位發(fā)布,涵蓋理解和推理、綜合考試、數(shù)學和科學、代碼等不同任務類型的14項主流測試集中,訊飛星火4.0-Turbo在其中9項測試集中實現(xiàn)超越,效率相對提升50%。

本文來自文匯網(wǎng)(www.whb.cn),作者 | 沈湫莎。

cde9b16b04574befb574fcdd06d52b2f.jpg

在今天舉行的第七屆世界聲博會暨2024科大訊飛全球1024開發(fā)者節(jié)開幕式上,科大訊飛董事長劉慶峰公布訊飛星火大模型應用成績單,并發(fā)布訊飛星火4.0 Turbo:七大核心能力全面超過GPT-4 Turbo,數(shù)學和代碼能力超越GPT-4o,國內(nèi)外中英文14項主流測試集中訊飛星火4.0 Turbo實現(xiàn)9項第一。

科大訊飛還一口氣首發(fā)了10項基于訊飛星火底座能力的硬核產(chǎn)品與創(chuàng)新應用,國產(chǎn)超大規(guī)模智算平臺“飛星二號”也宣告啟動。

訊飛星火4.0 Turbo預計今年底可實現(xiàn)類“o1”能力

由艾倫人工智能研究所、OpenAI等國內(nèi)外權威單位發(fā)布,涵蓋理解和推理、綜合考試、數(shù)學和科學、代碼等不同任務類型的14項主流測試集中,訊飛星火4.0-Turbo在其中9項測試集中實現(xiàn)超越,效率相對提升50%。

ba77a8bd3a9b4a6da106c6259d0903fd.jpg

劉慶峰特別提到了“硬碰硬”的數(shù)學能力和代碼能力。根據(jù)實用數(shù)學任務構建測試集CAppliedMath-1.0,訊飛星火4.0 Turbo在計算、財務、金融、度量等多個維度的任務中均超過GPT-4o水平,已完成超長思維鏈、樹搜索和自我反思評價等算法驗證,預計今年底可實現(xiàn)類“o1”的高難度數(shù)學能力顯著提升。

根據(jù)代碼生成HumanEval測試集上的效果對比,訊飛星火4.0 Turbo在Python、Java、JavaScript等任務上和GPT-4o的差距微弱,在C++能力上超過GPT-4o。在真實應用場景,基于認知智能全國重點實驗室構建的iFLYCode-Eval-2.0代碼實用場景測試集,訊飛星火4.0 Turbo在代碼生成、代碼檢錯、單元測試等任務上都超過了GPT-4o。同時推出星火代碼7B版本,滿足代碼生成、代碼補全等極速響應型任務,效果業(yè)界最優(yōu)。

首發(fā)語音視覺虛擬人交互“三合一”

發(fā)布會上,科大訊飛重新定義萬物智聯(lián)時代的多模AIUI交互標準,在原有的遠場高噪、全雙工、多語種多方言能力上,升級了多模態(tài)能力,新增了超擬人和個性化能力。

367d24519bae48098f4d890ec30ac1dd.jpg

超擬人數(shù)字人首次亮相,多模態(tài)的交互從超擬人的語音變成超擬人的數(shù)字人,實現(xiàn)語音、視頻、圖文的全部聯(lián)動的多模態(tài)交互??拼笥嶏w研究院院長劉聰現(xiàn)場和超擬人數(shù)字人玩了個“角色扮演”游戲,無論是扮演孫悟空還是小豬佩奇,數(shù)字人反應都惟妙惟肖。

多模態(tài)視覺能力加持下的人機交互有多驚喜?劉聰現(xiàn)場給超擬人數(shù)字人打了個“視頻電話”,他不斷調整道具“孫悟空”“奧特曼”“怪獸”的擺放位置,無需拍照,超擬人數(shù)字人看圖說話,馬上回應:“奧特曼和孫悟空停止了打斗,正在聯(lián)合對抗怪獸”,和劉聰暢聊不同角度的所見。

劉聰還演示了更實用的旅游購物場景,當攝像頭轉向印有外文的化妝品及酒類產(chǎn)品時,超擬人數(shù)字人能對畫面中產(chǎn)品的品牌、功能等信息進行“秒回”,超擬人數(shù)字人已成為“跨語言”購物的好幫手。

“目前,訊飛星火支持用戶創(chuàng)建自己的個性化數(shù)字人,打造每個人的數(shù)字分身。”劉聰現(xiàn)場演示了一個自己的“數(shù)字分身”,只需在后臺進行簡單的編輯、定義,就可快速生成自己的卡通形象,更能一句話復刻自己的聲音作為發(fā)音人,隨時隨地與自己對話。目前,已支持1300+種人設打造。

首發(fā)星火多語言大模型及多款新品應用

活動上首發(fā)了星火多語言大模型:在語音識別領域,科大訊飛的遠場高噪場景語音識別領先優(yōu)勢進一步擴大;在多語言能力上,首次實現(xiàn)全國地級市方言全覆蓋,含全國288個地市、202種方言,訊飛輸入法14.0即將支持202種方言免切換自由說;在多語種能力上,首次發(fā)布星火多語言大模型,除中英文外,可支持俄、日、阿、法等8個語種。根據(jù)實用任務場景構建測試集MMT-Eval-1.0,訊飛星火在汽車、家電、辦公、翻譯等行業(yè)的任務場景應用效果超過了GPT-4o。

56963830edf84df8948eb27fee630e06.jpg

多模態(tài)多語言能力升級,將全面賦能汽車產(chǎn)業(yè)。科大訊飛還首發(fā)了汽車端側星火大模型,據(jù)悉,今年第四季度起,奇瑞、廣汽、長城等多款搭載端側大模型的車型將上市開售。另外,面向教育、醫(yī)療、司法、政務服務、企業(yè)辦公等多個行業(yè)場景也有最新的產(chǎn)品應用發(fā)布。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論