開會這個技術(shù)活,讓AI+RTE 玩出了新高度

三北
聲網(wǎng)推出的“靈動會議”為企業(yè)提供新的選擇——提供搭載RTE(實時互動)與生成式AI雙引擎技術(shù)的aPaaS平臺,讓企業(yè)輕松搭建具備實時字幕、AI會議紀(jì)要、AI主持人等多項能力的新一代AI會議,提升會議體驗和效率。

本文來自智東西(zhidx.com),作者 | 三北。

越來越多的企業(yè)正在將大模型裝進視頻會議系統(tǒng),但他們發(fā)現(xiàn),AI會議的搭建并不容易:

AI新功能識別不準(zhǔn)確、上手不好用,會議系統(tǒng)與老舊硬件設(shè)備不兼容,AI內(nèi)容分析引發(fā)企業(yè)數(shù)據(jù)安全擔(dān)憂,定制化需求得不到及時滿足……未來AI會議的暢想雖好,部署成本與精力問題令很多企業(yè)望而卻步。

近日,在北京舉辦的“AI重塑會議協(xié)作”產(chǎn)品發(fā)布會上,聲網(wǎng)推出的“靈動會議”為企業(yè)提供新的選擇——提供搭載RTE(實時互動)與生成式AI雙引擎技術(shù)的aPaaS平臺,讓企業(yè)輕松搭建具備實時字幕、AI會議紀(jì)要、AI主持人等多項能力的新一代AI會議,提升會議體驗和效率。

與市面上常見的Zoom、騰訊會議等C端產(chǎn)品不同,靈動會議主要面向政企、云會議廠商、硬件會議廠商及大中型行業(yè)客戶等B端市場。它幫助客戶縮短實現(xiàn)AI會議搭建和傳統(tǒng)會議轉(zhuǎn)型的過程,通過SFU+MCU混合架構(gòu)部署的低代碼平臺,提供開箱即用的能力包,滿足客戶會議、協(xié)作和調(diào)度需求。

成立于2014年的實時互動云服務(wù)商聲網(wǎng),已經(jīng)在實時互動領(lǐng)域積累了多年經(jīng)驗。作為底層技術(shù)的賦能者,聲網(wǎng)正率先將AI大模型整合前沿音視頻技術(shù),為企業(yè)客戶在自身應(yīng)用內(nèi)構(gòu)建多種AI實時音視頻互動場景提供新選擇。

大模型能為視頻會議行業(yè)帶來什么新故事?又會為行業(yè)帶來什么樣的價值?通過對話聲網(wǎng)數(shù)字化行業(yè)負(fù)責(zé)人和利鵬,本文對此進行了深入探討。

_zdx.jpg

▲聲網(wǎng)數(shù)字化行業(yè)負(fù)責(zé)人和利鵬

一、從紀(jì)要到AI主持人,大模型催生未來會議新形態(tài)

當(dāng)前,視頻會議行業(yè)正處在一個變革的關(guān)鍵時期。

我們可以看到三個趨勢:MCU(多點控制單元)傳統(tǒng)會議架構(gòu)正在收縮,云會議崛起;會議系統(tǒng)由溝通工具,轉(zhuǎn)變成為企業(yè)業(yè)務(wù)能力;AI賦能,會議向智變。

聚焦AI賦能,和利鵬告訴智東西,大模型已為視頻會議行業(yè)帶來了新變化。

以常見的會議紀(jì)要應(yīng)用來說,在此前的小模型時期,會議紀(jì)要不準(zhǔn)確、不好用,甚至連熟悉的人名都記不準(zhǔn)確,沒有被真正用起來;現(xiàn)在隨著大模型引入,會議紀(jì)要的準(zhǔn)確度大大提升,并通過與用戶知識庫對接,用得越多越準(zhǔn)確,逐漸成為高頻使用的效率工具。

再以會議回顧應(yīng)用為例,此前的會議回顧大多是錄制一個視頻文件,大多數(shù)沒有人會去回看;現(xiàn)在,經(jīng)過AI對知識進行切片,用戶可以直接關(guān)注感興趣的部分,在中途參會或錯過會議的情況下也能快速了解會議要點,辦公體驗和效率也由此得到顯著提升。

而從熱門的多模態(tài)出發(fā),視頻會議系統(tǒng)的“聽說看”能力都將升級,比如未來也可能是數(shù)字分身代替人去參加會議進行表達,大模型正催生更多全新體驗誕生。

“大模型對行業(yè)有一個很大的改變——如果說以前視頻會議系統(tǒng)是一個音視頻通道,那么AI時代的視頻會議已具備了內(nèi)容洞察和決策助力,升級成為一個智能協(xié)作平臺。”和利鵬告訴智東西。

可以看到,從紀(jì)要到AI主持人,大模型正催生未來會議新形態(tài)。這種未來會議新形態(tài),也將成為企業(yè)協(xié)同效率提升、業(yè)務(wù)成長的關(guān)鍵一環(huán)。

二、AI會議≠會議AI,單一會議工具向業(yè)務(wù)決策支撐平臺轉(zhuǎn)變

知名行研機構(gòu)IDC數(shù)據(jù)顯示,2023年中國(軟硬件)視頻會議市場規(guī)模達到9.2億美元(約合64.9億元人民幣)。多位視頻會議業(yè)內(nèi)人士預(yù)測,大模型至少將為視頻會議行業(yè)帶來翻倍的市場增量。

在巨大新市場的驅(qū)動下,各大云巨頭、SaaS廠商、音視頻技術(shù)廠商以及傳統(tǒng)視訊企業(yè),都推出了AI會議相關(guān)功能及應(yīng)用,試圖在這個新的市場中分一杯羹。

圍繞當(dāng)下“神仙打架”的市場格局,和利鵬認(rèn)為,會議AI并不等于AI會議。

市面上的不少會議AI,只是在上層應(yīng)用層將單點的AI功能加到會議系統(tǒng)中,而靈動會是從底層會議的架構(gòu)進行了改變,采用了AI與RTE(實時互動)雙引擎架構(gòu),從底層重塑會議與協(xié)作。

_zdx (1).jpg

▲靈動會議RTE與AI雙引擎架構(gòu)

具體來看,靈動會議采用了RTE和AI雙引擎架構(gòu),RTE技術(shù)確保低延遲、高可靠的音視頻傳輸,使大模型能夠接收到高質(zhì)量的音視頻內(nèi)容,并進行更準(zhǔn)確的處理。而生成式AI通過分析會議內(nèi)容,提供智能功能,如自動生成字幕、會議紀(jì)要,并通過RTE的低延遲、高可靠通道來分發(fā),以實現(xiàn)與大模型的互動。因此RTE與AI的結(jié)合賦予會議系統(tǒng)“聽、說、看”的能力,這也正是靈動會議產(chǎn)品推動會議系統(tǒng)從單純的信息傳輸工具,向具備內(nèi)容理解與決策支持的智能引擎轉(zhuǎn)變的核心因素。

基于聲網(wǎng)自研的AI Agent框架,靈動會議能夠兼容市場上主流的ASR(自動語音識別)、LLM(大語言模型)和TTS(文本轉(zhuǎn)語音)技術(shù),具備工作流編排能力,提供流暢自然的交互體驗。該框架尤其支持市場主流的多模態(tài)大模型的集成。企業(yè)不僅可以使用單一模型,還可以將圖像、音頻、文本處理等多模態(tài)的大模型能力融合到一起,滿足更復(fù)雜的會議場景需求。比如AI主持人可以幫助用戶把控會議節(jié)奏、提供會議建議、調(diào)節(jié)音視頻效果等,實現(xiàn)更自然溝通。

_zdx (2).jpg

▲和利鵬在講解聲網(wǎng)靈動會議AI Agent框架

由上所述,靈動會議重點不僅在于底層的AI框架,還在于聲網(wǎng)多年積累的RTE技術(shù)?;陟`動會議雙引擎架構(gòu),AI不再是一個單一的工具模塊,而是通過與聲網(wǎng)RTE平臺的深度融合,真正參與并優(yōu)化會議的各個環(huán)節(jié)。

據(jù)悉,靈動會議RTE引擎能提供領(lǐng)先的音視頻性能體驗,依托聲網(wǎng)SD-RTN™軟件定義實時網(wǎng),能做到80%丟包情況下音視頻通話流暢,國內(nèi)視頻平均卡頓率小于1.1%,海外視頻平均卡頓率小于2%;同時基于視頻增強策略、AI降噪、回聲消除等技術(shù)提高視頻會議質(zhì)量。

此外,企業(yè)在數(shù)字化轉(zhuǎn)型過程中,由于業(yè)務(wù)的逐步演進,常常會面臨新設(shè)備引入、新開發(fā)環(huán)境和新功能組件接入的需求。然而,由于缺乏統(tǒng)一的管理底座,很多企業(yè)不得不為不同的業(yè)務(wù)場景構(gòu)建獨立的系統(tǒng),形成“煙囪式”建設(shè)模式。這種模式導(dǎo)致系統(tǒng)封閉,資源利用率低,運維成本高。

而聲網(wǎng)靈動會議產(chǎn)品推出了企業(yè)級音視頻管理中臺,作為統(tǒng)一的管理底座。這種中臺能夠?qū)⑵髽I(yè)內(nèi)部所有在線協(xié)作業(yè)務(wù)一站式集成,同時,通過AI技術(shù)的支持,實現(xiàn)音視頻數(shù)據(jù)的統(tǒng)一分析和知識沉淀,逐步構(gòu)建企業(yè)的知識庫,成為企業(yè)的核心競爭力之一。

可以預(yù)測,在AI與RTE的雙引擎驅(qū)動下,視頻會議系統(tǒng)正從溝通管道變?yōu)橹悄軈f(xié)作平臺,不僅能分析內(nèi)容、指導(dǎo)決策,還能夠幫企業(yè)沉淀知識庫,從而重塑會議與協(xié)作。

三、AI再造會議進行時,先過安全、成本、兼容三道關(guān)

自去年以來,和利鵬和他的團隊開始觀察到了市場新的需求變化,AI視頻會議市場需求正在起量。但同時,對于大多數(shù)企業(yè)來說,搭建一款A(yù)I驅(qū)動的視頻會議系統(tǒng)還是會需要面臨許多問題。

如AI會議帶來體驗升級的同時,如何保證數(shù)據(jù)安全?如何根據(jù)企業(yè)性質(zhì)快速實現(xiàn)個性化定制?新系統(tǒng)如何兼顧與現(xiàn)有會議室設(shè)備的兼容性,實現(xiàn)更低成本的利舊?解決這些問題,企業(yè)往往需要耗費大量的時間、精力和經(jīng)濟成本。

靈動會議為合作伙伴提供另一種選擇:選擇開箱即用的aPaaS會議服務(wù),免去大量重復(fù)、復(fù)雜的中間工作,專注于自身應(yīng)用的開發(fā)和使用。

面對數(shù)據(jù)安全問題,很多政企傾向于私有云或混合云部署方式。靈動會議支持私有化、混合云、公有云等多種部署模式,同時支持無縫備份與切換,這就能夠確保業(yè)務(wù)的連續(xù)性和數(shù)據(jù)的安全性。

面對定制化難度問題,靈動會議采用aPaaS低代碼設(shè)計,通過提供靈活的API接口、以及UI組件和即插即用的集成功能,使得開發(fā)者可以在較短的時間內(nèi)完成集成,無需進行大量的底層開發(fā)。

開發(fā)者可以通過現(xiàn)成的UI組件快速集成會議功能,包括會議召集、虛擬背景、屏幕共享、白板互動等,幾乎涵蓋了所有常用功能,僅需4個方法和回調(diào),便可定制UI,大大縮短開發(fā)周期,加速應(yīng)用上線。

面對傳統(tǒng)MCU設(shè)備利舊痛點,靈動會議提供了最新的解決方案:SFU+MCU混合架構(gòu)。據(jù)悉,MCU模塊與SFU模塊直接集成,拋棄了傳統(tǒng)的網(wǎng)關(guān)架構(gòu),通過裸流通信技術(shù)實現(xiàn)終端設(shè)備與云端的直接互通,解決了網(wǎng)關(guān)集成時的畫質(zhì)損失問題,并支持多畫面靈活組合。

_zdx (3).jpg

▲SFU+MCU混合架構(gòu)打破傳統(tǒng)模式

目前,已有不少云會議、傳統(tǒng)MCU、大中型行業(yè)客戶用上了靈動會議。

以某頭部云廠商為例,其目前已利用靈動會議打造了高效的云會議平臺。該客戶面臨的是Zoom平臺到期和架構(gòu)替換問題,聲網(wǎng)不僅為其提供了全球覆蓋的公有云服務(wù),使其在保存原有應(yīng)用的情況的無縫替換架構(gòu),還助其快速擴展了所需的同聲傳譯等新能力,最終節(jié)省系統(tǒng)運維成本百萬投入。

以某傳統(tǒng)硬件會議MCU廠商為例,其在行業(yè)里耕耘十幾年,架構(gòu)無法滿足客戶關(guān)于云視頻和智能化的新需求。其曾求解于開源WebRTC、第三方的云廠商,都面臨了投入成本高、體驗受損等問題。靈動會議的SFU+MCU混合架構(gòu)幫助其進行整個系統(tǒng)完整升級,從而獲得了更好的發(fā)展機會。

可以看到,各類廠家都可以基于聲網(wǎng)aPaaS靈動會議快速實現(xiàn)云化、智能化升級。

結(jié)語:大模型時代,20年視訊行業(yè)迎來新拐點

20多年來,視頻通訊行業(yè)發(fā)生了巨大的變化。從硬件視頻系統(tǒng)到云會議,再到智能會議,技術(shù)和會議的形式不斷迭代。在聲網(wǎng)等技術(shù)賦能者及各路會議廠商的推動下,視頻會議產(chǎn)品核心正從一個通道進化為智能協(xié)作平臺。

與此同時,視訊用戶的核心需求仍然沒有變,那就是不斷提高會議效率并達成決策目標(biāo)。當(dāng)下,大模型技術(shù)為這一目標(biāo)實現(xiàn)帶來了新的動力,20年視訊行業(yè)迎來新拐點,以聲網(wǎng)靈動會議為代表的新一代AI會議方案也正成為新的行業(yè)發(fā)展引擎。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論