聲網(wǎng)CEO趙斌:大模型API成本已下降超90%,實(shí)時(shí)互動(dòng)未來(lái)將成生成式AI關(guān)鍵方向

林志佳
聲網(wǎng)創(chuàng)始人兼CEO趙斌(Tony Zhao)在演講中表示,美國(guó)OpenAI近期將自身API調(diào)用成本和價(jià)格下降90%以上,中國(guó)市場(chǎng)也是價(jià)格戰(zhàn)硝煙四起,而且各種算法和模型創(chuàng)新風(fēng)起云涌、你追我趕。所以,生成式 AI 將提供無(wú)限的想象空間和廣闊的可能性,包括和RTE和實(shí)時(shí)互動(dòng)能力的結(jié)合,擁有巨大技術(shù)潛力。

本文來(lái)自鈦媒體(www.tmtpost.com),作者 | 林志佳。

財(cái)報(bào)顯示,今年二季度,聲網(wǎng)國(guó)內(nèi)收入1.319億元,較去年同期增長(zhǎng)0.3%。截至6月30日,聲網(wǎng)活躍客戶數(shù)量達(dá)3774家,過(guò)去12個(gè)月內(nèi)凈留存率達(dá)79%。

1626610dd83562eef120a7a786d43cbf_1730098438.jpeg

聲網(wǎng)創(chuàng)始人兼CEO趙斌

隨著OpenAI GPT-4o等多款實(shí)時(shí)語(yǔ)音對(duì)話類模型的推出,RTE(實(shí)時(shí)互動(dòng))技術(shù)再次迎來(lái)新的發(fā)展時(shí)期。

鈦媒體App 10月28日消息,近期舉行的RTE 2024實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)上,聲網(wǎng)創(chuàng)始人兼CEO趙斌(Tony Zhao)在演講中表示,美國(guó)OpenAI近期將自身API調(diào)用成本和價(jià)格下降90%以上,中國(guó)市場(chǎng)也是價(jià)格戰(zhàn)硝煙四起,而且各種算法和模型創(chuàng)新風(fēng)起云涌、你追我趕。所以,生成式AI將提供無(wú)限的想象空間和廣闊的可能性,包括和RTE和實(shí)時(shí)互動(dòng)能力的結(jié)合,擁有巨大技術(shù)潛力。

“未來(lái)10年-20年,無(wú)論是PC,還是智能手機(jī),都必然以如何更好支持大模型能力在端側(cè)上應(yīng)用以及推理能力提高和成熟為主要進(jìn)化軸線。”趙斌強(qiáng)調(diào),生成式AI正在驅(qū)動(dòng)IT行業(yè)發(fā)生大變革,這一趨勢(shì)主要體現(xiàn)終端、軟件、云和人機(jī)界面四個(gè)方向上,而聲網(wǎng)將與大模型獨(dú)角獸MiniMax打造中國(guó)第一個(gè)Realtime API。

(詳見(jiàn)鈦媒體App前文:《獨(dú)家|大模型獨(dú)角獸MiniMax將于11月發(fā)布首款對(duì)標(biāo)GPT-4o的端到端實(shí)時(shí)語(yǔ)音對(duì)話API產(chǎn)品》)

據(jù)悉,聲網(wǎng)成立于2014年,是全球?qū)崟r(shí)互動(dòng)云服務(wù)商,面向社交直播、教育、游戲電競(jìng)、IoT、AR/VR、金融、保險(xiǎn)、醫(yī)療、企業(yè)協(xié)作等多個(gè)領(lǐng)域提供PaaS(平臺(tái)即服務(wù))、實(shí)時(shí)互動(dòng)云等技術(shù)服務(wù)。

2020年6月底,聲網(wǎng)母公司Agora,Inc.(NASDAQ:API)在納斯達(dá)克上市。

2023財(cái)年第一季度業(yè)績(jī)報(bào)告上,趙斌宣布,為努力精簡(jiǎn)組織結(jié)構(gòu),提高運(yùn)營(yíng)效率,Agora,Inc.旗下將以不同的品牌——聲網(wǎng)、Agora運(yùn)營(yíng)兩個(gè)獨(dú)立公司,美國(guó)和國(guó)際業(yè)務(wù)將以Agora品牌運(yùn)營(yíng),中國(guó)業(yè)務(wù)將以聲網(wǎng)品牌運(yùn)營(yíng)。“我們相信,此次戰(zhàn)略重組將使我們能夠?qū)①Y源最佳地集中在每個(gè)業(yè)務(wù)的優(yōu)先事項(xiàng)上——推動(dòng)Agora業(yè)務(wù)的增長(zhǎng)并更有效地競(jìng)爭(zhēng)聲網(wǎng)業(yè)務(wù),同時(shí)考慮到每個(gè)市場(chǎng)客戶獨(dú)特的經(jīng)濟(jì)和產(chǎn)品需求。隨著新機(jī)遇的出現(xiàn),這種新的組織結(jié)構(gòu)還將使我們變得更加敏捷。”

今年8月,Agora,Inc.集團(tuán)發(fā)布的最新財(cái)報(bào)顯示,2024財(cái)年第二季度,公司總收入3420萬(wàn)美元,同比增長(zhǎng)0.5%。其中,受益于物聯(lián)網(wǎng)等行業(yè)銷售增加,聲網(wǎng)國(guó)內(nèi)收入1.319億元人民幣(1860萬(wàn)美元),較去年同期增長(zhǎng)0.3%。

截至2024年6月30日,聲網(wǎng)活躍客戶數(shù)量達(dá)3774家,過(guò)去12個(gè)月內(nèi)凈留存率達(dá)79%。

如今,隨著全球經(jīng)濟(jì)復(fù)蘇以及全球科技轉(zhuǎn)向AI技術(shù),生成式AI賽道迎來(lái)廣闊前景。

麥肯錫最新報(bào)告顯示,2023年,全球生成式AI市場(chǎng)規(guī)模670億美元,預(yù)計(jì)到2027年、2032年分別達(dá)到3990億美元和1.3萬(wàn)億美元,2023-2032年10年的復(fù)合增長(zhǎng)率高達(dá)42%。

2024年5月,OpenAI公司推出可免費(fèi)使用的全新旗艦AI模型GPT-4o,可實(shí)時(shí)進(jìn)行音頻、視覺(jué)和文本推理,并且在短至232毫秒、平均320毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入,與人類在對(duì)話中的反應(yīng)速度一致。在API使用方面,相比GPT-4-Turbo,GPT-4o價(jià)格降低一半(50%),速度提升兩倍(200%)。

OpenAI CEO奧爾特曼(Sam Altman)表示,新的GPT-4o是OpenAI有史以來(lái)最好的模型,它很智能,速度很快,是原生多模態(tài),并且它可供所有ChatGPT用戶使用,無(wú)論是免費(fèi)版本還是付費(fèi)GPT-4版。

今年10月,實(shí)時(shí)音視頻技術(shù)公司、聲網(wǎng)的兄弟公司Agora作為語(yǔ)音API合作者出現(xiàn)在OpenAI發(fā)布的Realtime API公開(kāi)測(cè)試版中,引發(fā)關(guān)注。在此之前,聲網(wǎng)和Agora上次引發(fā)關(guān)注是兩年前的實(shí)時(shí)語(yǔ)音互動(dòng)Clubhouse風(fēng)靡全球,而Agora提供實(shí)時(shí)互動(dòng)技術(shù)支持,該公司市值一度暴漲到100億美元以上。

年初至今,Agora,Inc.集團(tuán)美股上漲了20%左右,主要受益于生成式AI和海外直播電商熱潮。

10月25日,趙斌在演講中透露,過(guò)去的十年,RTE能力在各種手機(jī)應(yīng)用和軟件中的穿透力從不到1%,到2021年大概7%,到現(xiàn)在超過(guò)10%,差不多在以每年1%的速度持續(xù)穿透到各種應(yīng)用。

目前,聲網(wǎng)單月服務(wù)超過(guò)700億分鐘(按頻繁人數(shù)計(jì)時(shí))。

會(huì)上,聲網(wǎng)正式發(fā)布RTE+AI能力全景圖,其中包括從實(shí)時(shí)AI基礎(chǔ)設(shè)施、RTE+AI生態(tài)能力、聲網(wǎng)AI Agent、實(shí)時(shí)多模態(tài)對(duì)話式AI解決方案、RTE+AI應(yīng)用場(chǎng)景五個(gè)維度,呈現(xiàn)當(dāng)下RTE與AI相結(jié)合的技術(shù)能力與應(yīng)用方案。

23d983bb0e7befcd3bfe6b655b2a4139_1730098439.jpeg

趙斌強(qiáng)調(diào),生成式AI正在驅(qū)動(dòng)終端、軟件、云和人機(jī)界面四個(gè)層面發(fā)生變革。在終端上,大模型能力將驅(qū)動(dòng)PC和Phone往AI PC和AI Phone的方向進(jìn)化;在軟件上,所有軟件將通過(guò)大模型重新實(shí)現(xiàn),從Software with AI發(fā)展至AI Native Software;云層面,所有云都需要具備對(duì)大模型訓(xùn)練和推理的能力,AI Native Cloud將成為主流;人機(jī)界面的主流交互方式將從鍵盤、鼠標(biāo)、觸屏變成自然語(yǔ)言對(duì)話界面(LUI)。

此外,今年RTE活動(dòng)上還討論了紅杉資本合伙人David Cahn(大衛(wèi)·卡恩)曾提出的“AI支出6000億美元難題”,即AI基礎(chǔ)設(shè)施的巨額投資和實(shí)際收入之間差距過(guò)大。

eed93b1ed0dd8ec6e0a6bfca4b783b91_1730098439.jpeg

對(duì)此,Lepton AI創(chuàng)始人兼首席執(zhí)行官賈揚(yáng)清認(rèn)為,同等尺寸的模型,能力會(huì)越來(lái)越強(qiáng),尤其是通過(guò)蒸餾、壓縮等技術(shù),現(xiàn)在的Llama 3.2 3B(30億參數(shù))模型甚至可以和以前的Llama 70B模型能力相近。除了極少數(shù)頭部公司之外,越來(lái)越多的企業(yè)會(huì)采用“開(kāi)源+精調(diào)”來(lái)做下一代模型,因此開(kāi)源架構(gòu)的應(yīng)用會(huì)越來(lái)越普遍。

賈揚(yáng)清判斷,推理成本一年內(nèi)會(huì)降到現(xiàn)在的1/10,創(chuàng)業(yè)者在構(gòu)建應(yīng)用時(shí)可以按照做一個(gè)應(yīng)用成本是目前1/10來(lái)進(jìn)行成本核算,看能不能做,包括模型、硬件和應(yīng)用在上量后,也都是可以降低成本的。

Hugging Face工程師王鐵震表示,現(xiàn)在擔(dān)心AI取代人類是比較早的,但是AI已經(jīng)對(duì)一些行業(yè)產(chǎn)生了不好影響,比如視頻以假亂真的影響,包括對(duì)青少年心理的影響,而這里創(chuàng)業(yè)的機(jī)會(huì)也是非常多的。

MiniMax合伙人魏偉強(qiáng)調(diào),隨著多模態(tài)的出現(xiàn),生成式AI的邊界一定會(huì)被繼續(xù)拓展,文本、語(yǔ)音、音樂(lè)、視頻這些模型可以很好地幫助藝術(shù)、影視、音樂(lè)等領(lǐng)域的創(chuàng)作者極大地提高效率,并加速相關(guān)產(chǎn)業(yè)的變革。

“過(guò)去的十年,實(shí)時(shí)互動(dòng)從理念發(fā)展成一個(gè)行業(yè)。實(shí)時(shí)互動(dòng)技術(shù)不僅助力社交泛娛樂(lè)、在線教育、IoT、企業(yè)服務(wù)等幾十個(gè)行業(yè)、數(shù)百個(gè)場(chǎng)景實(shí)現(xiàn)了跨越式成長(zhǎng),也支撐了諸多互聯(lián)網(wǎng)風(fēng)口的進(jìn)化。我們有理由期待下一個(gè)十年更為波瀾壯闊和激動(dòng)人心,開(kāi)創(chuàng)一個(gè)生成式AI時(shí)代下的RTE新篇章。”趙斌在演講結(jié)尾表示。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論