火山引擎丟出視頻大模型「王炸」,云廠商從「價格戰(zhàn)」回歸「卷性能」

宛辰
不一定要搶第一,要推出成熟的產(chǎn)品,因為模型對未來10-20年影響長遠,做好積累后發(fā)先至也是好事。

本文來自極客公園(www.geekpark.net),作者 | 宛辰。

808a1c5a338e135324af755e18d9619a.jpg

更好的模型性能、更好用的模型服務(wù),才能在產(chǎn)品上打開更多場景。

自今年2月Sora面世以來,很多人都期待字節(jié)的動作。擁有抖音和剪映這兩個最強的視頻App在手,字節(jié)的視頻生成大模型,被寄予厚望。

這就來了。

9月24日,字節(jié)跳動旗下火山引擎在深圳舉辦AI創(chuàng)新巡展,一舉發(fā)布了包括「豆包視頻生成大模型」「音樂生成大模型」在內(nèi)的多款模型。

在此之前,海內(nèi)外不少現(xiàn)象級的同類模型產(chǎn)品相繼發(fā)布,包括字節(jié)跳動相繼發(fā)布的即夢、海綿音樂,和剪映(含CapCut)中的新功能。秘而不宣的海綿音樂App更是被視為最適合中文的音樂生成App、國內(nèi)當(dāng)之無愧的「Suno」。

字節(jié)為什么選擇在多少有些「AI產(chǎn)品看麻了」的9月,推出這幾款A(yù)I App背后的大模型引擎?

對此,火山引擎總裁譚待向極客公園表示,不是按照某個固定計劃精心設(shè)計什么節(jié)點發(fā)布,AI模型進展日新月異,什么時候做好、適合對外就盡快發(fā)布。

這背后的邏輯是,火山引擎的定位是字節(jié)跳動的ToB云平臺,模型對企業(yè)的開放由火山引擎來做,但推出產(chǎn)品前,需要先在內(nèi)部使用,打磨到一定程度、做到企業(yè)級可用,才會向外推出。此前發(fā)布的豆包也是如此,先有字節(jié)內(nèi)部推出的產(chǎn)品豆包App,再有今年5月由火山引擎推出企業(yè)級可用的豆包大模型。

他補充說:「不一定要搶第一,要推出成熟的產(chǎn)品,因為模型對未來10-20年影響長遠,做好積累后發(fā)先至也是好事?!?/p>

而火山引擎未來十年要駛向的遠方,并不是一個、兩個模型比如視頻生成模型的領(lǐng)先,而是「成為全球領(lǐng)先的云和AI服務(wù)商」。

01抖音和剪映加持,字節(jié)視頻生成大模型更關(guān)注使用場景

視頻生成大模型,成為整場發(fā)布會最大的亮點。

譚待表示,「因為視頻特別難,我們一次性推出兩個,充分解決視頻里面的各種問題」。豆包家族新成員——豆包視頻生成-PixelDance、豆包視頻生成-Seaweed,正式面向企業(yè)市場開啟邀測。

從現(xiàn)場展示來看,豆包視頻模型可以根據(jù)文字和圖片的輸入,生成相應(yīng)的視頻。值得注意的是,字節(jié)跳動并沒有公布其模型生成視頻的最大時長,盡管后者被認為是體現(xiàn)技術(shù)能力的一大表現(xiàn)。

豆包視頻生成大模型,更強調(diào)其在實際應(yīng)用中、各種生活和商業(yè)場景所需的三個核心功能點。

首先是模型對復(fù)雜指令的理解遵循。以下圖的視頻為例,輸入「特寫?個??的面部,有些??,戴上了?副墨鏡;這時?個男?從畫?右側(cè)?進來抱住了她」。

73290d6eb9e62423fd05e7949677e968.gif

在這個相對復(fù)雜的描述下,豆包模型生成的視頻呈現(xiàn)出了一個人情緒的變化、動作前后時間的變化,還出現(xiàn)了一個新的人物,這個新的人物跟原來的人物也有交互。換言之,豆包視頻大模型能夠根據(jù)指令實現(xiàn)時序性上有連續(xù)的動作指令,并且可以生成多個主體,并且讓多個主體間進行交互。

豆包視頻模型的第二個特點在于運鏡,?包視頻模型讓視頻在主體的?動態(tài)與鏡頭中進行切換,擁有變焦、環(huán)繞、平搖、縮放、?標跟隨等多鏡頭語?的實現(xiàn)。

894d0223101c5dd2d8f5c1a867821425.gif

生成的視頻可以靈活控制視?,更接近真實世界的體驗|視頻來源:字節(jié)跳動

第三個特點則是?致性多鏡頭。在AI生成的視頻中,如何保證多鏡頭來回切時,不同主體在來回切換中的鏡頭是一致的,這也是當(dāng)前行業(yè)的共性難點。

6171a46175a06950602283fd0f2ed8e5.gif

豆包在一個prompt下生成的視頻,可以實現(xiàn)多個鏡頭切換,同時保持主體、?格、氛圍的?致性。|來源:字節(jié)跳動

在談及豆包視頻生成大模型的特點時,譚待表示,豆包視頻大模型背后有兩方面優(yōu)勢,一是技術(shù)突破和全棧能力等優(yōu)勢,在技術(shù)上,字節(jié)在這兩款視頻模型上做了大量技術(shù)創(chuàng)新,比如通過?效的DiT融合計算單元、全新設(shè)計的擴散模型訓(xùn)練?法和深度優(yōu)化后的Transformer結(jié)構(gòu),讓整個?成視頻的動作更靈動、鏡頭更多樣、細節(jié)更豐滿。

同時抖音、剪映對視頻的理解也是優(yōu)勢?!讣粲硨σ曨l的理解、對豆包視頻生成模型有幫助,指令遵循做得好也離不開語言模型,豆包是全體系模型,底層有基座模型有助于更好地理解指令?!?/p>

在深入到視頻場景的解決方案上,豆包視頻模型支持不同題材類型,?持包括??、3d動畫、2d動畫、國畫、?彩、?粉等多種?格,包含支持1:1,3:4,4:3,16:9,9:16,21:9等多個比例,對應(yīng)于電影、電視、電腦、手機等多個商業(yè)場景。

704cefaac048dc0a15eb995f56bbf555.jpeg

?包視頻?成模型通過整個模型能把商品快速3D,而且動態(tài)多?度展?,還能配合不同的節(jié)日,比如中秋、七夕、春節(jié)等節(jié)點快速替換背景和?格,?成不同尺?的內(nèi)容發(fā)布到不同平臺上,最終適合整體營銷的戰(zhàn)略完成。

在更聚焦的場景上,豆包視頻模型也推出了更適配的解決方案,?如電商營銷場景,可以讓用戶根據(jù)商品生成大量的配合營銷節(jié)點的視頻素材,并且適配不同媒體平臺的不同尺?發(fā)布。

在視頻發(fā)布環(huán)節(jié),還有一個彩蛋,火山引擎帶來了內(nèi)部——剪映和即夢如何使用視頻?成模型的實踐案例。從抖音轉(zhuǎn)戰(zhàn)剪映CapCut的張楠(Kelly)通過數(shù)字分身Kelly的形式亮相。

a949f535d7e1ee1a384f98e7dd1f298b.jpeg

在該數(shù)字人視頻中,Kelly數(shù)字分身的動作像真人一樣自然,口型也可以與各國的不同語言完全適配。

這個案例也向外界展示了豆包視頻大模型在場景上帶來的新可能,比如自媒體、口播、營銷、帶貨、企業(yè)培訓(xùn)等,不必親自上陣進行拍攝,內(nèi)容制作成本也可以大幅降低。

據(jù)悉,豆包視頻模型不是期貨,最新模型會在國慶節(jié)后上線到火山引擎方舟平臺,即夢最新內(nèi)測版已經(jīng)使用了豆包視頻生成模型-Seawe。

至于定價問題,譚待表示還沒確定。他稱「視頻模型和語言模型應(yīng)用場景不同,定價邏輯也不同。要考慮新體驗-老體驗-遷移成本,最終能否廣泛應(yīng)用取決于是否比以前生產(chǎn)力ROI提升很多?!?/p>

02從「卷」價格,回到「卷」性能

與視頻大模型一同發(fā)布的,還有音樂大模型、同聲傳譯大模型,和豆包主力模型的新升級。就像豆包視頻模型的效果讓人眼前一亮,上述模型產(chǎn)品也均有亮眼的性能提升。

這一系列新升級也反應(yīng)了,火山引擎開始從「卷價格」到「卷性能」的轉(zhuǎn)變,后者將會成為其下一階段的戰(zhàn)略重點。會后接受采訪時,火山引擎總裁譚待重申了這一立場,他表示:「大模型的應(yīng)用成本已經(jīng)得到很好解決。大模型要從卷價格走向卷性能、卷更好的模型能力和服務(wù)」。

早在今年5月,火山引擎推出的豆包大模型把價格降至最低每千token低于一厘錢,引發(fā)了大模型廠商的價格戰(zhàn)。從那以來,模型廠商的整體模型調(diào)用量均出現(xiàn)了大幅提升。

據(jù)火山引擎披露,截至9月,豆包語言模型的日均tokens使用量超過1.3萬億,相比5月首次發(fā)布時增長超十倍,多模態(tài)數(shù)據(jù)處理量也分別達到每天5000萬張圖片和85萬小時語音。

盡管如此,模型性能掣肘成為了模型調(diào)用量進一步提升的瓶頸,同時也是機會。譚待舉例稱,業(yè)內(nèi)多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數(shù)),難以承載企業(yè)生產(chǎn)環(huán)境流量。例如某科研機構(gòu)的文獻翻譯場景,TPM峰值為360K,某汽車智能座艙的TPM峰值為420K,某AI教育公司的TPM峰值更是達到630K。為此,豆包大模型默認支持800K的初始TPM,超行業(yè)平均水平,客戶還可根據(jù)需求靈活擴容。

此前MiniMax創(chuàng)始人閆俊杰向極客公園表示,從技術(shù)發(fā)展的角度看,模型推理成本10倍、百倍的降低是必然,只是時間問題,難的是通用模型的性能提升。

在看到從ChatGPT到GPT-4,性能出現(xiàn)了大幅提升時,大模型領(lǐng)域也沿著OpenAI在模型預(yù)訓(xùn)練上做Scaling Law,旨在用更多的數(shù)據(jù)、加更多的算力、提升模型參數(shù)量的做法來提升模型性能。隨著這一路徑的效率降低、優(yōu)質(zhì)數(shù)據(jù)耗盡的擔(dān)憂,通過這一方法提升性能的路徑陷入瓶頸。

現(xiàn)在,隨著o1的出現(xiàn),大模型在推理階段引入強化學(xué)習(xí)的路徑,帶來了進一步提升模型性能的明確路徑。

同時,隨著更多企業(yè)在AI應(yīng)用上的探索,也為模型性能的定向提升帶來了很多工程調(diào)優(yōu)手段。更好的模型性能、更好用的模型服務(wù),才能在產(chǎn)品上打開更多場景,而這也將成為包括火山引擎在內(nèi)的AI基礎(chǔ)設(shè)施服務(wù)商們下一階段的重點。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論