妺妺窝人体色777777,国产四虎免费精品视频,国产成人三级在线视频网站观看

火山引擎丟出視頻大模型「王炸」，云廠商從「價格戰(zhàn)」回歸「卷性能」

2024-09-29 08:52

極客公園

宛辰

不一定要搶第一，要推出成熟的產(chǎn)品，因為模型對未來10-20年影響長遠，做好積累后發(fā)先至也是好事。

本文來自極客公園（www.geekpark.net），作者 | 宛辰。

更好的模型性能、更好用的模型服務(wù)，才能在產(chǎn)品上打開更多場景。

自今年2月Sora面世以來，很多人都期待字節(jié)的動作。擁有抖音和剪映這兩個最強的視頻App在手，字節(jié)的視頻生成大模型，被寄予厚望。

這就來了。

9月24日，字節(jié)跳動旗下火山引擎在深圳舉辦AI創(chuàng)新巡展，一舉發(fā)布了包括「豆包視頻生成大模型」「音樂生成大模型」在內(nèi)的多款模型。

在此之前，海內(nèi)外不少現(xiàn)象級的同類模型產(chǎn)品相繼發(fā)布，包括字節(jié)跳動相繼發(fā)布的即夢、海綿音樂，和剪映（含CapCut）中的新功能。秘而不宣的海綿音樂App更是被視為最適合中文的音樂生成App、國內(nèi)當(dāng)之無愧的「Suno」。

字節(jié)為什么選擇在多少有些「AI產(chǎn)品看麻了」的9月，推出這幾款A(yù)I App背后的大模型引擎？

對此，火山引擎總裁譚待向極客公園表示，不是按照某個固定計劃精心設(shè)計什么節(jié)點發(fā)布，AI模型進展日新月異，什么時候做好、適合對外就盡快發(fā)布。

這背后的邏輯是，火山引擎的定位是字節(jié)跳動的ToB云平臺，模型對企業(yè)的開放由火山引擎來做，但推出產(chǎn)品前，需要先在內(nèi)部使用，打磨到一定程度、做到企業(yè)級可用，才會向外推出。此前發(fā)布的豆包也是如此，先有字節(jié)內(nèi)部推出的產(chǎn)品豆包App，再有今年5月由火山引擎推出企業(yè)級可用的豆包大模型。

他補充說：「不一定要搶第一，要推出成熟的產(chǎn)品，因為模型對未來10-20年影響長遠，做好積累后發(fā)先至也是好事?！?/p>

而火山引擎未來十年要駛向的遠方，并不是一個、兩個模型比如視頻生成模型的領(lǐng)先，而是「成為全球領(lǐng)先的云和AI服務(wù)商」。

01抖音和剪映加持，字節(jié)視頻生成大模型更關(guān)注使用場景

視頻生成大模型，成為整場發(fā)布會最大的亮點。

譚待表示，「因為視頻特別難，我們一次性推出兩個，充分解決視頻里面的各種問題」。豆包家族新成員——豆包視頻生成-PixelDance、豆包視頻生成-Seaweed，正式面向企業(yè)市場開啟邀測。

從現(xiàn)場展示來看，豆包視頻模型可以根據(jù)文字和圖片的輸入，生成相應(yīng)的視頻。值得注意的是，字節(jié)跳動并沒有公布其模型生成視頻的最大時長，盡管后者被認為是體現(xiàn)技術(shù)能力的一大表現(xiàn)。

豆包視頻生成大模型，更強調(diào)其在實際應(yīng)用中、各種生活和商業(yè)場景所需的三個核心功能點。

首先是模型對復(fù)雜指令的理解遵循。以下圖的視頻為例，輸入「特寫?個??的面部，有些??，戴上了?副墨鏡；這時?個男?從畫?右側(cè)?進來抱住了她」。

在這個相對復(fù)雜的描述下，豆包模型生成的視頻呈現(xiàn)出了一個人情緒的變化、動作前后時間的變化，還出現(xiàn)了一個新的人物，這個新的人物跟原來的人物也有交互。換言之，豆包視頻大模型能夠根據(jù)指令實現(xiàn)時序性上有連續(xù)的動作指令，并且可以生成多個主體，并且讓多個主體間進行交互。

豆包視頻模型的第二個特點在于運鏡，?包視頻模型讓視頻在主體的?動態(tài)與鏡頭中進行切換，擁有變焦、環(huán)繞、平搖、縮放、?標跟隨等多鏡頭語?的實現(xiàn)。

生成的視頻可以靈活控制視?，更接近真實世界的體驗｜視頻來源：字節(jié)跳動

第三個特點則是?致性多鏡頭。在AI生成的視頻中，如何保證多鏡頭來回切時，不同主體在來回切換中的鏡頭是一致的，這也是當(dāng)前行業(yè)的共性難點。

豆包在一個prompt下生成的視頻，可以實現(xiàn)多個鏡頭切換，同時保持主體、?格、氛圍的?致性。｜來源：字節(jié)跳動

在談及豆包視頻生成大模型的特點時，譚待表示，豆包視頻大模型背后有兩方面優(yōu)勢，一是技術(shù)突破和全棧能力等優(yōu)勢，在技術(shù)上，字節(jié)在這兩款視頻模型上做了大量技術(shù)創(chuàng)新，比如通過?效的DiT融合計算單元、全新設(shè)計的擴散模型訓(xùn)練?法和深度優(yōu)化后的Transformer結(jié)構(gòu)，讓整個?成視頻的動作更靈動、鏡頭更多樣、細節(jié)更豐滿。

同時抖音、剪映對視頻的理解也是優(yōu)勢?！讣粲硨σ曨l的理解、對豆包視頻生成模型有幫助，指令遵循做得好也離不開語言模型，豆包是全體系模型，底層有基座模型有助于更好地理解指令?！?/p>

在深入到視頻場景的解決方案上，豆包視頻模型支持不同題材類型，?持包括??、3d動畫、2d動畫、國畫、?彩、?粉等多種?格，包含支持1:1，3:4，4:3，16:9，9:16，21:9等多個比例，對應(yīng)于電影、電視、電腦、手機等多個商業(yè)場景。

?包視頻?成模型通過整個模型能把商品快速3D，而且動態(tài)多?度展?，還能配合不同的節(jié)日，比如中秋、七夕、春節(jié)等節(jié)點快速替換背景和?格，?成不同尺?的內(nèi)容發(fā)布到不同平臺上，最終適合整體營銷的戰(zhàn)略完成。

在更聚焦的場景上，豆包視頻模型也推出了更適配的解決方案，?如電商營銷場景，可以讓用戶根據(jù)商品生成大量的配合營銷節(jié)點的視頻素材，并且適配不同媒體平臺的不同尺?發(fā)布。

在視頻發(fā)布環(huán)節(jié)，還有一個彩蛋，火山引擎帶來了內(nèi)部——剪映和即夢如何使用視頻?成模型的實踐案例。從抖音轉(zhuǎn)戰(zhàn)剪映CapCut的張楠（Kelly）通過數(shù)字分身Kelly的形式亮相。

在該數(shù)字人視頻中，Kelly數(shù)字分身的動作像真人一樣自然，口型也可以與各國的不同語言完全適配。

這個案例也向外界展示了豆包視頻大模型在場景上帶來的新可能，比如自媒體、口播、營銷、帶貨、企業(yè)培訓(xùn)等，不必親自上陣進行拍攝，內(nèi)容制作成本也可以大幅降低。

據(jù)悉，豆包視頻模型不是期貨，最新模型會在國慶節(jié)后上線到火山引擎方舟平臺，即夢最新內(nèi)測版已經(jīng)使用了豆包視頻生成模型-Seawe。

至于定價問題，譚待表示還沒確定。他稱「視頻模型和語言模型應(yīng)用場景不同，定價邏輯也不同。要考慮新體驗-老體驗-遷移成本，最終能否廣泛應(yīng)用取決于是否比以前生產(chǎn)力ROI提升很多?！?/p>

02從「卷」價格，回到「卷」性能

與視頻大模型一同發(fā)布的，還有音樂大模型、同聲傳譯大模型，和豆包主力模型的新升級。就像豆包視頻模型的效果讓人眼前一亮，上述模型產(chǎn)品也均有亮眼的性能提升。

這一系列新升級也反應(yīng)了，火山引擎開始從「卷價格」到「卷性能」的轉(zhuǎn)變，后者將會成為其下一階段的戰(zhàn)略重點。會后接受采訪時，火山引擎總裁譚待重申了這一立場，他表示：「大模型的應(yīng)用成本已經(jīng)得到很好解決。大模型要從卷價格走向卷性能、卷更好的模型能力和服務(wù)」。

早在今年5月，火山引擎推出的豆包大模型把價格降至最低每千token低于一厘錢，引發(fā)了大模型廠商的價格戰(zhàn)。從那以來，模型廠商的整體模型調(diào)用量均出現(xiàn)了大幅提升。

據(jù)火山引擎披露，截至9月，豆包語言模型的日均tokens使用量超過1.3萬億，相比5月首次發(fā)布時增長超十倍，多模態(tài)數(shù)據(jù)處理量也分別達到每天5000萬張圖片和85萬小時語音。

盡管如此，模型性能掣肘成為了模型調(diào)用量進一步提升的瓶頸，同時也是機會。譚待舉例稱，業(yè)內(nèi)多家大模型目前最高僅支持300K甚至100K的TPM（每分鐘token數(shù)），難以承載企業(yè)生產(chǎn)環(huán)境流量。例如某科研機構(gòu)的文獻翻譯場景，TPM峰值為360K，某汽車智能座艙的TPM峰值為420K，某AI教育公司的TPM峰值更是達到630K。為此，豆包大模型默認支持800K的初始TPM，超行業(yè)平均水平，客戶還可根據(jù)需求靈活擴容。

此前MiniMax創(chuàng)始人閆俊杰向極客公園表示，從技術(shù)發(fā)展的角度看，模型推理成本10倍、百倍的降低是必然，只是時間問題，難的是通用模型的性能提升。

在看到從ChatGPT到GPT-4，性能出現(xiàn)了大幅提升時，大模型領(lǐng)域也沿著OpenAI在模型預(yù)訓(xùn)練上做Scaling Law，旨在用更多的數(shù)據(jù)、加更多的算力、提升模型參數(shù)量的做法來提升模型性能。隨著這一路徑的效率降低、優(yōu)質(zhì)數(shù)據(jù)耗盡的擔(dān)憂，通過這一方法提升性能的路徑陷入瓶頸。

現(xiàn)在，隨著o1的出現(xiàn)，大模型在推理階段引入強化學(xué)習(xí)的路徑，帶來了進一步提升模型性能的明確路徑。

同時，隨著更多企業(yè)在AI應(yīng)用上的探索，也為模型性能的定向提升帶來了很多工程調(diào)優(yōu)手段。更好的模型性能、更好用的模型服務(wù)，才能在產(chǎn)品上打開更多場景，而這也將成為包括火山引擎在內(nèi)的AI基礎(chǔ)設(shè)施服務(wù)商們下一階段的重點。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

工信部五所與深信服聯(lián)合發(fā)布《2024上半年網(wǎng)絡(luò)安全漏洞態(tài)勢報告》

火山引擎丟出視頻大模型「王炸」，云廠商從「價格戰(zhàn)」回歸「卷性能」

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

火山引擎丟出視頻大模型「王炸」，云廠商從「價格戰(zhàn)」回歸「卷性能」

最新評論（評論僅代表用戶觀點）

CIO指南：數(shù)據(jù)治理工作需關(guān)注的4個智能應(yīng)用場景

谷歌 AI 沒有覺醒，科幻電影走不進現(xiàn)實

工信部、科技部、北京市政府聯(lián)合印發(fā)《中關(guān)村世界領(lǐng)先科技園區(qū)建設(shè)方案（2024—2027年）》

大模型時代的隱私保護與內(nèi)容安全

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

摩爾線程首款國潮游戲顯卡MTT S80重磅發(fā)布

ChatGPT火爆登場 AIGC在細分領(lǐng)域大有可為

金云數(shù)據(jù)打造數(shù)字孿生智慧管控平臺助力物業(yè)管理數(shù)字化提升

喻芯半導(dǎo)體精彩亮相2023世界半導(dǎo)體大會

助力數(shù)據(jù)中心降溫又降碳施耐德電氣發(fā)布新InRow系列變頻風(fēng)冷氟泵行級精密空調(diào)

“數(shù)據(jù)賦能共建共享”2022中國數(shù)字服務(wù)大會線上成功召開

熱點資訊

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標綠色新生

工信部五所與深信服聯(lián)合發(fā)布《2024上半年網(wǎng)絡(luò)安全漏洞態(tài)勢報告》

奇安信集團董事長齊向東：用一體化安全體系護航一體化算力體系

火山引擎丟出視頻大模型「王炸」，云廠商從「價格戰(zhàn)」回歸「卷性能」

最新評論（評論僅代表用戶觀點）

欄目推薦

CIO指南：數(shù)據(jù)治理工作需關(guān)注的4個智能應(yīng)用場景

谷歌 AI 沒有覺醒，科幻電影走不進現(xiàn)實

工信部、科技部、北京市政府聯(lián)合印發(fā)《中關(guān)村世界領(lǐng)先科技園區(qū)建設(shè)方案（2024—2027年）》

大模型時代的隱私保護與內(nèi)容安全

本月熱門

精選文章

熱點資訊

工信部五所與深信服聯(lián)合發(fā)布《2024上半年網(wǎng)絡(luò)安全漏洞態(tài)勢報告》

奇安信集團董事長齊向東：用一體化安全體系護航一體化算力體系

工信部、科技部、北京市政府聯(lián)合印發(fā)《中關(guān)村世界領(lǐng)先科技園區(qū)建設(shè)方案（2024—2027年）》