Sora來了,優(yōu)勢是什么?

Sora的推出標(biāo)志著AI研究的一個(gè)重要里程碑。憑借其模擬和理解現(xiàn)實(shí)世界的能力,Sora為未來實(shí)現(xiàn)通用人工智能(AGI)奠定了基礎(chǔ)。從本質(zhì)上講,Sora不僅僅是生成視頻,而是在突破AI所能完成的極限。

640 (2).png

本文來自微信公眾號“人工智能與物聯(lián)網(wǎng)”,作者/chris han。

(1)準(zhǔn)確性和多樣性:Sora的顯著特征之一是能夠準(zhǔn)確解釋長達(dá)135個(gè)單詞的長提示。它可以準(zhǔn)確地解釋用戶提供的文本輸入,并生成具有各種場景和人物的高質(zhì)量視頻剪輯。這一新工具可將簡短的文本描述轉(zhuǎn)化成長達(dá)1分鐘的高清視頻。它涵蓋了廣泛的主題,從人物和動(dòng)物到郁郁蔥蔥的風(fēng)景、城市場景、花園,甚至是水下的紐約市,可根據(jù)用戶的要求提供多樣化的內(nèi)容。

(2)強(qiáng)大的語言理解:OpenAI利用Dall-E模型的re-captioning(重述要點(diǎn))技術(shù),生成視覺訓(xùn)練數(shù)據(jù)的描述性字幕,不僅能提高文本的準(zhǔn)確性,還能提升視頻的整體質(zhì)量。此外,與DALL·E 3類似,OpenAI還利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯,并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。

(3)以圖/視頻生成視頻:Sora除了可以將文本轉(zhuǎn)化為視頻,還能接受其他類型的輸入提示,如已經(jīng)存在的圖像或視頻。這使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動(dòng)畫、向前或向后擴(kuò)展視頻等。OpenAI在報(bào)告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強(qiáng)大功能,還展示了它在圖像和視頻編輯領(lǐng)域的無限潛力。

(4)視頻擴(kuò)展功能:由于可接受多樣化的輸入提示,用戶可以根據(jù)圖像創(chuàng)建視頻或補(bǔ)充現(xiàn)有視頻。作為基于Transformer的擴(kuò)散模型,Sora還能沿時(shí)間線向前或向后擴(kuò)展視頻。從OpenAI提供的4個(gè)demo視頻看,都從同一個(gè)視頻片段開始,向時(shí)間線的過去進(jìn)行延伸。因此,盡管開頭不同,但視頻結(jié)局都是相同的。

(5)優(yōu)異的設(shè)備適配性:Sora具備出色的采樣能力,從寬屏的1920x1080p到豎屏的1080x1920,兩者之間的任何視頻尺寸都能輕松應(yīng)對。這意味著Sora能夠?yàn)楦鞣N設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。而在生成高分辨率內(nèi)容之前,Sora還能以小尺寸迅速創(chuàng)建內(nèi)容原型。

(6)場景和物體的一致性和連續(xù)性:Sora可以生成帶有動(dòng)態(tài)視角變化的視頻,人物和場景元素在三維空間中的移動(dòng)會(huì)顯得更加自然。Sora能夠很好地處理遮擋問題?,F(xiàn)有模型的一個(gè)問題是,當(dāng)物體離開視野時(shí),它們可能無法對其進(jìn)行追蹤。而通過一次性提供多幀預(yù)測,Sora可確保畫面主體即使暫時(shí)離開視野也能保持不變。

Sora的推出標(biāo)志著AI研究的一個(gè)重要里程碑。憑借其模擬和理解現(xiàn)實(shí)世界的能力,Sora為未來實(shí)現(xiàn)通用人工智能(AGI)奠定了基礎(chǔ)。從本質(zhì)上講,Sora不僅僅是生成視頻,而是在突破AI所能完成的極限。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論