Sora“超級涌現(xiàn)力”將把AI引向何方

最近,OpenAI發(fā)布的文生視頻大模型Sora牢牢占據(jù)著科技圈頭條。它的技術配方、其所帶來的行業(yè)影響,以及“眼見不再為實”的全新風險,成為全球關注的話題。

本文來自文匯網(wǎng),作者:吳飛。

最近,OpenAI發(fā)布的文生視頻大模型Sora牢牢占據(jù)著科技圈頭條。它的技術配方、其所帶來的行業(yè)影響,以及“眼見不再為實”的全新風險,成為全球關注的話題。

堪比大片水準的Sora視頻演示引發(fā)業(yè)界極大震撼,其所展現(xiàn)出來的能力幾乎可用“碾壓”來形容。人們不禁要問:從ChatGPT到Sora,人工智能(AI)大模型是如何實現(xiàn)迭代進化的?本報特邀浙江大學上海高等研究院常務副院長、浙江大學人工智能研究所所長吳飛教授為讀者釋疑解惑。

——編者

640 (1).png

Sora模擬視頻中,在海中飛舞的蝴蝶猶如實景拍攝。

美國人工智能研究公司OpenAI最新發(fā)布的文生視頻模型Sora,能夠在接受人類輸入的文本提示詞后,生成一段長達60秒的視頻,實現(xiàn)了內(nèi)容合成從文本到圖像、再到視頻的領域跨越。

這一次次帶來震撼的技術背后,都遵循著同一個原理:對合成內(nèi)容中的最小單元進行有意義的關聯(lián)組合。比如,在保持連貫的上下文語境中,對若干個單詞進行有意義組合,從而連綴成一個會意句子;在保持合理的空間布局下,對眾多圖像小塊進行有意義組合,拼合為一幅精彩圖像;在保持一致的連續(xù)時空內(nèi),對一系列時空子塊進行有意義組合,從而拼接成一段動感視頻。

現(xiàn)實生活中,我們每個人都在通過有價值的內(nèi)容組合來進行交流、設計和創(chuàng)作。唐代詩人盧延讓對“吟安一個字,捻斷數(shù)莖須”的感嘆,講的就是詩人從百千個候選字詞中反復對比、精心挑選出一個合適的單詞,從而寫就一篇傳世之作。南宋詩人陸游所說的“文章本天成,妙手偶得之”,驚嘆的就是讓詞匯恰如其分地出現(xiàn)在了其應該出現(xiàn)的位置,形成語意連貫、文氣貫通的天然佳作。

那么,從ChatGPT到Sora,人工智能(AI)大模型何以合成出有意義、有價值的內(nèi)容?Sora所呈現(xiàn)出的“超級涌現(xiàn)力”將把AI引向何方?

共生即關聯(lián)

從文本構建意義的網(wǎng)絡

2017年,谷歌公司發(fā)表了一篇題為《注意力就是你所需的一切》的論文,提出了一種以自注意力機制為核心的神經(jīng)網(wǎng)絡架構Transformer。

只要給定足夠多的句子,Transformer就可學習句子中單詞與單詞之間的共生關聯(lián)關系。比如,“項莊舞劍,意在沛公”這樣的句子在若干篇文章中出現(xiàn),那么Transformer就會認為“項莊”“舞劍”“沛公”等單詞之間存在共生關系,于是就在它們之間建立關聯(lián),這種關系被稱為“注意力”。

640 (1).png

一段合成視頻中,兩名沖浪者在一座具有歷史感的大廳里乘風破浪。

可以想象,在對海量語料數(shù)據(jù)庫進行學習的基礎上,人工智能算法就可以建立起一個巨大無比的單詞共生關聯(lián)網(wǎng)絡圖。此后,每當人們給定一個單詞,算法就可按照要求,從單詞共生關聯(lián)網(wǎng)絡圖中找到下一個與之關聯(lián)關系最密切的單詞,作為給定單詞的后續(xù)單詞——就這樣一個個接綴合成出句子,最終達到自然語言合成的目的。因此,OpenAI公司CEO山姆·阿爾特曼曾說:“預測下一個單詞是通用人工智能(AGI)能力的關鍵。”

那么,Transformer模型是如何被訓練的?一般采用的是“完形填空”的方法,即如果模型所填單詞與被移除單詞不一致,說明模型尚未形成填空能力,于是可根據(jù)其產(chǎn)生的錯誤來不斷調(diào)整模型參數(shù),直至模型完美完成填空任務。在人工智能領域,這種“填空訓練”的過程被稱為“自監(jiān)督學習”,即模型算法自己準備用來訓練模型參數(shù)的“數(shù)據(jù)燃料”,自行按照預定目標進行學習。

為了讓Transformer從預測下一個單詞到具備“說人話、做人事”的能力,研究者提出了一種被稱為“提示學習”的方法。在提示學習中,人類設計所謂的“提示樣例”,來教人工智能模型學習如何更好地說話。

比如,“我很喜歡這部電影,因為電影呈現(xiàn)的劇情很精彩”“貓比大象要小,因此大象比貓更大”就是典型的提示樣例。一旦設計提示樣例后,算法將樣例中后半句某個關鍵單詞“移除”,然后讓模型去預測被移除的單詞。如此不斷學習,模型就得以知曉在給出前半句后,如何更自然地合成后半句話。

為了進一步提高模型合成語言的性能,Transformer還引入了人類反饋中強化學習(RLHF)的技術,將在交流中人類對模型合成內(nèi)容的反饋作為一種監(jiān)督信息輸入給模型,對模型參數(shù)進行微調(diào),以提高語言模型回答的真實性和流暢性。

640 (1).png

一位女性的秋日特寫人像,細節(jié)模擬精致到位。

在“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”的深度學習框架下,以Transformer為核心打造的ChatGPT涌現(xiàn)出統(tǒng)計關聯(lián)能力,洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關聯(lián)性,體現(xiàn)了語言合成能力。

在大數(shù)據(jù)、大模型和大算力的工程性結合下,ChatGPT的訓練使用了45TB的數(shù)據(jù)、近萬億個單詞,約相當于1351萬本牛津詞典所包含的單詞數(shù)量。經(jīng)折算,訓練ChatGPT所耗費的算力,大概相當于用每秒運算千萬億次的算力對模型訓練3640天。

GPT的出現(xiàn)為探索AGI的實現(xiàn)提供了一種方式,被譽為“AI的iPhone時刻”。英國《自然》雜志列出的2023年度十大人物中,首次將ChatGPT這位“非人類”列入榜單。

重建物理世界

并非簡單“鸚鵡學舌”

人工智能程序一旦捕獲了單詞與單詞之間的共生關聯(lián),就可利用這種關聯(lián)來合成句子。那么,如果將圖像切分為空間子塊,或者將視頻切分為時空子塊,人工智能模型去學習這些子塊在空間維度中的布局分布、在時間維度上的連續(xù)變化等信息,同時學習子塊之間運動、顏色、光照、遮擋等復雜視覺特征,就可能重建、合成新的視頻序列。

目前,合成視頻需要先提供文本提示詞,然后通過文本單詞和時空子塊之間的關聯(lián)來合成新的視頻。但因文本單詞與視覺信息分屬于不同類型,故而存在異構鴻溝困難,這是首先需要解決的難題。其次,還要克服由視頻圖像分辨率過大而帶來的維度災難,以及其所引發(fā)的操作上的挑戰(zhàn)。

640 (1).png

“SORA”云彩圖像

為應對這些挑戰(zhàn),Sora先將文本單詞和視覺子塊映射到同構低維隱性空間,在這一低維隱性空間中引入擴散模型,對視覺信息反復迭代,千錘百煉地挖掘文本單詞、空間子塊和時空子塊之間的關聯(lián)關系。

這種方式好比先通過“車同軌、書同文”,將文本、視覺等異構信息投影到同構空間,然后再通過“先破壞(添加噪音)”“再重建(去除噪音)”的迭代手段,來洞悉視頻中各種不同單元在時間和空間中的關聯(lián)關系,從而甄別和學習紋理、運動、光照、遮擋、交互等復雜視覺物理規(guī)律。

這就好比魯班學藝,不斷將大橋拆散再拼裝,從這個反復過程中知曉它們的跨結構、支座系統(tǒng)、橋墩、橋臺和墩臺之間的組合關系,從而練就重建大橋的能力。因此,Sora合成視頻的過程并非是簡單隨機的“鸚鵡學舌”,而是對物理世界的重建。

由此可見,盡管Sora并未使用與過往不同的新技術,幾乎所有技術都是已經(jīng)公開的,但其所用的視頻生成方式對算力要求極高,而這種對算力和資金消耗極大的方式,大幅提升了同行跟進的門檻。同時,Sora利用GPT系統(tǒng)對提示詞進行了潤色與豐富,從而拉開了與之前文本生成視頻模型之間的差距,形成了對手短期內(nèi)難以跟進的優(yōu)勢。

Sora涌現(xiàn)力

自然世界“昨日重現(xiàn)”

Sora這次帶來了多重驚喜:其一是具備合成1分鐘超長視頻能力。此前的文本生成視頻大模型無法真正突破合成10秒自然連貫視頻的瓶頸;其二是Sora視頻是對自然世界中不同對象行為方式的“昨日重現(xiàn)”,比如能有效模擬人物、動物或物品被遮擋或離開/回到視線的場景,因此有媒體認為Sora是數(shù)據(jù)驅動下對物理世界進行模擬的引擎。

640 (1).png

Sora模擬生成的一只戴著貝雷帽、穿著黑色高領毛衣的柴犬

Sora對長時間視頻合成的能力,來自Transformer能夠處理長時間信息中最小單元之間的自注意力機制。例如,同樣是基于Transformer的GPT4允許處理3萬多個tokens(機器模型輸入的基本單位),而谷歌最近發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro就把穩(wěn)定處理上下文的上限擴大至100萬個tokens。

Sora之所以能對物理世界規(guī)律進行模擬,一個可能的原因在于大數(shù)據(jù)驅動下,人工智能模型體現(xiàn)出一種學習能力,即Sora通過觀察和學習海量視頻數(shù)據(jù)后,洞察了視頻中時空子塊單元之間所應保持的物理規(guī)律。

其實,人類也是基于對自然界斗轉星移、節(jié)氣變遷和晝夜交替,以及微觀物質世界物質合成與生命演化的觀測,推導出各種物理規(guī)律。雖然Sora很難像人類一樣,將物理世界中諸如牛頓定律、湍流方程和量子學定理等,以數(shù)學方程羅列于人工模型中,但Sora能記住時空子塊單元之間應遵守的模式,進而利用這些模式約束時空子塊的組合。

理查德·費曼在《物理學講義》中曾提及,在生物學、人類學或經(jīng)濟學等復雜系統(tǒng)中,很少有一種簡潔的數(shù)學理論能與數(shù)學物理學理論中的數(shù)值精確度相媲美,其原因在于“其過于復雜,而我們的思維有限”,這被稱為“費曼極限”。

640 (1).png

Sora也能夠生成動畫視頻,圖為一個怪物家族的卡通視頻截圖,它采用扁平化的設計風格,包括毛茸茸的棕色怪物、帶天線的黑色怪物、斑點綠色怪物和小小的圓點怪物等。

數(shù)據(jù)驅動的機器學習由于其函數(shù)逼近能力,擅長從微觀上發(fā)掘復雜系統(tǒng)的模式,以統(tǒng)計方法擬合高維復雜系統(tǒng),被譽為神經(jīng)網(wǎng)絡模型的“涌現(xiàn)能力”。涌現(xiàn)性是一種結構效應,是組成成分按照系統(tǒng)結構方式相互作用、相互補充、相互制約而激發(fā)出的特征。

機器學習模型展現(xiàn)出的涌現(xiàn)能力具有重要的科學意義。因為,如果涌現(xiàn)能力是永無盡頭的,那么只要模型足夠大,類人人工智能的出現(xiàn)就是必然。當然,神經(jīng)網(wǎng)絡的涌現(xiàn)性目前仍然是一個開放的問題。

Sora的涌現(xiàn)力或許可以這樣認為:在億萬個非線性映射函數(shù)組合之下,人工智能模型對最小時空子塊單元進行各種意想不到的組合,合成出先前從未有過的內(nèi)容。而這正是這一輪人工智能在數(shù)據(jù)、模型、算力“三駕馬車”推動下飛速發(fā)展的必然結果。

文:吳飛

圖:OpenAI官網(wǎng)視頻截圖

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論