亚洲精品国产自在现线最新,国产成人无码区免费网站,亚洲色成人一区二区三区小说

Sora“超級涌現(xiàn)力”將把AI引向何方

2024-02-26 11:04

文匯網(wǎng)

吳飛

最近，OpenAI發(fā)布的文生視頻大模型Sora牢牢占據(jù)著科技圈頭條。它的技術配方、其所帶來的行業(yè)影響，以及“眼見不再為實”的全新風險，成為全球關注的話題。

本文來自文匯網(wǎng)，作者：吳飛。

堪比大片水準的Sora視頻演示引發(fā)業(yè)界極大震撼，其所展現(xiàn)出來的能力幾乎可用“碾壓”來形容。人們不禁要問：從ChatGPT到Sora，人工智能（AI）大模型是如何實現(xiàn)迭代進化的？本報特邀浙江大學上海高等研究院常務副院長、浙江大學人工智能研究所所長吳飛教授為讀者釋疑解惑。

——編者

Sora模擬視頻中，在海中飛舞的蝴蝶猶如實景拍攝。

美國人工智能研究公司OpenAI最新發(fā)布的文生視頻模型Sora，能夠在接受人類輸入的文本提示詞后，生成一段長達60秒的視頻，實現(xiàn)了內(nèi)容合成從文本到圖像、再到視頻的領域跨越。

這一次次帶來震撼的技術背后，都遵循著同一個原理：對合成內(nèi)容中的最小單元進行有意義的關聯(lián)組合。比如，在保持連貫的上下文語境中，對若干個單詞進行有意義組合，從而連綴成一個會意句子；在保持合理的空間布局下，對眾多圖像小塊進行有意義組合，拼合為一幅精彩圖像；在保持一致的連續(xù)時空內(nèi)，對一系列時空子塊進行有意義組合，從而拼接成一段動感視頻。

現(xiàn)實生活中，我們每個人都在通過有價值的內(nèi)容組合來進行交流、設計和創(chuàng)作。唐代詩人盧延讓對“吟安一個字，捻斷數(shù)莖須”的感嘆，講的就是詩人從百千個候選字詞中反復對比、精心挑選出一個合適的單詞，從而寫就一篇傳世之作。南宋詩人陸游所說的“文章本天成，妙手偶得之”，驚嘆的就是讓詞匯恰如其分地出現(xiàn)在了其應該出現(xiàn)的位置，形成語意連貫、文氣貫通的天然佳作。

那么，從ChatGPT到Sora，人工智能（AI）大模型何以合成出有意義、有價值的內(nèi)容？Sora所呈現(xiàn)出的“超級涌現(xiàn)力”將把AI引向何方？

共生即關聯(lián)

從文本構建意義的網(wǎng)絡

2017年，谷歌公司發(fā)表了一篇題為《注意力就是你所需的一切》的論文，提出了一種以自注意力機制為核心的神經(jīng)網(wǎng)絡架構Transformer。

只要給定足夠多的句子，Transformer就可學習句子中單詞與單詞之間的共生關聯(lián)關系。比如，“項莊舞劍，意在沛公”這樣的句子在若干篇文章中出現(xiàn)，那么Transformer就會認為“項莊”“舞劍”“沛公”等單詞之間存在共生關系，于是就在它們之間建立關聯(lián)，這種關系被稱為“注意力”。

一段合成視頻中，兩名沖浪者在一座具有歷史感的大廳里乘風破浪。

可以想象，在對海量語料數(shù)據(jù)庫進行學習的基礎上，人工智能算法就可以建立起一個巨大無比的單詞共生關聯(lián)網(wǎng)絡圖。此后，每當人們給定一個單詞，算法就可按照要求，從單詞共生關聯(lián)網(wǎng)絡圖中找到下一個與之關聯(lián)關系最密切的單詞，作為給定單詞的后續(xù)單詞——就這樣一個個接綴合成出句子，最終達到自然語言合成的目的。因此，OpenAI公司CEO山姆·阿爾特曼曾說：“預測下一個單詞是通用人工智能（AGI）能力的關鍵。”

那么，Transformer模型是如何被訓練的？一般采用的是“完形填空”的方法，即如果模型所填單詞與被移除單詞不一致，說明模型尚未形成填空能力，于是可根據(jù)其產(chǎn)生的錯誤來不斷調(diào)整模型參數(shù)，直至模型完美完成填空任務。在人工智能領域，這種“填空訓練”的過程被稱為“自監(jiān)督學習”，即模型算法自己準備用來訓練模型參數(shù)的“數(shù)據(jù)燃料”，自行按照預定目標進行學習。

為了讓Transformer從預測下一個單詞到具備“說人話、做人事”的能力，研究者提出了一種被稱為“提示學習”的方法。在提示學習中，人類設計所謂的“提示樣例”，來教人工智能模型學習如何更好地說話。

比如，“我很喜歡這部電影，因為電影呈現(xiàn)的劇情很精彩”“貓比大象要小，因此大象比貓更大”就是典型的提示樣例。一旦設計提示樣例后，算法將樣例中后半句某個關鍵單詞“移除”，然后讓模型去預測被移除的單詞。如此不斷學習，模型就得以知曉在給出前半句后，如何更自然地合成后半句話。

為了進一步提高模型合成語言的性能，Transformer還引入了人類反饋中強化學習（RLHF）的技術，將在交流中人類對模型合成內(nèi)容的反饋作為一種監(jiān)督信息輸入給模型，對模型參數(shù)進行微調(diào)，以提高語言模型回答的真實性和流暢性。

一位女性的秋日特寫人像，細節(jié)模擬精致到位。

在“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”的深度學習框架下，以Transformer為核心打造的ChatGPT涌現(xiàn)出統(tǒng)計關聯(lián)能力，洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關聯(lián)性，體現(xiàn)了語言合成能力。

在大數(shù)據(jù)、大模型和大算力的工程性結合下，ChatGPT的訓練使用了45TB的數(shù)據(jù)、近萬億個單詞，約相當于1351萬本牛津詞典所包含的單詞數(shù)量。經(jīng)折算，訓練ChatGPT所耗費的算力，大概相當于用每秒運算千萬億次的算力對模型訓練3640天。

GPT的出現(xiàn)為探索AGI的實現(xiàn)提供了一種方式，被譽為“AI的iPhone時刻”。英國《自然》雜志列出的2023年度十大人物中，首次將ChatGPT這位“非人類”列入榜單。

重建物理世界

并非簡單“鸚鵡學舌”

人工智能程序一旦捕獲了單詞與單詞之間的共生關聯(lián)，就可利用這種關聯(lián)來合成句子。那么，如果將圖像切分為空間子塊，或者將視頻切分為時空子塊，人工智能模型去學習這些子塊在空間維度中的布局分布、在時間維度上的連續(xù)變化等信息，同時學習子塊之間運動、顏色、光照、遮擋等復雜視覺特征，就可能重建、合成新的視頻序列。

目前，合成視頻需要先提供文本提示詞，然后通過文本單詞和時空子塊之間的關聯(lián)來合成新的視頻。但因文本單詞與視覺信息分屬于不同類型，故而存在異構鴻溝困難，這是首先需要解決的難題。其次，還要克服由視頻圖像分辨率過大而帶來的維度災難，以及其所引發(fā)的操作上的挑戰(zhàn)。

“SORA”云彩圖像

為應對這些挑戰(zhàn)，Sora先將文本單詞和視覺子塊映射到同構低維隱性空間，在這一低維隱性空間中引入擴散模型，對視覺信息反復迭代，千錘百煉地挖掘文本單詞、空間子塊和時空子塊之間的關聯(lián)關系。

這種方式好比先通過“車同軌、書同文”，將文本、視覺等異構信息投影到同構空間，然后再通過“先破壞（添加噪音）”“再重建（去除噪音）”的迭代手段，來洞悉視頻中各種不同單元在時間和空間中的關聯(lián)關系，從而甄別和學習紋理、運動、光照、遮擋、交互等復雜視覺物理規(guī)律。

這就好比魯班學藝，不斷將大橋拆散再拼裝，從這個反復過程中知曉它們的跨結構、支座系統(tǒng)、橋墩、橋臺和墩臺之間的組合關系，從而練就重建大橋的能力。因此，Sora合成視頻的過程并非是簡單隨機的“鸚鵡學舌”，而是對物理世界的重建。

由此可見，盡管Sora并未使用與過往不同的新技術，幾乎所有技術都是已經(jīng)公開的，但其所用的視頻生成方式對算力要求極高，而這種對算力和資金消耗極大的方式，大幅提升了同行跟進的門檻。同時，Sora利用GPT系統(tǒng)對提示詞進行了潤色與豐富，從而拉開了與之前文本生成視頻模型之間的差距，形成了對手短期內(nèi)難以跟進的優(yōu)勢。

Sora涌現(xiàn)力

自然世界“昨日重現(xiàn)”

Sora這次帶來了多重驚喜：其一是具備合成1分鐘超長視頻能力。此前的文本生成視頻大模型無法真正突破合成10秒自然連貫視頻的瓶頸；其二是Sora視頻是對自然世界中不同對象行為方式的“昨日重現(xiàn)”，比如能有效模擬人物、動物或物品被遮擋或離開/回到視線的場景，因此有媒體認為Sora是數(shù)據(jù)驅動下對物理世界進行模擬的引擎。

Sora模擬生成的一只戴著貝雷帽、穿著黑色高領毛衣的柴犬

Sora對長時間視頻合成的能力，來自Transformer能夠處理長時間信息中最小單元之間的自注意力機制。例如，同樣是基于Transformer的GPT4允許處理3萬多個tokens（機器模型輸入的基本單位），而谷歌最近發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro就把穩(wěn)定處理上下文的上限擴大至100萬個tokens。

Sora之所以能對物理世界規(guī)律進行模擬，一個可能的原因在于大數(shù)據(jù)驅動下，人工智能模型體現(xiàn)出一種學習能力，即Sora通過觀察和學習海量視頻數(shù)據(jù)后，洞察了視頻中時空子塊單元之間所應保持的物理規(guī)律。

其實，人類也是基于對自然界斗轉星移、節(jié)氣變遷和晝夜交替，以及微觀物質世界物質合成與生命演化的觀測，推導出各種物理規(guī)律。雖然Sora很難像人類一樣，將物理世界中諸如牛頓定律、湍流方程和量子學定理等，以數(shù)學方程羅列于人工模型中，但Sora能記住時空子塊單元之間應遵守的模式，進而利用這些模式約束時空子塊的組合。

理查德·費曼在《物理學講義》中曾提及，在生物學、人類學或經(jīng)濟學等復雜系統(tǒng)中，很少有一種簡潔的數(shù)學理論能與數(shù)學物理學理論中的數(shù)值精確度相媲美，其原因在于“其過于復雜，而我們的思維有限”，這被稱為“費曼極限”。

Sora也能夠生成動畫視頻，圖為一個怪物家族的卡通視頻截圖，它采用扁平化的設計風格，包括毛茸茸的棕色怪物、帶天線的黑色怪物、斑點綠色怪物和小小的圓點怪物等。

數(shù)據(jù)驅動的機器學習由于其函數(shù)逼近能力，擅長從微觀上發(fā)掘復雜系統(tǒng)的模式，以統(tǒng)計方法擬合高維復雜系統(tǒng)，被譽為神經(jīng)網(wǎng)絡模型的“涌現(xiàn)能力”。涌現(xiàn)性是一種結構效應，是組成成分按照系統(tǒng)結構方式相互作用、相互補充、相互制約而激發(fā)出的特征。

機器學習模型展現(xiàn)出的涌現(xiàn)能力具有重要的科學意義。因為，如果涌現(xiàn)能力是永無盡頭的，那么只要模型足夠大，類人人工智能的出現(xiàn)就是必然。當然，神經(jīng)網(wǎng)絡的涌現(xiàn)性目前仍然是一個開放的問題。

Sora的涌現(xiàn)力或許可以這樣認為：在億萬個非線性映射函數(shù)組合之下，人工智能模型對最小時空子塊單元進行各種意想不到的組合，合成出先前從未有過的內(nèi)容。而這正是這一輪人工智能在數(shù)據(jù)、模型、算力“三駕馬車”推動下飛速發(fā)展的必然結果。

文：吳飛

圖：OpenAI官網(wǎng)視頻截圖

THEEND

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權益，請作者持權屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

云計算的江湖，風云再起

10月8日
揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

10月8日
防勒索病毒攻擊關鍵措施

10月8日
匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

10月8日
網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

10月8日
萬億賽道!AI算力趨勢發(fā)展深度分析 2024

10月9日

精選文章

熱點資訊

“物聯(lián)網(wǎng)造福人類”為更綠色的明天鋪平了道路

Sora“超級涌現(xiàn)力”將把AI引向何方

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

Sora“超級涌現(xiàn)力”將把AI引向何方

最新評論（評論僅代表用戶觀點）

經(jīng)典干貨：容器云平臺運維學習思路和方法

從科幻到現(xiàn)實，自動駕駛發(fā)展還面臨哪些問題？

2024年開源人工智能的重要性

調(diào)研報告：55%組織正在試用生成式AI，78%受訪者認為利大于弊

本月熱門

云計算的江湖，風云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

防勒索病毒攻擊關鍵措施

匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

再獲殊榮!超聚變服務器操作系統(tǒng)FusionOS“全速領跑”

房地產(chǎn)收樓及物業(yè)管理客戶體驗管理平臺搭建

數(shù)字化轉型與企業(yè)核心能力重構

中國數(shù)據(jù)生產(chǎn)力大賽獲獎榜單揭曉!

時代天融數(shù)字化內(nèi)控管理平臺榮獲2023年中國醫(yī)療數(shù)字化最佳產(chǎn)品獎

樂采云：爭做企業(yè)采購數(shù)字化領域的弄潮兒

熱點資訊

共筑數(shù)字未來|深度解析數(shù)字化轉型與建設的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領企業(yè)和政策數(shù)據(jù)服務的新浪潮

政策寶|構筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務線索：企業(yè)騰飛的雙重動力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關村地標綠色新生

“物聯(lián)網(wǎng)造福人類”為更綠色的明天鋪平了道路

AI芯片主戰(zhàn)場，變了

Sora“超級涌現(xiàn)力”將把AI引向何方

最新評論（評論僅代表用戶觀點）

欄目推薦

經(jīng)典干貨：容器云平臺運維學習思路和方法

從科幻到現(xiàn)實，自動駕駛發(fā)展還面臨哪些問題？

2024年開源人工智能的重要性

調(diào)研報告：55%組織正在試用生成式AI，78%受訪者認為利大于弊

本月熱門

精選文章

熱點資訊

“物聯(lián)網(wǎng)造福人類”為更綠色的明天鋪平了道路

AI芯片主戰(zhàn)場，變了

從科幻到現(xiàn)實，自動駕駛發(fā)展還面臨哪些問題？

調(diào)研報告：55%組織正在試用生成式AI，78%受訪者認為利大于弊

AI芯片主戰(zhàn)場，變了