中國工程院院士丁文華:數(shù)字創(chuàng)意技術(shù)發(fā)展方向與未來產(chǎn)業(yè)的機會

張曉寶
8月22日,以“融合創(chuàng)新面向未來”為主題的第三十屆北京國際廣播電影電視展覽會(BIRTV2023))——主題報告會成功舉行,中國工程院院士丁文華會上做了關(guān)于《數(shù)字創(chuàng)意技術(shù)發(fā)展》的主題報告。

本文來自微信公眾號“DVBCN中廣5G”,作者/張曉寶。

8月22日,以“融合創(chuàng)新面向未來”為主題的第三十屆北京國際廣播電影電視展覽會(BIRTV2023))——主題報告會成功舉行,中國工程院院士丁文華會上做了關(guān)于《數(shù)字創(chuàng)意技術(shù)發(fā)展》的主題報告。

1.png

2016年,國務(wù)院發(fā)布了《“十三五”國家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃》,其中就新增了“數(shù)字創(chuàng)意”的內(nèi)容,涉及到了有數(shù)字文化創(chuàng)意技術(shù)裝備創(chuàng)新提升工程、數(shù)字內(nèi)容創(chuàng)新發(fā)展工程、創(chuàng)新設(shè)計發(fā)展工程。在2018年國家統(tǒng)計局發(fā)布的《戰(zhàn)略性新興產(chǎn)業(yè)分類(2018)》中,又確定了統(tǒng)計涉及有數(shù)字創(chuàng)意的口徑和產(chǎn)品服務(wù)。

根據(jù)統(tǒng)計數(shù)據(jù),2022年全國規(guī)模以上文化及相關(guān)產(chǎn)業(yè)企業(yè)營業(yè)收入達12.18萬億元,按可比口徑計算,比上年增長0.9%。數(shù)字創(chuàng)意產(chǎn)業(yè)所涉及的學(xué)科包括有計算機科學(xué)與技術(shù)、信息與通信工程、電子科學(xué)與技術(shù)、光學(xué)工程、控制科學(xué)與工程、網(wǎng)絡(luò)空間安全、人工智能等等,包含了數(shù)字內(nèi)容的生產(chǎn)、傳播和呈現(xiàn)端到端全部環(huán)節(jié)的核心技術(shù),數(shù)字創(chuàng)意技術(shù)也是實現(xiàn)超高清、元宇宙等典型媒體應(yīng)用的重要支撐。

LLM具備文本邏輯推理、上下文理解、多輪對話能力,使得AI產(chǎn)生了通用性的文本創(chuàng)作能力,已超過原有的搜索(知識問答),標(biāo)志著AGI的誕生。而AGI大模型可基于一個模型適配多業(yè)務(wù)場景,模型參數(shù)大,能學(xué)習(xí)海量數(shù)據(jù)知識,泛化能力強,可實現(xiàn)基于人類反饋的強化學(xué)習(xí)。AIGC正在改變數(shù)字內(nèi)容的生成方式,特別是當(dāng)前AI作畫、AI創(chuàng)作視頻的持續(xù)發(fā)展應(yīng)用,但AI Hyper Connection才是未來的目標(biāo)。

當(dāng)前,數(shù)字人的構(gòu)建也相當(dāng)火爆,傳統(tǒng)的數(shù)字人構(gòu)建方法中,需要基于全身的3D掃描,其建模數(shù)據(jù)量是巨大的,MC驅(qū)動也要依靠真人的“動作+表情”以實現(xiàn)捕捉,還有著正向渲染、弱交互能力等缺陷。而面向未來基于AI的數(shù)字人構(gòu)建方法中,其可以實現(xiàn)多角度照片替代全身掃描,通過“已有建模模型+AI”可逼近真人效果,驅(qū)動則是基于“表情基+指定動作基”可實現(xiàn),支持逆向渲染+正向渲染+交互的多種方式,基于大模型的具身交互能力。

1.png

在計算機視覺效果引擎及平臺技術(shù)方面,當(dāng)前主要依托于像Epic的Unreal Engine平臺及英偉達的Omniverse平臺等,因此,需要面向高效高質(zhì)的數(shù)字環(huán)境、數(shù)字人、數(shù)字物件構(gòu)建屬于我們的數(shù)字對象的技術(shù)支撐平臺,需要構(gòu)建基于虛擬世界“互聯(lián)互通+相互融合”的支撐技術(shù)。

專用視頻編解碼技術(shù)當(dāng)前已經(jīng)極為成熟了,未來更需要面向內(nèi)容和對象的視頻編碼,例如能提供AR遠程交互會議模式,也需要元宇宙中的語義編碼,如能涉及到矢量化全集傳輸+終端的按需局部呈現(xiàn)等,另外也要有下一代的圖像編碼,涉及有光場、全息編碼技術(shù),以及多模態(tài)協(xié)同編碼等。

在XR近眼顯示技術(shù)方面,當(dāng)前的VR顯示已可達到4K的量級,像今年蘋果公司新發(fā)布的Apple Vision Pro,其單眼顯示為3644*3144(也就是4K),交互性方面已能支持眼動追蹤、手勢追蹤、聲音控制,圖像處理方面具備Foveated Renderer,支持孿生數(shù)字人實時交互能力。

面向未來的話,AR眼睛將成為大眾型的入口終端,可以基于AR眼鏡透視(See Through)能力打造“前端多媒體信息增強+后臺智能化云端處理”。也就是說,在前端“眼鏡呈現(xiàn)+手機算力”能否提供豐富增強信息體驗,而后臺云平臺則能結(jié)合AI大模型解決跨模態(tài)信息即時生成的過程。

車載領(lǐng)域,工信部方面有提到,要啟動智能網(wǎng)聯(lián)汽車準入和上路通行試點,組織開展城市級“車路云一體化”示范應(yīng)用,支持有條件的L3及更高級別的自動駕駛功能商業(yè)化應(yīng)用。因此,未來自動駕駛也有望向“L3+”方向發(fā)展。而智能座艙則可打造為“第三空間”,其中涉及的車載信息娛樂系統(tǒng)、基于車聯(lián)網(wǎng)的娛樂信息分發(fā)、數(shù)據(jù)廣播、駕駛員感知等方面,也將是未來的信息通信及廣電傳媒等都將能涉及的領(lǐng)域。

最后,丁文華表示,數(shù)字創(chuàng)意與人工智能、元宇宙等前沿技術(shù)緊密結(jié)合,具備廣闊的產(chǎn)業(yè)應(yīng)用前景。數(shù)字創(chuàng)意也具有顯著的學(xué)科交融特性,僅靠單一學(xué)科是無法滿足發(fā)展要求的,需要形成跨學(xué)科聯(lián)動研究。此外,數(shù)字創(chuàng)意的研究方向覆蓋廣泛,應(yīng)抓住時間盡早布局共性關(guān)鍵技術(shù)研究,推動產(chǎn)業(yè)向前發(fā)展。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論