涌現(xiàn)科技:打通“算法-芯片-應(yīng)用場景” 賦能千行百業(yè)

信息化和軟件服務(wù)網(wǎng)
山珉
當(dāng)前,在線視頻已經(jīng)超過社交成為占據(jù)全網(wǎng)用戶使用時長的第一大應(yīng)用領(lǐng)域。新冠疫情出現(xiàn)后,在線會議、在線教育、網(wǎng)絡(luò)直播等需求大大增加,而在細(xì)分視頻領(lǐng)域,視頻直播的用戶規(guī)模大大超過了其他視頻點播的娛樂平臺。

想必大家時常會有這樣的生活體驗:刷著刷著短視頻,突然就卡頓了,一看手機信號卻是滿格;正開著視頻會議呢,突然就看到屏幕開始馬賽克轉(zhuǎn)圈圈;一張殘破不堪的老照片卻能通過手機APP快速復(fù)原;直播中的美顏濾鏡可以快速實現(xiàn)人們“返老還童”“青春永駐”的夢想,這背后暗藏著怎樣的硬科技呢?

當(dāng)前,在線視頻已經(jīng)超過社交成為占據(jù)全網(wǎng)用戶使用時長的第一大應(yīng)用領(lǐng)域。新冠疫情出現(xiàn)后,在線會議、在線教育、網(wǎng)絡(luò)直播等需求大大增加,而在細(xì)分視頻領(lǐng)域,視頻直播的用戶規(guī)模大大超過了其他視頻點播的娛樂平臺。海量視頻流在5G加持下正呈現(xiàn)出多元化井噴的趨勢,預(yù)計到2026年,全球?qū)崟r視頻流總市值將達(dá)到940億美元。

帶寬永遠(yuǎn)不足,視頻壓縮是基礎(chǔ)的底層技術(shù)

在如此巨大的視頻流量或者說視頻需求沖擊下,既有的帶寬明顯感覺力不從心。一張4K圖像的原始大小為24.3MB,而傳輸一個4K 60幀/秒未經(jīng)壓縮的數(shù)據(jù),它的帶寬需求差不多是14Gbps,而5G的理論帶寬卻只有1Gbps。因而在當(dāng)前的傳輸環(huán)境下,對視頻數(shù)據(jù)的壓縮是網(wǎng)絡(luò)傳輸視頻數(shù)據(jù)時的基本需求。

1(1)(1).jfif.jpg

針對于此,蘇州涌現(xiàn)智能科技有限公司(下稱“涌現(xiàn)科技”)聯(lián)合首席執(zhí)行官范灝成舉了一個特別生動的例子:“對于視頻數(shù)據(jù)傳輸而言,5G之于4G、3G的提升和容納,就相當(dāng)于在原有車道上進(jìn)行6車道甚至8車道的馬路拓寬,但是原始視頻數(shù)據(jù)的車輛卻是幾倍甚至幾十倍的增加。如果視頻不做有效的壓縮,即使是5G信道,也無法滿足迅速增長的視頻傳輸需求。”

高分辨率、多路同步需要更快的視頻處理能力

從480P到720P,從1080P到4K,從4K再到8K,人們對視頻質(zhì)量的要求越來越高;不僅如此,在8K之外已出現(xiàn)了裸眼3D視頻,這就需要視頻具備8K甚至16K等更高的分辨率;加之元宇宙浪潮的襲來,將需要超高分辨率來覆蓋超廣的場景,同時也帶來了多路同步傳輸?shù)囊蟆?/p>

面對更多路數(shù)、更高分辨率的視頻,如何才能滿足這些傳輸?shù)男枰??范灝成告訴記者,“當(dāng)前,視頻對于編碼的要求不僅僅是一個基本需求,而且對于編碼本身的壓縮能力也提出了一個更高的要求”。換言之,為了滿足海量高分辨率視頻傳輸?shù)男枨螅托枰佑行А⒏呖焖俚囊曨l編解碼能力,也就是更好更快的視頻壓縮。

傳統(tǒng)視頻編碼框架以服務(wù)人眼為主

視頻更加智能化,正在賦能千行百業(yè)。從當(dāng)前視頻市場來看,視頻跟AI的應(yīng)用在充分的結(jié)合,這種結(jié)合生發(fā)出兩個重要的方向,第一個方向是兩者的結(jié)合帶給人們更豐富的觀看體驗,比如在一些高速運動的場景下,通過AI的方法可以提升視頻動態(tài)追蹤的能力,此外包括一些視頻直播或者短視頻的美顏功能,一些老照片的修復(fù)等。另外一個方向是提供了更智能化的任務(wù),比如智慧城市、智慧教育、智慧醫(yī)療、智慧交通等等,AI和視頻的結(jié)合,正為人們提供更多的行業(yè)應(yīng)用。

1(1)(1).jfif.jpg

傳統(tǒng)視頻編碼框架以服務(wù)人眼為主。范灝成告訴記者,傳統(tǒng)的視頻編碼更多的是基于香農(nóng)的信息理論(香農(nóng)的理論其實就是利用時間和空間上的冗余信息來找到可以被壓縮、可以被簡化的部分),更多的是適應(yīng)人眼對視頻的感知。傳統(tǒng)的以人眼為目標(biāo)的視頻,經(jīng)歷了分辨率和幀率的提升,甚至視場從窄視場到寬視場的提升,主要為人類的眼睛看的更清楚、更流暢或者看的更美。而視頻和AI結(jié)合之后,視頻本身發(fā)生了一個變化,AI的視頻更多的是給機器看,是給機器學(xué)習(xí)看的。這些給機器看的視頻需要的是真實性,它要能夠真實還原場景,它需要看的更加準(zhǔn)確。

視頻+AI,呼喚新的視頻處理技術(shù)

據(jù)預(yù)測,在未來給機器看的視頻會占據(jù)超過80%的視頻的流量,也就是說,將來,面向機器視覺視頻逐漸會超過人眼視覺而占據(jù)主導(dǎo)。這就帶來了一個新的思考,未來的視頻編碼到底應(yīng)該怎么去定義它的標(biāo)準(zhǔn)呢?比較傳統(tǒng)視頻和服務(wù)于機器編碼的視頻,傳統(tǒng)視頻主要是依賴于人眼,但人眼本身具有很多局限性,比如說分辨的精度或者是移動的速度,包括好與壞或者美與丑的判斷,而基于機器學(xué)習(xí)去觀看視頻時,第一它的精度高,遠(yuǎn)超人眼識別分辨率的能力;第二它的感光范圍很廣,它不僅僅看到可見光,還能看見不可見光,也就是人眼看不見的東西;第三它關(guān)注的是圖像本身判別的準(zhǔn)確性,也就是要求對新的編碼要能夠合理的把圖像當(dāng)中特別是對機器識別有效的信息提取出來,并且傳輸給后面的處理單元做合理的分析和檢算。

視頻編碼技術(shù)的進(jìn)步需要更大的視頻處理算力

國際上制定視頻編解碼標(biāo)準(zhǔn)的組織主要是ITU-T和ISO/IEC。ITU-T主要制定如H.261、H.262、H.263、H.264標(biāo)準(zhǔn),面向?qū)崟r視頻通信應(yīng)用;ISO/IEC主要制定MPEG系列標(biāo)準(zhǔn),主要面向流媒體應(yīng)用。同時兩個組織ITU&MPEG通過進(jìn)一步合作輸出H.262/MPEG-2、H.264/AVC、H.265/HEVC、H.266/VCC等標(biāo)準(zhǔn)。國內(nèi)制定視頻編解碼標(biāo)準(zhǔn)的組織主要是AVS和SVAC。互聯(lián)網(wǎng)領(lǐng)域本身存在巨量的視頻分享需求,而HEVC等標(biāo)準(zhǔn)又面臨昂貴的使用費,因此國際互聯(lián)網(wǎng)各大企業(yè)聯(lián)合成立開源媒體聯(lián)盟,推出了新的視頻編解碼標(biāo)準(zhǔn),如VP9/AV1。

現(xiàn)在國際上主流的編碼格式,基本上每過十年會有一代編解碼格式的進(jìn)步以進(jìn)一步提升視頻壓縮性能。每一代的編解碼進(jìn)步平均會帶來約50%的帶寬節(jié)約,但與此同時隨著每一代視頻編解碼標(biāo)準(zhǔn)的進(jìn)步,算法對算力的要求也隨之變大。以HEVC和H.264為例,HEVC對編碼處理能力的要求是H.264的3~4倍,同時帶寬可以節(jié)約接近50%;而HEVC到VCC視頻處理的算力又需要數(shù)倍的增加。

建立基礎(chǔ)算力平臺打通“算法-芯片-應(yīng)用場景”

AI的場景滲透、視頻智能化應(yīng)用,正在呼喚新的視頻處理技術(shù),但是路徑在哪里呢?目前在機器視覺編碼領(lǐng)域,國外面向機器的視頻編碼叫VCM(Video Coding for Machines),而國內(nèi)面向機器智能的數(shù)據(jù)編碼叫DCM(Data Coding for Machines),這兩者殊途同歸,都是結(jié)構(gòu)性融合人眼視覺與視頻的全新的視頻編碼方式,而且這種融合智能視頻技術(shù)擁有更廣闊的應(yīng)用領(lǐng)域。范灝成指出,雖然找到了技術(shù)路徑,但分辨率及幀率的提升、編碼格式的進(jìn)步、AI算法的融合、VCM/DCM的逐步導(dǎo)入等多要素正推升視頻算力需求呈指數(shù)級激增,而當(dāng)前的CPU/GPU算力提升屬于線性增長相對緩慢。

1(1)(1).jfif.jpg

那么問題如何解決呢?范灝成和團隊在長期的研究中萌發(fā)出一個思路。他指出,“視頻是有一個標(biāo)準(zhǔn)格式的,是可以用ASIC或者硬編碼、硬解碼的方式來解決實際應(yīng)用場景中的計算效率”。隨著算力的高度提升、需求的提升,以及兩者之間缺口的增加,視頻正處在從傳統(tǒng)的GPU、CPU的通用算力平臺解決方案,向一個基于ASIC硬編碼、硬解碼的算力平臺加速轉(zhuǎn)換的過程當(dāng)中。

范灝成向記者表示,“隨著編碼標(biāo)準(zhǔn)的進(jìn)步和算力需求的提升,我們對專用于視頻編解碼加速的硬芯片ASIC的需求越來越多,側(cè)重在硬件的加速平臺,涌現(xiàn)科技融合算法和芯片設(shè)計,將視頻編解碼算法芯片化,開發(fā)出具有自主知識產(chǎn)權(quán)、高性能、低功耗視頻編解碼加速芯片,可以支持多路、高并發(fā)、高密度的編解碼同時處理運算,同時也支持各種編碼格式和解碼格式,可以做很多靈活的設(shè)置,在關(guān)鍵自主上面我們也和國產(chǎn)的各種CPU,包括鯤鵬、龍芯做了對接,并與國產(chǎn)信創(chuàng)領(lǐng)域的很多應(yīng)用都能做到無縫的對接,打通了“算法-芯片-應(yīng)用場景”。

從AI for Coding到Coding for AI

目前,由涌現(xiàn)科技自主研發(fā)的基于ASIC技術(shù)的視頻轉(zhuǎn)碼硬件加速芯片的第一代產(chǎn)品,已經(jīng)進(jìn)入了量產(chǎn)。時下,公司正在研發(fā)的第二代產(chǎn)品,預(yù)計算力可以提升到8K 90幀的實時編解碼性能,同時也增加了更多的行業(yè)應(yīng)用需求,增強了低延時、更高的解像度以及更多的色域編碼能力。未來,涌現(xiàn)科技第三代的產(chǎn)品將全面轉(zhuǎn)向?qū)S靡曨lAI芯片,重新定義深度學(xué)習(xí)在視頻行業(yè)應(yīng)用中的機器識別能力,建立全新的編碼底層邏輯及AI學(xué)習(xí)能力。

2345截圖20220818151609.png

涌現(xiàn)科技研發(fā)視頻編碼轉(zhuǎn)碼處理器

“與以往的CPU、GPU為主的軟編軟解的方案相比,它最大的優(yōu)點在于低成本和高性能兼顧,同時它的功耗更低,這為未來的高并發(fā)、高密度的視頻處理和視頻處理專用的服務(wù)器提供了一個堅實的硬件基礎(chǔ)。”

范灝成介紹,涌現(xiàn)科技現(xiàn)在正在做的是AI for coding,也就是把現(xiàn)在的技術(shù)和AI視頻結(jié)合起來,為視頻提供更加智能和完善的視頻編解碼方案。而在未來,涌現(xiàn)科技將會逐步走向coding for AI,將視頻編解碼的能力和視頻對場景的預(yù)分析能力,與GPU、RPP運算能力結(jié)合起來,讓編碼更好的服務(wù)AI,釋放AI能力,為世界提供更好的AI智慧解決方案。

“有了這個解決方案,我們會看到人眼視覺與機器視覺的結(jié)合,包括基于AI和視頻編碼技術(shù)整條算法鏈上或者是解決方案鏈上的完整解決方案,包括相應(yīng)的算法、芯片,都是必不可少的,涌現(xiàn)科技作為這方面的探索者,我們會繼續(xù)努力,為大家提供更強大的硬件解決方案平臺。”范灝成坦言。

據(jù)了解,涌現(xiàn)科技是一家具有國產(chǎn)完全自主技術(shù)的新一代智能視頻專用芯片及配套解決方案的科技企業(yè),業(yè)務(wù)聚焦于基于人工智能的人眼視覺與機器視覺融合編解碼技術(shù),將人工智能與視頻編解碼算法深度融合,通過平衡算法和芯片設(shè)計優(yōu)化,為行業(yè)提供高性能、低功耗、低成本的專用芯片、模組、軟件工具及針對特定場景的全棧應(yīng)用解決方案。

立足于創(chuàng)始團隊強大的產(chǎn)業(yè)資源、技術(shù)實力和芯片量產(chǎn)經(jīng)驗,涌現(xiàn)科技擁有業(yè)界領(lǐng)先的芯片全流程設(shè)計能力及67項自主知識產(chǎn)權(quán),在業(yè)界首先提出建立“人眼視覺/機器視覺融合編碼“的基礎(chǔ)算力平臺,賦能全面數(shù)字化。公司的第一代視頻編解碼芯片已經(jīng)在14nm制程節(jié)點上量產(chǎn),廣泛應(yīng)用于互聯(lián)網(wǎng)視頻平臺、云桌面/云手機/云游戲、廣電超高清、智慧城市等領(lǐng)域的數(shù)據(jù)中心和邊緣計算節(jié)點。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論