涌現(xiàn)科技創(chuàng)始人&CEO管?。喝娲蛲ā八惴?芯片-應(yīng)用場景”,打造智能視頻處理開放生態(tài)

信息化觀察網(wǎng)
劉藝
傳統(tǒng)算法中大家都用CPU或者GPU這類通用算力來做編碼,通用算力能提供的效果是線性的,每多加一倍CPU,能處理的視頻量翻一倍,但目前視頻數(shù)據(jù)量的增長以及壓縮需求不是線性的增長的,而是一個指數(shù)曲線,用線性的方法提供算力趕不上它的發(fā)展速度,所以涌現(xiàn)給出的方案是用專用芯片來做編碼。

以下為文字采訪實錄:

Q:看今天視頻編碼專題論壇的議程安排,咱們涌現(xiàn)和艾瑞咨詢將在會上聯(lián)合發(fā)布智能視頻編碼行業(yè)白皮書,請您簡單介紹一下我們定義的智能視頻編碼,與我們目前接觸的AI輔助視頻編碼又有什么區(qū)別呢?

A:您的問題非常專業(yè),一般的觀眾可能不太會理解AI輔助編碼。編碼是視頻處理非?;镜牟僮?,它的主要作用是把視頻的體積降下來,在傳輸中節(jié)約帶寬。編碼是一個復(fù)雜的一個數(shù)學(xué)計算,它在歷史上經(jīng)歷了很多次迭代。智能或者說人工智能也是一個存在已久的話題,但在最近10年左右發(fā)展得非常迅速。在過去這兩者基本上是相對獨立發(fā)展的,在編碼技術(shù)發(fā)展的過程中,沒有考慮到人工智能技術(shù)的快速進(jìn)步,過去十年人工智能技術(shù)的急速發(fā)展并進(jìn)入實用化為編碼技術(shù)帶來了巨大的機會,未來人工智能技術(shù)和編碼或者視頻技術(shù)將會有很好的結(jié)合。

當(dāng)前普通的觀眾直接感受到的是,我們?nèi)粘T诳匆曨l的時候,有了美顏、人臉識別等功能,他們是從應(yīng)用場景來看這件事情的,然而從編碼或者視頻的底層處理技術(shù)的角度來說,人工智能也帶來了很大的機會。這里主要是指兩個方面,除了您剛才提到的AI輔助編碼之外,還有什么樣的視頻、什么樣的編碼能夠更好的輔助AI?所以涌現(xiàn)提出智能視頻編碼概念其實是兩方面的,一方面是AI輔助編碼,使編碼的效率更高;另一方面是什么樣的編碼和視頻能夠更好地被AI處理,使AI的處理效率更高,或者處理效果更好。這是一個雙面融合的概念,在此之前沒有特別合適的名詞或概念來進(jìn)行定義,所以我們這次和艾瑞咨詢一起聯(lián)合提出了智能視頻編碼、智構(gòu)視頻的概念,從而把這兩者融合起來,一面是“AI for Coding”,即用AI來幫助編碼,另一面是“Coding for AI”,即用編碼來幫助AI,使AI的效率、效果更好。

Q:涌現(xiàn)科技作為科創(chuàng)企業(yè),不單做產(chǎn)品開發(fā)和商業(yè)化推廣,還與中科大成立了智能媒體計算聯(lián)合實驗室布局基礎(chǔ)研究,積極與高校合作推動產(chǎn)學(xué)研,由此可見我們的技術(shù)實力,請分享以下我們的技術(shù)優(yōu)勢和創(chuàng)新點,這些技術(shù)在國內(nèi)或國際領(lǐng)域處于什么水平?

A:剛才講到我們的技術(shù)其實是個非常底層的技術(shù),編碼和人工智能都是非常前沿的技術(shù)領(lǐng)域。在這些領(lǐng)域的發(fā)展第一需要很長時間的技術(shù)積累,第二需要緊跟科技前沿,第三需要從今天開始為三年、五年以后布局。涌現(xiàn)雖然是初創(chuàng)企業(yè),但我們的愿景和目標(biāo)是遠(yuǎn)大的。我們從成立之初就和中科大聯(lián)合成立了智能媒體計算聯(lián)合實驗室,我們對聯(lián)合實驗室比較長期的布局和期望主要在幾個方向:一是研究最前沿的科研的問題,二是參與國際標(biāo)準(zhǔn)的提案和討論,三是把最前沿的科技研究的一些成果應(yīng)用在我們的產(chǎn)品中。

至于涌現(xiàn)的技術(shù)優(yōu)勢和創(chuàng)新,可以結(jié)合我們智能視頻的兩個方向來講,一個是“AI for Coding”,可以用50%這個數(shù)字來代表,是指涌現(xiàn)在采用自研的基于AI的編碼框架進(jìn)行編碼壓縮,比目前主流的標(biāo)準(zhǔn)編碼框架能節(jié)約50%左右的碼率,也就是節(jié)約50%左右的帶寬,相當(dāng)于在當(dāng)前的編碼框架下,能夠?qū)崿F(xiàn)下一代編碼技術(shù)的編碼效率,這是一個非常領(lǐng)先的成果。另外,我們還在編碼壓縮和視頻處理結(jié)果的質(zhì)量的評價上有所布局。在視頻經(jīng)過處理以后,我們需要進(jìn)行判斷,它和原始的視頻有多大差異、多少失真?人們對于處理后視頻主觀的觀感是更好了還是更壞了?我們和中科大的聯(lián)合實驗室一起,研究了一系列方法和工具來提供相關(guān)的評測標(biāo)準(zhǔn),得出的結(jié)果和人類對于視頻的判斷非常接近,這種評判技術(shù)即便在國際上也是非常領(lǐng)先的。

另外,我們還針對面向未來的技術(shù)標(biāo)準(zhǔn)方面進(jìn)行積極布局。當(dāng)前有大量的視頻不是給人類而是給機器看的,大概有70%的視頻從來沒有被人看過,在被機器處理完、打完標(biāo)簽就存儲起來了,人們?nèi)绻盟?,實際是去看那些標(biāo)簽。而給機器看的視頻和給人類看的視頻在編碼上是完全不一樣的。目前已經(jīng)有標(biāo)準(zhǔn)組織在做這方面的標(biāo)準(zhǔn)研究工作,包括國際上的VCM(Video Coding for Machine)和國內(nèi)的DCM(Data Coding for Machine)。我們通過與中科大聯(lián)合實驗室的合作,深度參與了國際國內(nèi)的標(biāo)準(zhǔn)制定工作。所以標(biāo)準(zhǔn)、前沿技術(shù)、質(zhì)量評價方法是我們在聯(lián)合實驗室中最重要的幾項工作。

Q:智能視頻編碼行業(yè)的產(chǎn)業(yè)鏈層次和產(chǎn)業(yè)發(fā)展成熟度如何?

A:說到產(chǎn)業(yè)鏈成熟度,要從幾個不同的層次來看:首先,視頻編碼本身是國際標(biāo)準(zhǔn),而且制定的周期非常長,每一代國際標(biāo)準(zhǔn)形成到進(jìn)入應(yīng)用的時間基本長達(dá)十年。去年H.266標(biāo)準(zhǔn)正式形成,但它的制定其實從十年之前就開始了,H.265標(biāo)準(zhǔn)差不多是十年之前發(fā)布的,直到今天才變成主流??梢赃@么說,基于國際國內(nèi)標(biāo)準(zhǔn)的編碼技術(shù)相對來講是比較成熟的,它在制定的時候就有大量廠商參與,大家在應(yīng)用的過程中不斷地迭代完善,這個鏈條是相對完善的。但在迭代周期中,各廠商在實際應(yīng)用過程中會對標(biāo)準(zhǔn)的實現(xiàn)做各自的定義、采用各自的方法。雖然有國際標(biāo)準(zhǔn),但更多定義的是一個框架,在編碼中更多定義的是解碼這件事,定義的是語法,即做出來的東西是什么樣的。關(guān)于怎么做則只定義了框架,框架內(nèi)的每一個環(huán)節(jié),各個廠商都有自己獨特的方法和優(yōu)勢。

傳統(tǒng)視頻編碼大多采用軟件算法,另外可能在解碼側(cè)很多公司有一些芯片,在編碼側(cè)、攝像頭側(cè)也有不少公司有芯片,把全流程連接在一起的時候,大家都依托國際標(biāo)準(zhǔn)在做這件事情,技術(shù)和應(yīng)用上相對來講是比較成熟的。然而視頻產(chǎn)業(yè)發(fā)展到今天,也遇到了一些機會或者說挑戰(zhàn),一是視頻的流量、視頻的數(shù)量的急劇上漲,二就是前面講到人工智能技術(shù)的急速發(fā)展。

一方面帶寬永遠(yuǎn)不夠,我們今天看到各大視頻網(wǎng)站、視頻平臺的運營成本中帶寬成本占到75%。再比如隨著短視頻、直播的快速發(fā)展,它的成本都是急劇上升的,所以迫切地需要更先進(jìn)的編碼技術(shù)來節(jié)約帶寬。另一方面,人工智能技術(shù)編碼技術(shù)的升級提供了方案,但大家之前在制定標(biāo)準(zhǔn)的時候沒有完全把它結(jié)合進(jìn)去。所以我們現(xiàn)在提到的利用人工智能來做編碼,以及用什么樣的編碼來為人工智能服務(wù),相對來講是不成熟的。從智能視頻編碼來看,目前各家有不同的解決方案,大家在算法上都已經(jīng)有了一些積累,并在標(biāo)準(zhǔn)框架里內(nèi)不斷優(yōu)化,但最終如何形成通用行業(yè)標(biāo)準(zhǔn)、如何把這些算法更高效執(zhí)行,我認(rèn)為是目前面臨的兩大挑戰(zhàn)。尤其是后者,因為這些算法在利用了人工智能以后,對算力的要求急劇提升,新一代算法對比上一代算法在復(fù)雜度上對算力的需求要翻5倍甚至更多。這些算力要從哪里來呢?涌現(xiàn)對此的回答是,我們將用專用芯片來提供算力。

傳統(tǒng)算法中大家都用CPU或者GPU這類通用算力來做編碼,通用算力能提供的效果是線性的,每多加一倍CPU,能處理的視頻量翻一倍,但目前視頻數(shù)據(jù)量的增長以及壓縮需求不是線性的增長的,而是一個指數(shù)曲線,用線性的方法提供算力趕不上它的發(fā)展速度,所以涌現(xiàn)給出的方案是用專用芯片來做編碼。專用芯片從范式上就和傳統(tǒng)通用算力模式不同,我們也看見采用專用硬件提供算力、或者說異構(gòu)計算正在逐步被業(yè)界接受,我認(rèn)為在下一代或者未來可見時間里將會逐步變成行業(yè)共識和標(biāo)準(zhǔn)。目前從0到1的階段已經(jīng)過去了,我們希望它能從1到100,進(jìn)入一個成熟的階段。

Q:涌現(xiàn)科技在行業(yè)中地位和競爭優(yōu)勢是什么?

A:一般來說我們做技術(shù)的公司不太好評價自己的地位,我就簡單講一些客觀指標(biāo)。我們從2018年開始做視頻編碼專用芯片,其中主要有幾件事情:第一,我們需要優(yōu)化算法,改進(jìn)算法的效率,提升它在編碼上的效果和效率;第二,也更重要是我們要把算法優(yōu)化到一定程度,使它能夠做成芯片。理論上講,只要有一個算法,不管多么龐大都可以做成芯片,無非是電路的問題。但最后總會面臨一些問題,比如這顆芯片成本劃不劃算?能耗劃不劃算?在制造上有沒有可能造出來?這些就涉及到芯片設(shè)計的核心指標(biāo),叫做PPA(Power,Performance,Area,能耗、性能和面積)。理論上說所有算法都能芯片化,但面積可能會非常大,結(jié)果成本非常高,良率非常低。另外我們也可以通過跑很高頻率來提升性能,但功耗會非常大,所以如何把算法做成芯片是需要綜合考量的,最終芯片PPA要達(dá)到平衡。涌現(xiàn)的核心能力就體現(xiàn)在,第一我們的算法能力很強,第二我的芯片設(shè)計能力很強。我們能夠優(yōu)化自己的算法,使算法有非常好的表現(xiàn),同時還能使算法適合做成芯片,在芯片上有比較好的PPA,帶來一個相對平衡的解決方案。而且我們的過往經(jīng)驗已經(jīng)獲得了驗證,涌現(xiàn)在2018年開始芯片研發(fā),到2020年成功流片,2021年第一代產(chǎn)品成功上市。在2021年上市的時候,產(chǎn)品的幾項指標(biāo),比如它的并發(fā)、單芯片能夠處理的數(shù)據(jù)量、以及整顆芯片的功耗都是在全世界領(lǐng)先的。

Q:近年來信息技術(shù)應(yīng)用創(chuàng)新產(chǎn)業(yè)建設(shè)已經(jīng)成為國家戰(zhàn)略的一部分,涌現(xiàn)科技在這方面做了哪些布局?信息技術(shù)應(yīng)用創(chuàng)新產(chǎn)業(yè)發(fā)展對智能視頻行業(yè)有哪些影響?

A:首先我覺得信息技術(shù)應(yīng)用創(chuàng)新的核心叫做自主可控,涌現(xiàn)的核心的IP全部是自主的,整個公司的股權(quán)結(jié)構(gòu)也全部是中資,所以涌現(xiàn)完全是一個自有知識產(chǎn)權(quán)的中國公司,包括我們的產(chǎn)品、技術(shù)都完全符合國家信息技術(shù)應(yīng)用創(chuàng)新的標(biāo)準(zhǔn)。另外,涌現(xiàn)也是工信部下信息技術(shù)應(yīng)用創(chuàng)新工作委員會的成員。涌現(xiàn)要做的,是扎根中國、基于中國技術(shù)的公司。但是,我覺得目前大家對自主可控或者對信息技術(shù)應(yīng)用創(chuàng)新有一個誤解,很多時候我們一旦說要做信息技術(shù)應(yīng)用創(chuàng)新、做國產(chǎn),潛臺詞是國外已經(jīng)有產(chǎn)品了,我們做的是國產(chǎn)化替代或者平替,甚至一些人主觀上覺得既然是替代,可能就是比別人差一點,我認(rèn)為這是不對的,我們要做的核心是自主可控,即技術(shù)自主,整個環(huán)節(jié)可控。在這樣的背景下,為什么我一定會比別人差?這是不對的。我們可以驕傲地、自豪地講,涌現(xiàn)的產(chǎn)品是國際領(lǐng)先的,我們2021年推出的第一代產(chǎn)品在全世界范圍內(nèi)無論并發(fā)、視頻質(zhì)量、功耗都是國際領(lǐng)先的。所以我們要做全球領(lǐng)先的自主可控,一定要在全世界創(chuàng)新領(lǐng)先,這是我對信息技術(shù)應(yīng)用創(chuàng)新的一點認(rèn)識。

當(dāng)然我們也不需要避諱,在一些更復(fù)雜的領(lǐng)域,比如CPU或GPU,我們的產(chǎn)品,國產(chǎn)CPU或GPU的性能指標(biāo)會比Intel、英偉達(dá)這樣的國際大牌廠商差一些。那么如果我們的CPU、GPU算力跟不上國際領(lǐng)先水平,其實可以采用另外的方法提供更高的算力,達(dá)到同樣的處理效果,就是前面我講到的異構(gòu)計算。所謂異構(gòu)計算,簡單來說就是用專業(yè)的芯片來做專業(yè)的事情,協(xié)同融合為用戶提供同等性能甚至更優(yōu)性能的解決方案。在視頻處理中可以這么理解,即由CPU居中調(diào)度,用GPU做渲染、人工智能計算,用涌現(xiàn)的VPU芯片則用來做視頻編碼、視頻處理,讓每一顆芯片做它最擅長的東西,最后呈現(xiàn)給終端用戶一個融合解決方案,這類方案效果不見得比采用Intel CPU、英偉達(dá)GPU的方案差。從用戶體驗的角度來說,基于我們自主產(chǎn)品,用異構(gòu)方案、專業(yè)芯片、專業(yè)軟件來做專業(yè)的事情,我覺得是完全可以的。

Q:您認(rèn)為智能視頻處理行業(yè)的發(fā)展趨勢和挑戰(zhàn)是什么?目前涌現(xiàn)科技著手打造智能視頻生態(tài),請您給我們簡單的做一下展望。

A:這里可能要說回我們遇到的一些挑戰(zhàn)。從2021年產(chǎn)品出來以后,我們和市場上的很多廠商做了適配和溝通,在這個過程中,可以看出市場還是相對碎片化的,很多視頻廠商以及友商都有很強的技術(shù)能力,大家在編碼算法上、視頻處理上做了很大的投入,建了很大的技術(shù)團(tuán)隊,積累了很多算法,這些算法一方面利用了人工智能的發(fā)展,另一方面因為利用人工智能的發(fā)展誕生了更大的算力需求。但目前各家都是自己做自己的,互相之間不完全兼容,如果要融合就會有比較大的困難。正是基于這樣市場認(rèn)知,涌現(xiàn)正在打造一個開放的智能視頻編碼平臺,我們想要做的事情是把整個編碼框架打開,為每一個模塊都提供標(biāo)準(zhǔn)的算法,通過端到端的解決方案,為一些不那么希望自己開發(fā)的廠商提供標(biāo)準(zhǔn)的編碼流程。同樣,如果我們的客戶和合作伙伴在單一算法上有更好的解決方案,平臺則能夠把方法集成進(jìn)來,同時為它提供加速能力。比如一個基于神經(jīng)網(wǎng)絡(luò)的算法,我們會提供神經(jīng)網(wǎng)絡(luò)的加速單元,如果是2D的、平面的、旋轉(zhuǎn)、矩陣類的算法,我們會提供矩陣加速單元。這樣做的結(jié)果就是,涌現(xiàn)有一個標(biāo)準(zhǔn)編碼框架,客戶或合作伙伴可以根據(jù)他們自己的強項,在其中一個或者多個環(huán)節(jié)把自己的算法、領(lǐng)先的解決方案嵌入進(jìn)來,同時利用涌現(xiàn)芯片給這些算法提供實時的、滿足場景需要的加速能力。在整個框架搭起來之后,各家廠商都可以在上面開發(fā)、集成自己的算法,最終給客戶提供效果更優(yōu)的解決方案,這就是涌現(xiàn)希望建立的智能視頻生態(tài)。這個生態(tài)最大的特點就是開放,客戶可以用我的,也可以用別人的,只要能達(dá)到更好的效果。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論