機(jī)器為內(nèi)容“體檢”?AI算法這樣解構(gòu)內(nèi)容創(chuàng)作理解

阿里文娛技術(shù)
大數(shù)據(jù)與人工智能已經(jīng)在各個(gè)行業(yè)大展身手,而海量的視頻數(shù)據(jù)、用戶(hù)觀看數(shù)據(jù),已經(jīng)為人工智能算法提供了肥沃的土壤;視頻、音頻、文本等非結(jié)構(gòu)化數(shù)據(jù),天然符合人工智能(深度學(xué)習(xí))算法擅長(zhǎng)的領(lǐng)域。因此,使用AI技術(shù)來(lái)對(duì)視聽(tīng)介質(zhì)進(jìn)行全方位解構(gòu),并利用海量數(shù)據(jù)、發(fā)掘內(nèi)容創(chuàng)作規(guī)律,輔助內(nèi)容質(zhì)量評(píng)判是AI技術(shù)落地的一大領(lǐng)域,也是一片AI應(yīng)用的藍(lán)海。

作者 | 阿里文娛算法專(zhuān)家 梵生

責(zé)編 | 李雪敬

頭圖 | CSDN下載自視覺(jué)中國(guó)

1、視覺(jué)AI的內(nèi)容創(chuàng)作理解的背景與機(jī)遇

視聽(tīng)盛會(huì),劇集、綜藝、短視頻等都是娛樂(lè)行業(yè)的主流載體,而高品質(zhì)的長(zhǎng)視頻(劇集、綜藝)是內(nèi)容行業(yè)提升用戶(hù)粘性的關(guān)鍵,也是娛樂(lè)行業(yè)的必爭(zhēng)之地。但是,劇集、綜藝等長(zhǎng)視頻面臨嚴(yán)峻的問(wèn)題:劇綜的拍攝、剪輯投入巨大,制作周期長(zhǎng),但目前行業(yè)很難在播前甚至制作早期進(jìn)行質(zhì)量評(píng)價(jià)或品控。高投入和高不確定性的質(zhì)量評(píng)估體系形成了主要矛盾。

大數(shù)據(jù)與人工智能已經(jīng)在各個(gè)行業(yè)大展身手,而海量的視頻數(shù)據(jù)、用戶(hù)觀看數(shù)據(jù),已經(jīng)為人工智能算法提供了肥沃的土壤;視頻、音頻、文本等非結(jié)構(gòu)化數(shù)據(jù),天然符合人工智能(深度學(xué)習(xí))算法擅長(zhǎng)的領(lǐng)域。因此,使用AI技術(shù)來(lái)對(duì)視聽(tīng)介質(zhì)進(jìn)行全方位解構(gòu),并利用海量數(shù)據(jù)、發(fā)掘內(nèi)容創(chuàng)作規(guī)律,輔助內(nèi)容質(zhì)量評(píng)判是AI技術(shù)落地的一大領(lǐng)域,也是一片AI應(yīng)用的藍(lán)海。

2、內(nèi)容創(chuàng)作理解的體系—成片體檢

成片體檢是我們使用AI算法對(duì)內(nèi)容創(chuàng)作質(zhì)量進(jìn)行量化的嘗試。類(lèi)比人的體檢,成片體檢主要指利用視聽(tīng)AI技術(shù),計(jì)算出能夠反映內(nèi)容創(chuàng)作質(zhì)量的各個(gè)維度指標(biāo),并根據(jù)不同類(lèi)型的內(nèi)容,分別計(jì)算出優(yōu)質(zhì)內(nèi)容在各個(gè)維度指標(biāo)上的最佳取值或區(qū)間,形成內(nèi)容的健康標(biāo)準(zhǔn)。我們通過(guò)AI算法,對(duì)待檢測(cè)內(nèi)容在各個(gè)維度上與健康內(nèi)容進(jìn)行比對(duì),給出相應(yīng)維度的預(yù)警、實(shí)現(xiàn)成片質(zhì)量的體檢報(bào)告輔助剪輯優(yōu)化。我們期望做到的就是類(lèi)比醫(yī)學(xué)中的高精密儀器,全方位、準(zhǔn)確地?cái)?shù)字化掃描整個(gè)內(nèi)容,進(jìn)而賦能整個(gè)內(nèi)容行業(yè)。

成片體檢的整體框架如圖 1所示。整個(gè)框架可以分為指標(biāo)層、指標(biāo)提取算法、融合層、基礎(chǔ)模型層。

1)指標(biāo)層是依賴(lài)于內(nèi)容創(chuàng)作體系所總結(jié)歸納出來(lái)的,可用以量化內(nèi)容創(chuàng)作的計(jì)算指標(biāo)。為了從原始視頻媒介得到這些指標(biāo),我們需要自下而上分別建立基礎(chǔ)算法層,算法融合層和指標(biāo)提取層;

2)基礎(chǔ)算法層指對(duì)原始視頻介質(zhì)的解析,學(xué)術(shù)上屬于典型的視頻理解與視頻解構(gòu)?;A(chǔ)算法包括典型人物檢測(cè)、人物識(shí)別、人物重拾、場(chǎng)景識(shí)別、動(dòng)作行為識(shí)別,也包括鏡頭切分識(shí)別、表情識(shí)別、情緒識(shí)別、景別識(shí)別、背景音樂(lè)情緒識(shí)別等內(nèi)容行業(yè)特別關(guān)注的基礎(chǔ)模型?;A(chǔ)模型往往得到一些視頻基礎(chǔ)元素級(jí)別的結(jié)果,需要經(jīng)過(guò)模型融合層的相關(guān)模型,才能形成具有內(nèi)容意義的中間結(jié)果;

3)模型融合層包括角色軌跡識(shí)別、故事場(chǎng)景切換,角色情緒發(fā)展模型等。指標(biāo)提取層則直接根據(jù)融合層結(jié)果或者基礎(chǔ)模型結(jié)果,結(jié)合用戶(hù)播放、評(píng)論數(shù)據(jù)篩選出的優(yōu)質(zhì)內(nèi)容,計(jì)算出內(nèi)容的健康標(biāo)準(zhǔn)。比如,一部正常的電視劇,不同番位的出鏡占比、故事線的占比是怎樣的,一般用怎樣的鏡頭時(shí)長(zhǎng),怎樣的景別占比;角色交互的復(fù)雜度指標(biāo)如何等等。

圖1 成片內(nèi)容體檢報(bào)告技術(shù)體系

3、成片體檢體系下的視覺(jué)技術(shù)探索

為了支撐成片體檢體系搭建,我們?cè)谝粢曨l基礎(chǔ)模型上進(jìn)行了一些探索。整個(gè)體檢指標(biāo)體系所需要的基礎(chǔ)模型涉及幾乎視頻理解領(lǐng)域所有的問(wèn)題,包括但不限于人物(人臉)檢測(cè)、識(shí)別、跟蹤,人物重拾,人物動(dòng)作識(shí)別,人物表情識(shí)別等等。為了充分發(fā)揮阿里巴巴整個(gè)集團(tuán)的技術(shù)優(yōu)勢(shì),我們?cè)诓糠帜P蜕线x取了集團(tuán)或其他團(tuán)隊(duì)的模型,比如人臉識(shí)別、動(dòng)作識(shí)別等等;同時(shí),針對(duì)內(nèi)容行業(yè)的視頻介質(zhì)特點(diǎn),我們團(tuán)隊(duì)也自研了針對(duì)內(nèi)容視頻的定制優(yōu)化的人物匹配框架,視頻情感計(jì)算,劇集場(chǎng)景識(shí)別等基礎(chǔ)模型,并在各自領(lǐng)域的接近或者超越業(yè)內(nèi)最佳性能。下面著重介紹人物匹配框架與觀影情緒模擬這兩部分工作。

1. 劇綜人物匹配框架

成片體檢的許多指標(biāo)需要依賴(lài)于準(zhǔn)而全的視頻人物角色識(shí)別。內(nèi)容行業(yè)的視頻是多機(jī)位、多角度拍攝剪輯而成;同時(shí),根據(jù)拍攝需求,人物妝容、衣著都有著較大差異,這就導(dǎo)致了人物識(shí)別問(wèn)題有別于傳統(tǒng)的人臉識(shí)別或者行人檢測(cè)。主要體現(xiàn)在:

多機(jī)位的拍攝導(dǎo)致的是非配合式的人臉識(shí)別,在側(cè)臉、背面、遠(yuǎn)景下,人臉識(shí)別尚無(wú)太好的解決方案;

鏡頭切換與剪輯有別于監(jiān)控場(chǎng)景,打破了視頻內(nèi)在邏輯,使得檢測(cè)跟蹤的作用有限;

根據(jù)創(chuàng)作需要,經(jīng)常交替出現(xiàn)人物的全身、半身畫(huà)面。上述特點(diǎn)會(huì)導(dǎo)致大量側(cè)臉、背面、遠(yuǎn)景、半身、全身角度下人物的丟失。無(wú)法滿足我們“準(zhǔn)”、“全”的要求。

針對(duì)上述問(wèn)題,我們?cè)O(shè)計(jì)了劇綜人物匹配框架。如圖2,我們把劇集內(nèi)的人物“準(zhǔn)全”的識(shí)別,拆解為鏡頭內(nèi)和跨鏡頭的問(wèn)題進(jìn)行分析。在同一鏡頭內(nèi),我們復(fù)用成熟的檢測(cè)與跟蹤,那么跨鏡頭則需要人物重拾。對(duì)于長(zhǎng)時(shí)的多姿態(tài),則需要利用時(shí)空、人臉人體、上下文等整體信息進(jìn)行人物匹配,這就類(lèi)似于多維信息下人物檢索問(wèn)題。人物重拾的特征作為基礎(chǔ)特征層,被多維信息人物檢索使用。

圖2 劇集場(chǎng)景下的人物匹配算法框架

在基礎(chǔ)人物重拾模型上,我們提出了適用于影視行業(yè)的 DramaReID 劇集 ReID 數(shù)據(jù)集和 ESA-ReID 模型。DramaReID 數(shù)據(jù)集來(lái)自于我們海量的劇綜視頻數(shù)據(jù),覆蓋了上萬(wàn)個(gè)人物的全身、半身等視角,是目前業(yè)內(nèi)已知的最大的partial reid 數(shù)據(jù)集。針對(duì)剛才提到的人物重拾問(wèn)題特點(diǎn),我們提出了 Entropybased Semantic Alignment Re-ID 模型,模型的整體架構(gòu)如圖3所示。類(lèi)似與傳統(tǒng)的 re-ID 模型,我們使用 ResNet50 作為主干特征提取網(wǎng)絡(luò),隨后,針對(duì)全半身比對(duì)時(shí)需要的語(yǔ)義級(jí)別的特征和比對(duì),我們分別引入了語(yǔ)義分割多任務(wù),基于語(yǔ)義分割不確定性的置信度模塊和基于置信度的動(dòng)態(tài)比對(duì)模塊,以解決劇綜場(chǎng)景下全半身人物重拾問(wèn)題,得到的人物形象表征也為后續(xù)多維人物檢索做準(zhǔn)備。

圖3 ESA-ReID 模型架構(gòu)圖

具體地,我們使用成熟的語(yǔ)義分割模型,對(duì)待識(shí)別的人物進(jìn)行人體部件語(yǔ)義分割,該分割結(jié)果作為監(jiān)督信號(hào),來(lái)訓(xùn)練我們的語(yǔ)義分割支路。語(yǔ)義分割支路得到人體各個(gè)部位的分割區(qū)域及其概率后,會(huì)經(jīng)過(guò)基于熵的不確定性計(jì)算模塊,來(lái)獲得人體高確定性和不確定的掩模區(qū)域。我們的方法是業(yè)內(nèi)首個(gè)利用熵來(lái)度量人物重拾任務(wù)中的語(yǔ)義分割的不確定的。

通過(guò)度量不確定性,一方面減弱語(yǔ)義分割的誤差對(duì)模型性能的影響,另一方面,不確定性高的區(qū)域,正好對(duì)應(yīng)了人體缺失或被遮擋的部位,可以用于人物相似度計(jì)算。通過(guò)基于熵的不確定模塊得到確定性和不確定性掩模后,我們可以得到人體各個(gè)部件的特征,以及對(duì)應(yīng)的不確定性。在計(jì)算待匹配的兩個(gè)人物的相似度時(shí),就能夠通過(guò)各個(gè)部件一一比對(duì),并用其對(duì)應(yīng)的不確定性來(lái)做權(quán)重進(jìn)行計(jì)算。一方缺失的部件,其不確定性高,進(jìn)而權(quán)重變低甚至為0,這樣相似度就取決于待比較的兩個(gè)人物共同出現(xiàn)的身體部位的視覺(jué)特征。

整體上看,我們的 ESA Re-ID 方法是端到端的模型,在 inference 階段不依賴(lài)任何第三方模型;同時(shí),我們引入的基于熵的度量,極大程度降低了語(yǔ)義分割支路的誤差,并在語(yǔ)義部位級(jí)別進(jìn)行了對(duì)齊比對(duì)。我們的模型在業(yè)內(nèi)公開(kāi)的數(shù)據(jù)集,如 Market1501, DukeMTMC 等達(dá)到了 SOTA 水平,在 Partial-ReID,PartialILID 等 partial 測(cè)試集上,大幅超越了 SOTA。在我們自建的 Drama ReID 數(shù)據(jù)集上,我們的方法也和業(yè)內(nèi)主流的 SOTA 方法進(jìn)行了比較,性能上均有巨大提升。具體可見(jiàn)我們后續(xù)將要公開(kāi)的論文。

人物重拾的特征目前無(wú)法解決劇集中長(zhǎng)時(shí)場(chǎng)景下,人物變裝變形象的問(wèn)題。該問(wèn)題可以定義為多維信息的人物檢索問(wèn)題。多維信息包括人臉特征、人體特征、場(chǎng)景特征等等,業(yè)內(nèi)也有學(xué)術(shù)論文進(jìn)行了相關(guān)的研究工作。目前,我們?cè)O(shè)計(jì)了一種無(wú)監(jiān)督的,基于人臉、人體多維特征長(zhǎng)時(shí)跨鏡頭層次聚類(lèi)的方法。具體圖4。整體思路是,我們期望在時(shí)域局部使用人物重拾特征進(jìn)行人物合并,而在全時(shí)域使用人物與人臉特征進(jìn)行合并,這樣綜合人臉和人體重拾特征的層次聚類(lèi),在聚類(lèi)的純度、精度都有巨大提升。

圖4 人物層次聚類(lèi)示意圖

在使用了上述的人物匹配框架之后,我們的劇綜人物的準(zhǔn)確率、召回率都有10%以上的提升,不僅為成片體檢提供了準(zhǔn)確的人物類(lèi)數(shù)據(jù)與指標(biāo),還為優(yōu)酷的“只看他“業(yè)務(wù)提供了算法支撐,提升了人物召回率,降低審核成本。

2. 觀影情緒模擬

共情是內(nèi)容拉動(dòng)觀眾的核心,預(yù)測(cè)內(nèi)容能給觀眾帶來(lái)的情感體驗(yàn)是內(nèi)容體檢的另一個(gè)重要且直觀的指標(biāo),能夠在內(nèi)容播放前就預(yù)測(cè)觀眾的觀看的結(jié)果,比如情緒高點(diǎn)、低谷,或者平局的情緒高點(diǎn)的時(shí)長(zhǎng)占比等,將對(duì)視頻優(yōu)化有重要指導(dǎo)意義。直接通過(guò)視頻內(nèi)容來(lái)預(yù)測(cè)觀眾的情感狀態(tài)是音視頻和情感計(jì)算交叉領(lǐng)域問(wèn)題。在情感計(jì)算領(lǐng)域,除了使用典型的7類(lèi)情感之外,學(xué)術(shù)界會(huì)使用 Valence 和 Arousal 二維情緒模型,來(lái)細(xì)粒度全面描述人的情感狀態(tài)。Arousal可以理解為是情緒的強(qiáng)度,范圍為(-1,1),1表示最強(qiáng),如激動(dòng),-1 表示最弱,比如睡著的狀態(tài)。Valence表示情緒的正負(fù)(-1,1),1表示正向,-1表示負(fù)向。那么任何情感狀態(tài)均可以使用在 Valence 和 Arousal 的坐標(biāo)系中表示。另一方面,視頻表征領(lǐng)域,可以利用視頻的場(chǎng)景、人物、行為姿態(tài)、背景音樂(lè)等多個(gè)維度共同表征視頻特點(diǎn)。那么上述觀影情緒模擬就是建立上述視頻表征到情感狀態(tài)的映射函數(shù)。

基于學(xué)術(shù)界的相關(guān)研究和已有的開(kāi)源數(shù)據(jù)集,我們提出了基于多維視頻表征的情緒預(yù)測(cè)模型,模型的輸入是連續(xù)的劇綜片段,輸出預(yù)測(cè)的用戶(hù)逐時(shí)情緒 Valence 和 Arousal 值。

圖5 觀影情緒模擬模型結(jié)構(gòu)圖

模型的整體結(jié)構(gòu)如圖5所示:首先,將整個(gè)視頻分成連續(xù)的固定長(zhǎng)度的片段,隨后,對(duì)每個(gè)片段進(jìn)行基礎(chǔ)特征提取。在基礎(chǔ)特征上,我們使用了分別提取了場(chǎng)景特征,人物表情特征,人物行為特征和音頻特征。具體地、場(chǎng)景特征使用了基于 Places365 數(shù)據(jù)集 pretrained 的 Vgg6 作為特征提取器,提取每幀的場(chǎng)景表征;人物表情特征則使用了我們自研的人物幀級(jí)別表情模型作為特征提取器,逐幀提取該幀圖片的人物特征;行為特征使用了 OpenPose 的預(yù)訓(xùn)練主干網(wǎng)絡(luò),音頻特征使用了基于梅爾倒譜和 Vggish 的特征提取器提取音頻幀特征。

在得到各個(gè)模態(tài)的逐幀表征后,我們引入了長(zhǎng)短時(shí)融合機(jī)制,以反映情緒隨時(shí)間具有依賴(lài)性的特點(diǎn),并兼顧長(zhǎng)期趨勢(shì)和短期波動(dòng)。在短時(shí)特征融合上,我們將每幀的各個(gè)模態(tài)特征,分別送入各自的 LSTM 層,得到各個(gè)模態(tài)在該視頻段落的最終表征。經(jīng)過(guò) LSTM 之后的多模態(tài)特征經(jīng)過(guò)合并后,再次送入第二層 LSTM,該層 LSTM 的輸入是相鄰視頻段的融合后的模態(tài)表征,輸出的是每個(gè)視頻段的 Valence 或 Arousal 值。第一層 LSTM 是短時(shí)時(shí)序融合,第二層 LSTM 則是長(zhǎng)時(shí)時(shí)序融合??紤]到 Valence 和 Arousal 存在一定差異,我們對(duì)兩者分別進(jìn)行建模。人的情緒強(qiáng)度往往具有更強(qiáng)的平滑性,而 Valence 則可以隨片段快速轉(zhuǎn)變。因此我們對(duì) Arousal 部分進(jìn)行了滑動(dòng)平均處理,得到最終的 Arousal 結(jié)果。我們的模型在開(kāi)源的多媒體情感計(jì)算數(shù)據(jù)集上,在 MSE,PCC 等指標(biāo)均超過(guò)了業(yè)內(nèi)的 SOTA 水平。模型具體實(shí)現(xiàn)和數(shù)據(jù)測(cè)評(píng)見(jiàn)我們公開(kāi)的論文(https://arxiv.org/abs/1909.01763)。

情感模擬反映了用戶(hù)對(duì)內(nèi)容的真實(shí)感受,我們使用模型的結(jié)果和真實(shí)線上視頻的收視數(shù)據(jù)進(jìn)行了對(duì)比,發(fā)現(xiàn)了驚人的一致性。這就充分證明了模型的使用價(jià)值。圖6是在電影《我不是藥神》的 case 和《長(zhǎng)安十二時(shí)辰》收視曲線和 Arousal 曲線的比對(duì)結(jié)果。可以看到,在《我不是藥神》的 Valence 預(yù)測(cè)中,我們的情感 Valence 正確的反映了電影前喜后悲的情感趨勢(shì)。圖7是《長(zhǎng)安十二時(shí)辰》的情緒 Arousal 預(yù)測(cè)和收視曲線比對(duì),發(fā)現(xiàn)情緒高潮點(diǎn)和低點(diǎn)對(duì)應(yīng)了收視高點(diǎn)和低點(diǎn),這進(jìn)一步證實(shí)了用戶(hù)情緒模擬的巨大業(yè)務(wù)價(jià)值。

圖7 長(zhǎng)安十二時(shí)辰收視曲線與 Arousal 預(yù)測(cè)對(duì)比

成片體檢的應(yīng)用與未來(lái)

目前,我們已經(jīng)建立了基本的基于人物和情感的體檢體系,并根據(jù)全網(wǎng)頭部劇集,建立了各個(gè)題材相應(yīng)的“健康標(biāo)準(zhǔn)“。覆蓋了主要的劇綜播前評(píng)估與優(yōu)化。在人物側(cè),通過(guò)人物識(shí)別得到的故事線、人物出鏡指標(biāo),幫助我們發(fā)現(xiàn)了前期熱播的劇集在第一集主人公故事線缺失的預(yù)警,并得到片方認(rèn)可和修改。我們的情緒模擬曲線,全面在覆蓋優(yōu)酷的自制綜藝、劇集、網(wǎng)大。其中,通過(guò)網(wǎng)大開(kāi)放平臺(tái)對(duì)業(yè)內(nèi)透出的體檢能力,能夠?yàn)榫W(wǎng)大片方檢測(cè)成片的高潮低谷,和相對(duì)業(yè)內(nèi)優(yōu)質(zhì)內(nèi)容的水位參考,為平臺(tái)帶來(lái)了大量的簽約與合作,不少內(nèi)容經(jīng)過(guò)體檢和優(yōu)化后成為了網(wǎng)大爆款,如圖8。

圖8 開(kāi)放平臺(tái)內(nèi)容輔助優(yōu)化效果喜報(bào)

未來(lái),整個(gè)成片體檢將會(huì)更加深入和精細(xì)化。從應(yīng)用角度看,我們將繼續(xù)擴(kuò)展體檢維度,同時(shí)深入題材特有的細(xì)粒度體檢指標(biāo),形成題材定制化體檢能力。在整個(gè)視覺(jué)AI技術(shù)上,圍繞成片體檢,我們將繼續(xù)在多模態(tài)人物檢索,多模態(tài)情感計(jì)算,人物交互片段檢測(cè)與關(guān)系屬性識(shí)別等理解視頻劇綜內(nèi)容所面臨的特有的問(wèn)題上深入研究,持續(xù)向文娛行業(yè)輸出算法成果與能力。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論