《刺客信條》《生化危機(jī)8》即將上市,AI訓(xùn)出的敵人可以強(qiáng)到什么地步?

硅谷洞察
為什么AI能夠在游戲中“大顯神威”甚至擊敗人類世界的頂尖選手呢?這就不得不提到在AI的不斷進(jìn)化和學(xué)習(xí)過程中一個(gè)特別重要的環(huán)節(jié)——自我博弈。

當(dāng)?shù)貢r(shí)間7月24日,微軟 Xbox Games Showcase 直播發(fā)布會(huì)如期舉辦,公布了包括10部全球首度公布作品、22部專為Xbox主機(jī)獨(dú)占打造的作品、Xbox Game Studios工作室成員中9個(gè)工作室的作品,以及多部來自合作伙伴的作品。

Xbox Games Showcase直播中展示了多款游戲,圖片來自網(wǎng)絡(luò)

此次次世代游戲中最讓人期待的,非《生化危機(jī)8》和《刺客信條:英靈殿》莫屬了。經(jīng)過24年和13年的漫長歷程,《生化危機(jī)》和《刺客信條》系列已然成為主機(jī)游戲世界里程碑式的存在。在兩個(gè)系列的續(xù)作回歸宣傳中,除了畫面升級(jí)、劇情更新等續(xù)作的常規(guī)操作外,兩家開發(fā)商都特意提到了游戲中AI的升級(jí)。

《刺客信條:英靈殿》的創(chuàng)意總監(jiān)Ashraf Ismail在接受媒體采訪時(shí)提到:本次作品相比前作最大的不同在于敵人的AI系統(tǒng)得到了很大提升,玩家在游戲中遇到敵人不再是“傻白甜”,而是會(huì)利用不同的戰(zhàn)斗地形和團(tuán)隊(duì)配合來對付玩家,這讓玩家在每次面對同一敵人時(shí)會(huì)有不同的戰(zhàn)斗體驗(yàn)。

《刺客信條:英靈殿》,圖片來自網(wǎng)絡(luò)

國外知名游戲博主EVIL VR 在一條爆料消息中表示:《生化危機(jī)8》最大的亮點(diǎn)就是敵人AI會(huì)有質(zhì)的飛躍,生化危機(jī)系列歷代游戲的僵尸和敵人看起來都很“蠢”,而這一代的敵人將會(huì)脫胎換骨的進(jìn)化,每個(gè)敵人看起來都會(huì)思考,不僅如此,它們還非常具有團(tuán)隊(duì)合作精神,會(huì)根據(jù)不同的情況來制定不同策略從而給玩家制造麻煩。

舉個(gè)例子:當(dāng)一個(gè)敵人見到玩家后,首先會(huì)根據(jù)你的彈藥量,血量而制定不同的策略,或是求救,或是逃跑,或是圍攻,而圍攻的時(shí)候不再是眼神攻擊,敵人會(huì)時(shí)刻判定你的空隙,一旦玩家有任何一方不注意,就會(huì)發(fā)動(dòng)猛烈的攻擊,而逃跑的敵人或許不是真的逃跑,而是留有更狠辣的后招埋伏玩家。

《生化危機(jī)8》將于2021年上市,圖片來自網(wǎng)絡(luò)

其實(shí),游戲早已成為AI發(fā)展的重要載體,從最初IBM的“深藍(lán)”到谷歌的“AlphaGo”再到馬斯克投資的OpenAI,都選擇了采用“游戲”的方式來展現(xiàn)自己的研究成果。

那么,為何這些大公司都選擇用游戲來展現(xiàn)自己的AI研發(fā)實(shí)力呢?AI會(huì)給游戲行業(yè)的未來帶來怎樣的影響和挑戰(zhàn)?

AI操縱的“敵人” 早已可團(tuán)滅人類玩家

最早的游戲AI原型,可以追溯到經(jīng)典的街機(jī)游戲《吃豆人》中里面那四種不同顏色追著玩家滿世界跑的怪物。雖然那時(shí)的開發(fā)者只是賦予了它們不同的追擊算法,但那確實(shí)是一次非常有意義的嘗試。這次嘗試為原本規(guī)則簡單的《吃豆人》帶來了不可預(yù)知的變化,讓每一次的游戲都沒有固定的規(guī)律可循,讓玩家有了持續(xù)游玩的動(dòng)力。

事實(shí)上,當(dāng)時(shí)制作《吃豆人》的巖谷徹并不知道“人工智能”和“AI”這兩個(gè)詞匯,更沒有提前開發(fā)出所謂的AI程序來制作《吃豆人》,整個(gè)過程是在不斷思考中優(yōu)化而實(shí)現(xiàn)的。對于當(dāng)時(shí)的巖谷徹來說,只需要思考玩家如何從游戲中獲得快樂,而這種從玩家角度出發(fā)的開發(fā)思想就在不經(jīng)意間讓AI這項(xiàng)技術(shù)『纏』上了當(dāng)時(shí)世界上最早的一批游戲制作者。

《吃豆人》中的幽靈為后來的游戲AI奠定了基礎(chǔ),圖片來自網(wǎng)絡(luò)

往后開始,游戲開發(fā)者們開始不停的在游戲中設(shè)計(jì)各種各樣AI敵人來控制游戲的難度,《超級(jí)馬里奧》、《塞爾達(dá)》、《波斯王子》等游戲都是那個(gè)時(shí)候經(jīng)典之作。雖然名叫AI,但那時(shí)的AI仍然處于“人工智障”階段,游戲中敵人的動(dòng)作都是基于制作者事先設(shè)置好的語言腳本完成的,從早期《吃豆人》的策劃書中也有聊到。

可以說,AI的應(yīng)用對于整個(gè)游戲行業(yè)的意義是非同尋常的。當(dāng)然,不同類型的游戲中的AI作用也不同。比如,棋牌類游戲中人們可以通過AI對于圍棋的學(xué)習(xí)來改變自己的學(xué)習(xí)方式,從而來找到更加合理的策略。而對于電子游戲,AI的加入極大地增加了游戲玩法的趣味性和不確定性。

經(jīng)典游戲《塞爾達(dá)傳說:曠野之息》,圖片來自網(wǎng)絡(luò)

而不管是哪種游戲,游戲中的敵人和隊(duì)友都需要隨時(shí)隨地與玩家保持互動(dòng),這是一個(gè)極佳的AI研究環(huán)境,這也是AI之所以能在游戲中的發(fā)展如此迅猛的主要原因。

“自我博弈”:AI完勝的秘訣

其實(shí),游戲AI打敗人類玩家甚至是職業(yè)選手早已不是什么新鮮的事情。最標(biāo)志性的事件就是由Google旗下的DeepMind公司研發(fā)的AlphaGo先后戰(zhàn)勝世界圍棋冠軍李世石和柯潔。

AlphaGo的橫空出世可以說是AI行業(yè)里最重要的里程碑之一,它標(biāo)志著AI的進(jìn)步已經(jīng)在某些方面可以與人類一較高下。

而在關(guān)注度更高的電競行業(yè)中,AI的表現(xiàn)更是驚艷了所有玩家。相信熟悉Dota2的玩家都應(yīng)該知道,2017年Ti7國際邀請賽上,一個(gè)名叫OPEN AI的超級(jí)人工智能2:0『完虐』了Dota2的傳奇職業(yè)選手Dendi。在比賽中,OPEN AI操作的英雄除了依靠絕對精準(zhǔn)的數(shù)值計(jì)算,還熟練掌握并運(yùn)用了拉扯兵線、吸引/取消仇恨、越兵線壓制、打斷打藥,甚至騙補(bǔ)刀消耗這些游戲中的技巧。

Dota2傳奇職業(yè)選手Dendi,圖片來自網(wǎng)絡(luò)

可是,計(jì)算精妙的且學(xué)習(xí)能力超強(qiáng)的AI也不是屢戰(zhàn)屢勝。在一年后的Ti8國際邀請賽開幕式上,由OPEN AI進(jìn)化而來的OpenAI Five在5V5表演賽中輸給了一支名叫paiNGame(簡稱:PG)的參賽隊(duì)伍。小探特意去回顧了這場比賽,雖然OpenAI Five在比賽中落敗,但其擊殺數(shù)一直都領(lǐng)先于PG戰(zhàn)隊(duì)。

那么,為什么AI能夠在游戲中“大顯神威”甚至擊敗人類世界的頂尖選手呢?這就不得不提到在AI的不斷進(jìn)化和學(xué)習(xí)過程中一個(gè)特別重要的環(huán)節(jié)——自我博弈。

自我博弈是在計(jì)算機(jī)中,算法可以制造出兩個(gè)或者多個(gè)這樣的“我”(機(jī)器學(xué)習(xí)中叫做“智能體Agent”)來相互對抗,通過比較對抗之后的結(jié)果來找到更好的策略,是計(jì)算機(jī)在尋找納什均衡點(diǎn)的重要手段。

在“自我博弈”中,機(jī)器人與自己復(fù)制品的實(shí)力相當(dāng),就可以避免因?qū)κ痔珡?qiáng)或者太弱而學(xué)不到東西。而且,由于機(jī)器人的決策和操作速度遠(yuǎn)遠(yuǎn)超過人類,它就可以在短時(shí)間內(nèi)用海量的比賽來迅速獲得更多經(jīng)驗(yàn)。

當(dāng)年《自然》雜志以AlphaGo為主題制作的封面,圖片來自網(wǎng)絡(luò)

AlphaGo曾經(jīng)通過自我對弈3000萬盤,來提高自己神經(jīng)網(wǎng)絡(luò)的精度。而OpenAI則是完全從零開始,在對Dota游戲世界沒有認(rèn)知的情況下就開始通過自我對練學(xué)習(xí)游戲方法。

研發(fā)團(tuán)隊(duì)也表示,他們并沒有為OpenAI機(jī)器人編入對戰(zhàn)策略,沒有為它指定任何戰(zhàn)術(shù),一開始也沒讓它與人類高手對練,而是讓它“放飛自我”,隨機(jī)行動(dòng),在一次次失敗過程中逐漸掌握了游戲打法。

這也是AI在技能施放和團(tuán)戰(zhàn)支援中做的比人類好的重要原因。

但即便是這樣,在Dota2的5V5比賽中AI還是輸?shù)袅吮荣悺R驗(yàn)樵谶@類游戲中,獲得勝利的一方往往是通過在某一時(shí)間點(diǎn)中通過偵查和經(jīng)驗(yàn)判斷做出的復(fù)雜決策來取得優(yōu)勢,比如:什么時(shí)候進(jìn)攻,什么時(shí)候撤退,從哪進(jìn)攻,分兵和包抄,偷襲和騷擾,佯攻和引誘等。

這種決策往往在執(zhí)行時(shí)伴隨著失敗的風(fēng)險(xiǎn),簡單來說就是根據(jù)不完全的信息做出“賭”的舉動(dòng);而作為“完全理智”的AI是永遠(yuǎn)不會(huì)做出這樣的決定的,它們往往會(huì)選擇最為保險(xiǎn)的取勝方式,這也是人類之所以能夠戰(zhàn)勝AI的主要原因。

是AI間的游戲,還是游戲的未來?

隨著 Google、Facebook、IBM 等科技巨頭在這方面的投入和引導(dǎo),AI在未來即時(shí)戰(zhàn)略游戲上打敗人類似乎已成定局。

但如果我們只是創(chuàng)造一個(gè)將來有可能擊敗我們的對手豈不是太“自討沒趣“了?當(dāng)年AlphaGo相繼擊敗了李世石和柯潔之后,圍棋選手們并沒有因?yàn)橐粋€(gè)“超級(jí)”電腦的出現(xiàn)而對這項(xiàng)歷史悠久的游戲失去興趣,反而是利用人類自己的創(chuàng)造性探索更多的圍棋玩法和策略。可以說AI的加入能夠帶給玩家更好玩的游戲體驗(yàn)。

那么,游戲AI的未來會(huì)走向哪里呢?

所有開發(fā)者都認(rèn)為,CPU和3D顯卡特性的持續(xù)提高將繼續(xù)給AI開發(fā)者帶來更多力量,行業(yè)會(huì)繼續(xù)慢慢遠(yuǎn)離單一而刻板的規(guī)則模式,轉(zhuǎn)而通過各種方式創(chuàng)造更多有目的性的靈活A(yù)I??梢哉f,可拓展AI將繼續(xù)得到更多關(guān)注和支持,主要體現(xiàn)在第一人稱射擊游戲領(lǐng)域和更復(fù)雜的策略游戲。

有研究小組使用《GTA5》進(jìn)行自動(dòng)駕駛的試驗(yàn)場地,圖片來自網(wǎng)絡(luò)

而在游戲之外的領(lǐng)域,游戲AI的作用也非常突出。著名3A大作《GTA5》就為自動(dòng)駕駛提供了完美的試驗(yàn)場地。英特爾和普林斯頓大學(xué)的科學(xué)家們利用這款游戲中的開放性和復(fù)雜性來來試驗(yàn)自己自動(dòng)駕駛算法。

但從游戲本身而言,AI的加入同時(shí)也面對著一些不小的挑戰(zhàn)。

從技術(shù)方面來看,算力、數(shù)據(jù)、訓(xùn)練方式是目前游戲AI需要解決的三大難點(diǎn)

第一,機(jī)器學(xué)習(xí)算法對算力的需求量是非常大的。在網(wǎng)絡(luò)游戲中的AI運(yùn)算力還可以依靠外部服務(wù)器來進(jìn)行解決,但如果單機(jī)游戲中處處充滿AI,那就意味著玩家的CPU需要非常有超強(qiáng)的算力,就如同Alpha Go這種超級(jí)人工智能的算法并不是任何電腦都能承受的,算法的訓(xùn)練往往需要專用的AI芯片。

AI芯片往往比普通CPU算力更強(qiáng),圖片來自網(wǎng)絡(luò)

第二是數(shù)據(jù)需求,現(xiàn)階段的AI模型大多是基于『模式匹配』的算法來進(jìn)行數(shù)據(jù)建模的,這就需要AI在海量的數(shù)據(jù)中去尋找出某一條規(guī)律。假設(shè)沒有龐大的數(shù)據(jù)來進(jìn)行支撐,那么AI就無法得到有效的訓(xùn)練,從而在對抗中甚至出現(xiàn)錯(cuò)誤的判斷。

例如圍棋,AI可能在幾十秒中能推演上萬個(gè)來回。正是因?yàn)閲暹@樣的游戲有著既定的規(guī)則,AI才能順著規(guī)則路線快速生成海量的數(shù)據(jù)并進(jìn)行建模,這也是為什么棋牌類游戲能率先被AI攻占下來的原因。

第三是訓(xùn)練方式,機(jī)器學(xué)習(xí)的訓(xùn)練分為兩種,一種是上述我們聊到的『自我博弈』。另一種是通過實(shí)際人類對戰(zhàn)的數(shù)據(jù)來進(jìn)行訓(xùn)練,告訴機(jī)器“人是怎么做的”“怎么做能獲勝”。

從目前游戲AI的發(fā)展成果上看,在圍棋、打磚塊、推箱子等規(guī)則相對簡單的游戲中,自我博弈的訓(xùn)練方式似乎獲得了更好的效果,因?yàn)檫@些游戲都無需依賴其他外部輸入,實(shí)現(xiàn)高效的模擬對戰(zhàn)。

打磚塊等規(guī)則簡單的游戲訓(xùn)練起來相對容易,圖片來自網(wǎng)絡(luò)

但隨著游戲復(fù)雜度的提升,模擬對戰(zhàn)變得越來越低效,對于動(dòng)輒需要上千萬次對戰(zhàn)的AI來說,如此低效的訓(xùn)練方式是無法接受的。

而另一種通過與人類對戰(zhàn)進(jìn)行模仿訓(xùn)練的方式則受限于數(shù)據(jù)的準(zhǔn)確性和完備性,是否覆蓋到可能出現(xiàn)的所有戰(zhàn)術(shù)、情況就顯得尤為重要,一旦數(shù)據(jù)缺失就可能造成訓(xùn)練出的AI出現(xiàn)“偏科”的情況,并且人類做出的舉動(dòng)也并不是一定正確。

而從整個(gè)游戲行業(yè)的角度來說,想要實(shí)現(xiàn)未來AI大面積介入,同樣也存在著不小的挑戰(zhàn)。

首當(dāng)其沖的就是游戲壽命的問題,要想真正的訓(xùn)練出一款具有一定智慧行為的游戲內(nèi)置AI需要大量的數(shù)據(jù)對其進(jìn)行訓(xùn)練,然而這種訓(xùn)練是需要長時(shí)間積累的。但是,一款游戲的壽命是有限的,等到AI經(jīng)過幾年時(shí)間的完成訓(xùn)練,也許這款游戲的早就被后來畫面更好玩法更新奇的游戲取代。

當(dāng)然,在畫面優(yōu)化上,AI適用于大部分的游戲。但玩法改革并不適用于所有游戲。就像《Game Marker’s Toolkit》系列作者馬克·布朗(Mark Brown)說的“AI必須要適應(yīng)目標(biāo)游戲想要的體驗(yàn)。”所以AI在玩法上的優(yōu)化應(yīng)該針對特定游戲做出不同的更改,甚至選擇不使用。

《魔獸世界》超長的游戲壽命可以稱之為奇跡,圖片來自網(wǎng)絡(luò)

所以,對于一家游戲開發(fā)者來說,想要長時(shí)間吸引大量的玩家并為AI提供訓(xùn)練數(shù)據(jù)幾乎是一件『穩(wěn)賠不賺』的事情,這也是為什么大多數(shù)游戲廠商更愿意將游戲中的AI按照固定劇本寫死的原因,因?yàn)檫@樣既可以讓AI在可控的范圍內(nèi)取悅玩家,還能在短時(shí)間內(nèi)收割玩家的錢包。

而回到大家最關(guān)心的那個(gè)問題『AI是否會(huì)在游戲中全面戰(zhàn)勝人類?』

小探認(rèn)為大可不必?fù)?dān)心,因?yàn)锳I如果想要全面戰(zhàn)勝人類的話,除了需要長時(shí)間的基礎(chǔ)硬件發(fā)展作支撐,也需要上述小探提到的”賭“的決策行為,而這種近乎于人類的思考模式,是AI開發(fā)者絕對不允許的。

總的來說,AI之于游戲的意義是十分重大的。

對玩家而言,游戲在玩法和開發(fā)上的拓展,能帶來眾多更有趣更精良的游戲;也會(huì)讓玩家體驗(yàn)變得更特別、更個(gè)性化、更令人回味。而對于整個(gè)產(chǎn)業(yè)來說,更多的創(chuàng)新和技術(shù)進(jìn)步將推動(dòng)產(chǎn)業(yè)的蓬勃發(fā)展,更加良性。

隨著時(shí)間的推移,AI與游戲的融合也在一步步加深,雖然還存在著不小的挑戰(zhàn),但正因?yàn)橛羞@種不確定性的存在,游戲才能成為游戲,玩家們才能為止著迷與期待。

(文本特別鳴謝硅谷資深A(yù)I工程師波爾的指導(dǎo)與貢獻(xiàn))

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論