英偉達發布“山寨”游戲創造器,已完美復現《吃豆人》
GAN作為一種深度學習訓練的“左右互博術”在造假界曾“聲名鵲起”。
前有“換臉術”,后有“假新聞”,技術作惡論也以GAN為源頭甚囂塵上。但事情總有兩面性,例如DeepMind曾經改造了“史上最強”的BigGAN,讓新的算法去做圖像分類,刷新了ImageNet無監督表征學習的紀錄。
而近日,英偉達研究院創建的強大新AI模型GameGAN也讓四十年前的《吃豆人》游戲再度重生。
用神經網絡支撐的GAN技術創造出逼真的游戲,英偉達此項工作屬全球首個。
進一步,GameGAN經過5萬個回合的游戲訓練,能夠在無需基礎游戲引擎的情況下生成完整版的《吃豆人》游戲。
據悉,當玩家試玩GAN生成得游戲時,GameGAN會對游戲玩家的行為做出響應,從而實時生成新的游戲環境框架。在使用游戲不同等級或版本的游戲劇本進行訓練后,GameGAN甚至可以生成從未有過的游戲關卡。
一、首個模仿計算機游戲引擎的神經網絡模型
GameGAN是首個利用生成式對抗網絡(GAN)模仿計算機游戲引擎的神經網絡模型。其背后主要的模型思想是GAN:即由兩個相互對抗的神經網絡組成,一個生成器(generator)和一個鑒別器(discriminator),生成器和鑒別器相互對抗,直至生成能夠以假亂真的內容。
與現有工作不同的是,英偉達設計得GameGAN,里面包含一個內存模塊,該模塊可以構建環境的內部地圖,允許智能體以高度的視覺一致性返回到以前訪問過的位置。GameGAN還能夠將圖像中的靜態和動態組件分開,使模型的行為更易于解釋,并和需要對動態元素進行顯式推理的下游任務建立相關性。
論文地址:https://cdn.arstechnica.net/wp-content/uploads/2020/05/Nvidia_GameGAN_Research.pdf
GameGAN由Fidler、Kim、NVIDIA研究員Jonah Philion、多倫多大學(University of Toronto)學生Yuyu Zhou和麻省理工學院(MIT)教授Antonio Torralba共同創作,相關研究論文被CVPR 2020收錄,并將于6月份在會議上介紹。
整個模型由三個主要模塊組成,包含動態引擎、渲染引擎和內存。其中,動態引擎將行為、記憶、圖像作為輸入,并及時更新時間T的隱藏狀態;內存模塊負責整體地寫入和讀取;渲染引擎負責解碼圖像,可以學習解開圖像中的靜態和動態分量。
在問題的整體考慮上,英偉達的研究員將其定義為2D圖像生成問題,給定觀察到得圖像幀序列和智能體采取的相應操作,然后進行圖像模擬創造,效果類似于在真實動態環境中渲染。
在具體的訓練過程中,GameGan會觀察場景和玩家的鍵盤動作從而進行預測,也就是直接從圖像和動作場景中學習,不需要訪問底層游戲邏輯或引擎。
對于訓練的細節,包括:吃豆人的速度、移動能力;四個鬼魂的運動方式;吃豆人吃下大力丸會怎樣;當鬼魂碰到吃豆人時,會發生什么。
對于數據,英偉達團隊在四天內為GameGAN提供了50,000集(共幾百萬幀)的《吃豆人》劇本。如此規模的數據集除了英偉達團隊,吃豆人的游戲開發商萬代南夢宮也出了一份力。
對于硬件,英偉達的AI研究團隊在50,000小時的“ 吃豆人”游戲中訓練了四臺計算機場,每臺計算機均配備了Quadro GV100工作站級GPU。
對于測試實驗,英偉達研究人員分別在《吃豆人》和VizDoom環境中對GameGAN等四種模型進行定量和定性的綜合評估。
實驗結果如上圖所示:Action-LSTM生成得幀缺少豆豆等細節,World Model在保持時間一致性方面存在困難,有時會出現嚴重的不連續,而GameGAN可以生成一致性模擬。
總的來說,經過訓練后的GameGAN模型能夠生成靜態環境元素,例如統一的迷宮形狀、豆子和強化道具,以及作為敵人的幽靈和吃豆人本身等移動元素。
該模型也能夠學習簡單和復雜的關鍵性游戲規則。例如,和原版游戲一樣,吃豆人無法穿過迷宮墻。他需要一邊四處移動,一邊吃豆。當他吃到強化道具后,鬼魂會變成藍色并四處逃竄。當吃豆人從一側離開迷宮時,他會被傳送到迷宮的另一側。一旦吃豆人碰到鬼魂,屏幕就會閃爍并結束游戲。
二、不僅僅適用于游戲
自主機器人通常也需要在模擬器中接受訓練,模擬器中的AI可以在與現實世界中的目標進行交互之前,學習環境規則。對于開發人員而言,創建模擬器是一個相當耗時的過程。開發人員必須編寫有關如何與目標互動,以及及光在環境中如何表現等規則。
模擬器被廣泛用于開發各種自主機器,例如學習如何抓握和移動物體的倉庫機器人、或是需要在人行道上運輸食物或藥品的物流機器人等。
而GameGAN地出現,為其帶來了一種可能性 —— 在未來的某一天,神經網絡訓練將能取代此類任務中編寫模擬器的工作。
比如你在汽車上安裝一個攝像頭。該攝像頭可以記錄道路環境或駕駛員的行為,例如轉動方向盤或踩下油門等。這些數據可被用于訓練一個深度學習模型,其能夠預測在現實世界中,人類駕駛員(或自動駕駛汽車)在做出猛踩剎車等動作時會發生什么后果。 雷鋒網雷鋒網(公眾號:雷鋒網)雷鋒網
NVIDIA多倫多研究實驗室主任Sanja Fidler表示:“我們最終將訓練出一個AI,其只需通過觀看視頻和觀察目標在環境中所采取的行動,就能模仿駕駛規則或物理定律。GameGAN是朝這一目標所邁出的第一步。”
- 6-2· 國務院發布一攬子政策措施 鼓勵平臺經濟規范健康發展
- 5-23· 北京發布新版等級旅游景區防控指引:嚴禁接待無48小時核酸證明游客
- 5-12· 海南發布《關于海南自由貿易港統籌區域協調發展的若干意見》
- 5-12· 成都發布“十四五”新型基礎設施建設規劃
- 5-9· 廣東發布8個跨境電商綜合試驗區實施方案
- 4-28· 北京發布基本公共服務實施標準 明確89項服務
- 4-21· 江蘇發布首批10個縣域電商產業集聚區——“老樹”何以綻“新藤”?
- 4-21· 日本發布使用無人機運送包裹指南 推動無人機物流社會化實施
- 4-14· 安徽省發布“十四五”電子信息制造業發展規劃
- 4-6· 天津發布年度供地計劃 基礎設施及公益事業用地過半