一句話就能讓AI找到3A游戲Bug?準(zhǔn)確率達(dá)86%,Demo在線可玩
為了讓游戲順暢運行,這群AI測試員真的拼了…
博雯 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
輸入簡單的關(guān)鍵字,就能給3A大作找Bug?
好,先來看看GTA5,輸入A car flying in the air(空中汽車):
隨手點開一個視頻……這牛逼的物理引擎,不愧是你!
就用這種簡單的方法,我們找到了荒野大鏢客的空中飛馬:
(打一槍還能變成真·馬達(dá))
還有老滾5的“桶中人”:
目前,Bug的搜索范圍包括賽博朋克2077、巫師3、孤島驚魂5等多個3大作在內(nèi)的1873個游戲,共計26954個視頻。
而且還不需要任何的視頻標(biāo)題和其他屬性,只輸入文字,AI就會基于視頻內(nèi)容進行搜索。
就是這么一個找Bug的AI,現(xiàn)在已經(jīng)登上了MSR 2022,一個鼓勵研究者開發(fā)建立新的數(shù)據(jù)集,并基于軟件系統(tǒng)進行有趣的應(yīng)用開發(fā)的會議。
輸入關(guān)鍵字就能給出Bug視頻的AI
所以這位AI游戲測試員到底是如何工作的?
要開發(fā)AI模型自然少不了數(shù)據(jù)集,研究團隊收集了reddit社區(qū)中GamePhysics版塊里的2萬多個視頻,首次建立了一個游戲Bug數(shù)據(jù)集。
抓取工具則是他們基于Reddit API和PushShift.io API自己開發(fā)了的一個爬蟲軟件。
其中PushShift.io API用來獲取論壇中每個提交內(nèi)容的高級信息,而Reddit API則用來更新內(nèi)容得分和其他元數(shù)據(jù)。
基于上面的數(shù)據(jù)集,研究團隊提出了一種以對比性語言-圖像預(yù)訓(xùn)練模型CLIP為基礎(chǔ)的方法。
這一模型由OpenAI在去年推出,能夠判別文本與圖像是否相關(guān),其zero shot效果堪比ResNet50。
因此,團隊便依靠CLIP模型的零次遷移學(xué)習(xí)(Zero-shot Transfer Learning),在不需要任何數(shù)據(jù)標(biāo)簽和訓(xùn)練的情況下,以英文文本查詢?yōu)檩斎?,從上面的游戲Bug數(shù)據(jù)集中檢索相關(guān)視頻。
整體架構(gòu)如下,主要分為三步。
首先, 對視頻幀和文本查詢進行編碼。
這一步會從每個視頻中提取所有幀,將一段視頻當(dāng)做一種“圖像的合集”,然后使用CLIP模型將輸入的文本和視頻幀轉(zhuǎn)化為第嵌入向量表示。
然后是計算嵌入向量的相似性。
這里使用余弦相似度來衡量成對的嵌入向量的相似度,通過窮舉式搜索計算輸入的與視頻幀的相似性得分。
最后,將每個視頻幀的得分匯總起來。
研究團隊提供了兩種匯總方法:
一種是選取一段視頻所有的幀里與輸入文本的相似性得分最高的幀,根據(jù)這一幀來對視頻進行排名,這種方法是高度敏感的。
另一種則是將視頻所有的幀與輸入文本的相似度分?jǐn)?shù)進行排序,然后根據(jù)池大小的超參數(shù),在所有視頻中選擇一個排名最高的幀。
團隊選擇了基于上述AI系統(tǒng)的兩種架構(gòu):RN101和ViT-B/32,然后分別測試了其在不同情況下的準(zhǔn)確率。
首先是簡單查詢,比如輸入文本只有單個物體:飛機、汽車、貓、狗等等,在這種情況下,模型檢索出來的前五名視頻準(zhǔn)確率分別為76%和86%:
將單個物體與一些場景組合起來,進行復(fù)合查詢時,模型檢索出來的前五名視頻準(zhǔn)確率也能達(dá)到78%和82%:
如此看來,CLIP不僅掀起多模態(tài)學(xué)習(xí)的新一波浪潮,從驅(qū)動圖像生成到為游戲找Bug,應(yīng)用領(lǐng)域上也在不斷拓展。
那些專找Bug的AI測試員們
像這篇論文里的這種,專為(游戲)程序找Bug的AI測試員并不是真的要來搶游戲測試的活兒,而是人力來測試實在是時間成本又高,還容易出錯。
于是,業(yè)界早早就開始了AI測試的研究。
早在2018年的時候,育碧就曾經(jīng)推出過一款叫做Commit Assistant的AI助手。
這款A(yù)I測試員會利用深度學(xué)習(xí)和大數(shù)據(jù)分析已有的Bug并進行標(biāo)注,然后在Bug再次出現(xiàn)時為程序猿們提供最快的修復(fù)方案,甚至還能依據(jù)已有的經(jīng)驗提前觸發(fā)警報。
不過當(dāng)時就有粉絲懷疑,知名土豆服務(wù)器廠商做出來的抓Bug的AI,會不會自己先出了Bug,然后變成兩群Bug之間的混戰(zhàn)……
往近處說,EA在去年還推出了一款能夠在給定的測試場景中進行自動探索的AI,基于強化學(xué)習(xí)的智能體會像真的測試工程師一樣,在探索中發(fā)現(xiàn)并收集Bug:
微軟也曾在2021年推出過一款叫做BugLabs的AI助手,通過GAN檢測并修復(fù)代碼中的錯誤:
這樣看起來,有一個任勞任怨的AI測試員來兢兢業(yè)業(yè)地遍歷玩家社區(qū)搜集Bug、或者一遍又一遍地玩游戲找問題、甚至直接從代碼層面揪出問題……這多是一件美事??!
甚至,這些負(fù)責(zé)測試的AI還能搭配那些會玩游戲的AI【加鏈接】,一個肝游戲,一個從游戲錄像里找Bug……
那或許這種場面,就不會再出現(xiàn)了【狗頭】。
論文:
https://arxiv.org/abs/2203.11096
在線試玩:
http://165.232.141.160:50001/
參考鏈接:
[1]https://asgaardlab.github.io/CLIPxGamePhysics/
[2]https://github.com/asgaardlab/CLIPxGamePhysics
[3]https://arxiv.org/abs/2103.13798
[4]https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247514447&idx=5&sn=ad3c5776f8562fe2ea353f7289add602&chksm=e8d00e3ddfa7872bfc456180d3be0c130b50a64718576712349c533329e07b9895b5ed66a4bf&token=2079333933&lang=zh_CN#rd
- 有道智能學(xué)習(xí)燈發(fā)布,通過“桌面學(xué)習(xí)分析引擎”實現(xiàn)全球最快指尖查詞2022-04-08
- 科學(xué)證明:狗勾真的懂你有多累,聽到聲音0.25秒后就知道你是誰,對人比對狗更親近2022-04-14
- 在M1芯片上跑原生Linux:編譯速度比macOS還快40%2022-04-05
- 小學(xué)生們在B站講算法,網(wǎng)友:我只會阿巴阿巴2022-03-28