少兒編程 > 文章資訊 > 機器人 > AI 開始玩電子游戲了,期待它和人類一起打電競
AI 開始玩電子游戲了,期待它和人類一起打電競
童程童美 2017-05-03
近幾年來,人工智能一詞可謂是賺足了公眾的眼球,機器人不僅能處理各種繁重的工作,還學(xué)會了如何玩電子游戲,過不了多久,可能就能和人類一起大打電競了。
摘要近幾年來,人工智能一詞可謂是賺足了公眾的眼球,機器人不僅能處理各種繁重的工作,還學(xué)會了如何玩電子游戲,過不了多久,可能就能和人類一起大打電競了。
“拿到鑰匙!”
通過簡單的英語指令,AI(人工智能)學(xué)會了在一個最棘手的Atari視頻游戲中解謎通關(guān)。
加利福尼亞斯坦福大學(xué)的一個團隊開發(fā)了AI玩蒙特蘇馬復(fù)仇游戲的系統(tǒng),在該游戲中玩家們要在Aztec寺廟中刷寶。AI學(xué)習(xí)該游戲是具有挑戰(zhàn)性的,因為游戲里的寶藏分布稀疏,它要求玩家在得分前進行一些動作操作。
大多數(shù)視頻游戲的人工智能運用強化學(xué)習(xí)策略,他們要依賴反饋,例如游戲得分,來告訴他們哪里操作得好。為了幫助AI更快地掌握游戲策略,斯坦福團隊以自然語言指令的形式輔助強化學(xué)習(xí)系統(tǒng),例如建議它“爬上梯子”或“拿到鑰匙”。
團隊成員RussellKaplan說:“想象教一個孩子打網(wǎng)球,把球拍交給他讓他在乒乓球機旁練習(xí)10年。這基本上是我們現(xiàn)在教AI的情形;事實證明有教練教的孩子學(xué)習(xí)得更快。”
用這種方式教AI可能會有更深層次的應(yīng)用,因為使用自然語言意味著,任何人都可以給AI建議,不僅僅是計算機程序員。
數(shù)字化的游戲
該小組首先訓(xùn)練AI把指令與游戲中正在進行的相同動作的截圖關(guān)聯(lián)起來。然后,他們讓AI用一系列游戲角色通過的每個房間的指令練習(xí)玩游戲,對完成命令和游戲通過的行動進行獎勵。
為了驗證AI對“爬梯子”等命令有了大致的理解,研究人員進行了另一項實驗,他們移除了第二個房間的訓(xùn)練數(shù)據(jù)。Kaplan說,系統(tǒng)盡管以前沒有見過房間布局,但仍然能夠按照該房間的指示進行操作,這表明它不僅僅是死記硬背。相反,它可能是從先前的指令進行了發(fā)散。當(dāng)它找到一個更好的攻略時,它也學(xué)會了忽略指令。
在游戲中該系統(tǒng)獲得了3500分,打破了OpenAIGym(測試人工智能在虛擬環(huán)境中的在線平臺)的最高分2500分。DeepMind的人工智能在該游戲中獲得高達(dá)6600分,但它花了近兩倍的時間訓(xùn)練。它將強化學(xué)習(xí)與一種稱為內(nèi)在動機的方法結(jié)合,來獎勵A(yù)I的好奇心和對其環(huán)境的探索。
自然引導(dǎo)
Kaplan說,DeepMind的方法更先進,但他認(rèn)為這兩種方法都值得稱贊并希望嘗試將兩者相結(jié)合。當(dāng)AI在游戲中獲得進步,該小組還計劃減少指令的數(shù)量,看看它從獲得指令到停止依賴于指引的學(xué)習(xí)速度有多快。
卡內(nèi)基梅隆大學(xué)的DevendraChaplot說,使用自然語言指導(dǎo)是一個有趣的方法。他說:“它為人類引導(dǎo)人工智能系統(tǒng)提供了一個自然的方式,所以非常實用?!?
雖然把它翻譯成現(xiàn)實世界可能是一個挑戰(zhàn)。Chaplot說:“該項目采用一套固定的指令,但理解自由的自然語言指令仍是一個非常具有挑戰(zhàn)性的開放式問題。”。
Kaplan說,對他們有利的因素是豐富的數(shù)據(jù)集可以將真實世界圖像與自然語言描述相聯(lián)系,這可以用來幫助訓(xùn)練AI。