日韩专区第一页-日韩中文字幕在线亚洲一区-日韩中文字幕在线观看视频-日韩中文字幕在线播放-日韩中文字幕一区二区不卡-日韩中文字幕一区

OpenI 啟智社區(qū)

啟智社區(qū),確實(shí)給力

當(dāng)前位置:首頁(yè) > 資訊 > 行業(yè)資訊 >

Facebook成功打破紙牌游戲Hanabi的AI系統(tǒng)得分紀(jì)錄

Facebook成功打破紙牌游戲Hanabi的AI系統(tǒng)得分紀(jì)錄

據(jù)外媒Venture Beat報(bào)道,F(xiàn)acebook人工智能研究院(Facebook AI Research,F(xiàn)AIR)稱(chēng),他們推出了一個(gè)與紙牌游戲Hanabi相關(guān)的最新AI項(xiàng)目。AI系統(tǒng)的得分是24.61分(滿(mǎn)分為25分),而之前最好的系統(tǒng)得分是23.92分。

今年2月,來(lái)自Google、DeepMind、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員提出了Hanabi基準(zhǔn),并提出了更多的人工智能可以玩這個(gè)游戲,以實(shí)現(xiàn)“人工智能研究的新挑戰(zhàn)”。參與該項(xiàng)目的研究人員認(rèn)為,弄清楚怎樣玩好Hanabi,這對(duì)于人工智能來(lái)說(shuō)可能是一個(gè)重大進(jìn)步,并且有助于其在聊天和自動(dòng)駕駛等應(yīng)用場(chǎng)景中與人類(lèi)進(jìn)行更加流暢的互動(dòng)。

與國(guó)際象棋或圍棋這些AI挑戰(zhàn)人類(lèi)的其他游戲不同,Hanabi是一種合作游戲,參與者可以共同努力,朝著一個(gè)共同的目標(biāo)努力。這款游戲最大的特點(diǎn)在于,牌是向著別人握的,玩家看不見(jiàn)自己的牌,但所有其他人都看得見(jiàn)。大家的目標(biāo)是下牌到桌面上讓五種顏色的牌都順著從1到5排列出來(lái)。

曾經(jīng)發(fā)表過(guò)相關(guān)論文的牛津大學(xué)研究員Jakob Foerster說(shuō),“Hanabi是一個(gè)關(guān)于溝通和合作的游戲,人工智能目前還沒(méi)有深入這一游戲領(lǐng)域。”

“其中一件非常令人興奮的事情是,我們所觀察到的改進(jìn),與通過(guò)深度強(qiáng)化學(xué)習(xí)所觀察到的改進(jìn),是完全正交的:你可以在任何策略之上加上這個(gè),效果會(huì)更加強(qiáng)大。”Facebook AI研究員Noam Brown在電話(huà)采訪中這樣告訴VentureBeat。“我們看到的結(jié)果遠(yuǎn)遠(yuǎn)超出了我們或其他研究人員的預(yù)期。實(shí)際上,我們從搜索中獲得的好處,要強(qiáng)于過(guò)去使用的所有深度強(qiáng)化學(xué)習(xí)算法所獲得的好處。”

據(jù)了解, 這次Facebook的Hanabi AI項(xiàng)目借鑒了Pluribus的一些搜索技術(shù),Pluribus是Facebook于今年早些時(shí)候推出的一款玩撲克的AI,擊敗了一些人類(lèi)冠軍。

報(bào)道稱(chēng),F(xiàn)acebook的AI團(tuán)隊(duì)通過(guò)將搜索技術(shù)與深度強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)實(shí)現(xiàn)了這一壯舉。搜索算法把一個(gè)代理之外的所有代理執(zhí)行商定的策略將問(wèn)題轉(zhuǎn)換為單個(gè)代理設(shè)置,這是一種被稱(chēng)為“藍(lán)圖”(blueprint)的強(qiáng)化學(xué)習(xí)算法。根據(jù)一篇題為“通過(guò)在合作部分可觀察的游戲中搜索來(lái)改進(jìn)策略” 的論文,這一算法允許搜索代理“將其他代理的已知策略作為環(huán)境的一部分進(jìn)行處理,并基于其他行為來(lái)維護(hù)對(duì)隱藏信息的信念。”

來(lái)源 | 雷鋒網(wǎng)
作者 | 周蕾