《Science》又一突破!美國(guó)軍方AI在1對(duì)多賭博中擊敗了人類世界冠軍-肽度TIMEDOO

《Science》雜志發(fā)表了一項(xiàng)由卡內(nèi)基梅隆大學(xué)的科學(xué)家領(lǐng)導(dǎo)的研究,他們開發(fā)的人工智能程序(Pluribus)在6人不限牌德州撲克中擊敗了人類頂級(jí)專業(yè)選手。美國(guó)陸軍參與資助了這項(xiàng)研究的數(shù)學(xué)建模部分,F(xiàn)acebook則承擔(dān)為撲克玩家提供獎(jiǎng)金。

“這都是戰(zhàn)略問(wèn)題,”美國(guó)陸軍研究辦公室網(wǎng)絡(luò)科學(xué)部處長(zhǎng)Purush Iyer博士說(shuō)?!伴L(zhǎng)期以來(lái),博弈論中的一個(gè)限制因素是其可擴(kuò)展性(即處理指數(shù)增長(zhǎng)狀態(tài)空間的能力)。玩撲克牌是一個(gè)很好的例子,可以解釋數(shù)學(xué)模型如何被設(shè)計(jì)情景策略來(lái)應(yīng)對(duì)缺乏完整信息的對(duì)手——不知道對(duì)手會(huì)做什么,他們有什么能力?!?/p>

他說(shuō),這項(xiàng)研究與許多現(xiàn)實(shí)問(wèn)題和軍事挑戰(zhàn)(如網(wǎng)絡(luò)安全和國(guó)家防御)極為相關(guān)。

撲克牌一直是人工智能的一個(gè)難以攻克的瓶頸。與象棋、圍棋等游戲不同,撲克大戰(zhàn)不是一個(gè)“完整的”信息游戲,玩家不能確定哪些牌在對(duì)家手里,對(duì)家也許會(huì)虛張聲勢(shì),這非常像軍事戰(zhàn)略。

去年畢業(yè)于計(jì)算機(jī)科學(xué)系并隨后加入Facebook AI的Noam Brown博士與計(jì)算機(jī)科學(xué)系教授Tuomas Sandholm博士共同開發(fā)了Pluribus,他說(shuō):“開發(fā)六人游戲的AI游戲策略與一對(duì)一游戲的基礎(chǔ)完全不同?!?/p>

Pluribus首先通過(guò)與它自己的6個(gè)副本來(lái)計(jì)算策略藍(lán)圖,這足以應(yīng)對(duì)第一輪博弈。從此刻起,Pluribus將在更細(xì)粒度的游戲抽象概念中對(duì)可能的出牌進(jìn)行更詳細(xì)的搜索。它只能往前預(yù)測(cè)幾步,而禁止看到比賽結(jié)果。有限的前瞻性搜索對(duì)信息完整的游戲是有幫助的,但對(duì)不完全信息游戲來(lái)說(shuō)則是災(zāi)難。一種新型有限的前瞻性搜索算法是Pluribus在超多人玩家撲克牌游戲中取勝的關(guān)鍵,并且Pluribus只需非常少的處理能力和內(nèi)存就能進(jìn)行訓(xùn)練。

該軟件還試圖做到了不可預(yù)測(cè)。例如,當(dāng)AI拿到了最好的牌,無(wú)疑下注是有意義的,但是如果AI只在拿好牌時(shí)下注,對(duì)手們就會(huì)發(fā)現(xiàn)破綻。因此,Pluribus需要計(jì)算可能拿到的每一手牌的表現(xiàn),從而規(guī)劃一個(gè)在所有可能性之間平衡的策略。

在美國(guó)陸軍的資助下,Sandholm和他的其他學(xué)生們正在開發(fā)利用Pluribus進(jìn)行生物指導(dǎo)的相關(guān)技術(shù),比如一些優(yōu)化治療計(jì)劃,引導(dǎo)患者的免疫系統(tǒng)更好地對(duì)抗癌癥、自身免疫疾病和感染等。

之前的博弈論研究正在被交通安全管理局、美國(guó)海岸警衛(wèi)隊(duì)和洛杉磯地鐵使用,以減少這些組織的安全成本,同時(shí)增加敵對(duì)方成本從而減少本國(guó)被攻擊的機(jī)會(huì)。

此外,博弈論的基礎(chǔ)研究已經(jīng)用于民間,比如減少東南亞虎偷獵、解決無(wú)家可歸問(wèn)題以及在洛杉磯開展艾滋病預(yù)防工作。

“在不遠(yuǎn)的將來(lái),Sandholm他們的工作將以多種方式用于解決社會(huì)問(wèn)題,Sandholm博士的新工作是博弈論一個(gè)令人興奮的進(jìn)步,其能量是巨大的,”Iyer說(shuō)。

原文檢索:Superhuman AI for multiplayer poker

來(lái)源:生物通