《Science》又一突破！美國(guó)軍方AI在1對(duì)多賭博中擊敗了人類世界冠軍

6年前發(fā)布在 7X24h 資訊

《Science》又一突破！美國(guó)軍方AI在1對(duì)多賭博中擊敗了人類世界冠軍-肽度TIMEDOO

《Science》雜志發(fā)表了一項(xiàng)由卡內(nèi)基梅隆大學(xué)的科學(xué)家領(lǐng)導(dǎo)的研究，他們開發(fā)的人工智能程序（Pluribus）在6人不限牌德州撲克中擊敗了人類頂級(jí)專業(yè)選手。美國(guó)陸軍參與資助了這項(xiàng)研究的數(shù)學(xué)建模部分，F(xiàn)acebook則承擔(dān)為撲克玩家提供獎(jiǎng)金。

“這都是戰(zhàn)略問(wèn)題，”美國(guó)陸軍研究辦公室網(wǎng)絡(luò)科學(xué)部處長(zhǎng)Purush Iyer博士說(shuō)?！伴L(zhǎng)期以來(lái)，博弈論中的一個(gè)限制因素是其可擴(kuò)展性（即處理指數(shù)增長(zhǎng)狀態(tài)空間的能力）。玩撲克牌是一個(gè)很好的例子，可以解釋數(shù)學(xué)模型如何被設(shè)計(jì)情景策略來(lái)應(yīng)對(duì)缺乏完整信息的對(duì)手——不知道對(duì)手會(huì)做什么，他們有什么能力?！?/p>

他說(shuō)，這項(xiàng)研究與許多現(xiàn)實(shí)問(wèn)題和軍事挑戰(zhàn)（如網(wǎng)絡(luò)安全和國(guó)家防御）極為相關(guān)。

撲克牌一直是人工智能的一個(gè)難以攻克的瓶頸。與象棋、圍棋等游戲不同，撲克大戰(zhàn)不是一個(gè)“完整的”信息游戲，玩家不能確定哪些牌在對(duì)家手里，對(duì)家也許會(huì)虛張聲勢(shì)，這非常像軍事戰(zhàn)略。

去年畢業(yè)于計(jì)算機(jī)科學(xué)系并隨后加入Facebook AI的Noam Brown博士與計(jì)算機(jī)科學(xué)系教授Tuomas Sandholm博士共同開發(fā)了Pluribus，他說(shuō)：“開發(fā)六人游戲的AI游戲策略與一對(duì)一游戲的基礎(chǔ)完全不同?！?/p>

Pluribus首先通過(guò)與它自己的6個(gè)副本來(lái)計(jì)算策略藍(lán)圖，這足以應(yīng)對(duì)第一輪博弈。從此刻起，Pluribus將在更細(xì)粒度的游戲抽象概念中對(duì)可能的出牌進(jìn)行更詳細(xì)的搜索。它只能往前預(yù)測(cè)幾步，而禁止看到比賽結(jié)果。有限的前瞻性搜索對(duì)信息完整的游戲是有幫助的，但對(duì)不完全信息游戲來(lái)說(shuō)則是災(zāi)難。一種新型有限的前瞻性搜索算法是Pluribus在超多人玩家撲克牌游戲中取勝的關(guān)鍵，并且Pluribus只需非常少的處理能力和內(nèi)存就能進(jìn)行訓(xùn)練。

該軟件還試圖做到了不可預(yù)測(cè)。例如，當(dāng)AI拿到了最好的牌，無(wú)疑下注是有意義的，但是如果AI只在拿好牌時(shí)下注，對(duì)手們就會(huì)發(fā)現(xiàn)破綻。因此，Pluribus需要計(jì)算可能拿到的每一手牌的表現(xiàn)，從而規(guī)劃一個(gè)在所有可能性之間平衡的策略。

在美國(guó)陸軍的資助下，Sandholm和他的其他學(xué)生們正在開發(fā)利用Pluribus進(jìn)行生物指導(dǎo)的相關(guān)技術(shù)，比如一些優(yōu)化治療計(jì)劃，引導(dǎo)患者的免疫系統(tǒng)更好地對(duì)抗癌癥、自身免疫疾病和感染等。

之前的博弈論研究正在被交通安全管理局、美國(guó)海岸警衛(wèi)隊(duì)和洛杉磯地鐵使用，以減少這些組織的安全成本，同時(shí)增加敵對(duì)方成本從而減少本國(guó)被攻擊的機(jī)會(huì)。

此外，博弈論的基礎(chǔ)研究已經(jīng)用于民間，比如減少東南亞虎偷獵、解決無(wú)家可歸問(wèn)題以及在洛杉磯開展艾滋病預(yù)防工作。

“在不遠(yuǎn)的將來(lái)，Sandholm他們的工作將以多種方式用于解決社會(huì)問(wèn)題，Sandholm博士的新工作是博弈論一個(gè)令人興奮的進(jìn)步，其能量是巨大的，”Iyer說(shuō)。

原文檢索：Superhuman AI for multiplayer poker

來(lái)源：生物通