2022年12月1-2日·北京·人工智能——Python強化學習算法與應用案例實踐培訓班
強化學習是近年來在人工智能技術中較高的一種研究方法,是一種接近人類及動物在大自然中所表現(xiàn)出的學習方式,通過人們不斷實踐和總結,形成了強化學習這一人工智能研究方法。
隨著深度學習技術的流行,深度學習中的一些主流技術,如深度卷積神經(jīng)網(wǎng)絡、序列建模、記憶管理等與強化學習在許多應用場景上出現(xiàn)了結合點,例如使用DQN實現(xiàn)AI自動玩FlappyBird。強化學習技術目前仍面臨訓練環(huán)境與計算能力的瓶頸,相信隨著科技的進一步發(fā)展,在未來十年它一定會成為人工智能領域的核心技術之一。本課程通過理論與案例實踐相結合的方法,讓學習者可以從最專業(yè)的角度來接觸強化學習,學會使用這種先進的人工智能技術來應用于實際工作和學習中。
主辦單位:北京市計算中心有限公司
協(xié)辦單位:
北京市基因測序與功能分析工程技術研究中心
云計算關鍵技術與應用北京市重點實驗室
工業(yè)和信息化人才培養(yǎng)工程培訓基地
北京市大數(shù)據(jù)教學實踐基地
舉 辦 地:北京市海淀區(qū)豐賢中路7號北科產(chǎn)業(yè)3號樓
課程安排:2022.12.1-2(周四-周五)??上午9:30-11:30??下午13:30-17:00
日期 | 主題 | 內容 | 案例實踐 |
第一天
上午 |
Python入門 | 1、Python基礎 | (1)Python下載
(2)Gym虛擬環(huán)境配置 (3)使用Gym搭建網(wǎng)格環(huán)境 ? ? |
強化學習入門 | 2、強化學習基本概念
3、強化學習與其他機器學習的關系 4、Gym實驗環(huán)境基礎知識 |
||
第一天
下午 |
強化學習算法入門 | 5、馬爾可夫決策過程
6、動態(tài)規(guī)劃 7、蒙特卡洛方法 8、時序差分 |
(4)使用策略迭代方法求解迷宮尋寶問題
(5)使用值迭代方法求解迷宮尋寶問題 (6)蒙特卡洛模擬Monty Hall(娛樂節(jié)目抽獎游戲) (7)SARSA時序差分算法訓練 CartPole (8)Q-Learning算法求解復雜陷阱迷宮尋寶問題 ? ? |
第二天
上午 |
強化學習算法進階 | 9、值函數(shù)逼近(DQN算法)
10、隨機策略梯度(REINFORCE算法) 11、確定性策略梯度(DDPG算法) 12、AC算法及變種 |
(9)DQN實現(xiàn)“CartPole”平衡控制
(10)使用DQN實現(xiàn)AI自動玩FlappyBird (11)REINFORCE訓練小車爬坡 (12)DDPG算法訓練機械臂抓取方塊 (13)AC算法實現(xiàn)“CartPole”平衡控制 (14)Mario-Ai:使用A3C算法實現(xiàn)Mario ? ? ? |
第二天
下午 |
強化學習綜合實踐 | 13、博弈強化學習
14、蒙特卡洛樹搜索 15、AlphaGo基本原理 16、AlphaGo?Zero原理 |
(15)PyGame實現(xiàn)“五子棋”游戲環(huán)境
(16)蒙特卡洛樹搜索(MCTS)代碼實現(xiàn) (17)AlphaGo Zero算法實現(xiàn)人機對弈 ? ? |
注:內容以實際發(fā)生為準;若調,會提前通知。
【報名費用】
注冊費:2800元/人(含當期聽課費、資料費、證書費、考試費(如有))。
提供當期視頻回放以供復習使用(羽林學院平臺)。
開具增值稅發(fā)票,提供蓋章通知、結業(yè)證書等相關材料。
【報名優(yōu)惠政策】
1、3人以上團體報名每人可減少300元;
2、4+1團報,可免費贈送一個名額;
3、上面優(yōu)惠政策不能同時享受,只能享受其中一種;
老學員參加及推薦學員參加均可額外優(yōu)惠200元。
【付費方式】
手機銀行或電子銀行轉賬、銀行匯款等
單位全稱:北京市計算中心有限公司
賬號:0200151819100023937
開戶銀行:中國工商銀行股份有限公司北京自貿試驗區(qū)永豐基地支行
(匯款信息備注:“智能計算——您的姓名”,個人匯款請備注單位名稱)
注:款項支出后,請?zhí)峁└犊罨貓?zhí)給工作人員,方便核實到賬、開具發(fā)票。
【咨詢請聯(lián)系】
QQ號:659230635
微信號:vicolee2021
【注】開課前一周會發(fā)送郵件通知;若未接到郵件通知,請電話咨詢。


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉載。