2022年12月1-2日·北京·人工智能——Python強化學習算法與應用案例實踐培訓班

3年前發(fā)布在 培訓班

強化學習是近年來在人工智能技術(shù)中較高的一種研究方法，是一種接近人類及動物在大自然中所表現(xiàn)出的學習方式，通過人們不斷實踐和總結(jié)，形成了強化學習這一人工智能研究方法。

隨著深度學習技術(shù)的流行，深度學習中的一些主流技術(shù)，如深度卷積神經(jīng)網(wǎng)絡、序列建模、記憶管理等與強化學習在許多應用場景上出現(xiàn)了結(jié)合點，例如使用DQN實現(xiàn)AI自動玩FlappyBird。強化學習技術(shù)目前仍面臨訓練環(huán)境與計算能力的瓶頸，相信隨著科技的進一步發(fā)展，在未來十年它一定會成為人工智能領域的核心技術(shù)之一。本課程通過理論與案例實踐相結(jié)合的方法，讓學習者可以從最專業(yè)的角度來接觸強化學習，學會使用這種先進的人工智能技術(shù)來應用于實際工作和學習中。

主辦單位：北京市計算中心有限公司

協(xié)辦單位：

北京市基因測序與功能分析工程技術(shù)研究中心

云計算關(guān)鍵技術(shù)與應用北京市重點實驗室

工業(yè)和信息化人才培養(yǎng)工程培訓基地

北京市大數(shù)據(jù)教學實踐基地

舉辦地：北京市海淀區(qū)豐賢中路7號北科產(chǎn)業(yè)3號樓

課程安排：2022.12.1-2（周四-周五）??上午9:30-11:30??下午13:30-17:00

日期	主題	內(nèi)容	案例實踐
第一天上午	Python入門	1、Python基礎	(1)Python下載 (2)Gym虛擬環(huán)境配置 (3)使用Gym搭建網(wǎng)格環(huán)境 ? ?
第一天上午	強化學習入門	2、強化學習基本概念 3、強化學習與其他機器學習的關(guān)系 4、Gym實驗環(huán)境基礎知識
第一天下午	強化學習算法入門	5、馬爾可夫決策過程 6、動態(tài)規(guī)劃 7、蒙特卡洛方法 8、時序差分	(4)使用策略迭代方法求解迷宮尋寶問題 (5)使用值迭代方法求解迷宮尋寶問題 (6)蒙特卡洛模擬Monty Hall(娛樂節(jié)目抽獎游戲) (7)SARSA時序差分算法訓練 CartPole (8)Q-Learning算法求解復雜陷阱迷宮尋寶問題 ? ?
第二天上午	強化學習算法進階	9、值函數(shù)逼近(DQN算法) 10、隨機策略梯度(REINFORCE算法） 11、確定性策略梯度(DDPG算法） 12、AC算法及變種	(9)DQN實現(xiàn)“CartPole”平衡控制 (10)使用DQN實現(xiàn)AI自動玩FlappyBird (11)REINFORCE訓練小車爬坡 (12)DDPG算法訓練機械臂抓取方塊 (13)AC算法實現(xiàn)“CartPole”平衡控制 (14)Mario-Ai:使用A3C算法實現(xiàn)Mario ? ? ?
第二天下午	強化學習綜合實踐	13、博弈強化學習 14、蒙特卡洛樹搜索 15、AlphaGo基本原理 16、AlphaGo?Zero原理	(15)PyGame實現(xiàn)“五子棋”游戲環(huán)境 (16)蒙特卡洛樹搜索(MCTS)代碼實現(xiàn) (17)AlphaGo Zero算法實現(xiàn)人機對弈 ? ?