商品簡介
作者簡介
名人/編輯推薦
目次
相關商品
商品簡介
涵蓋強化學習基本算法實踐+深度強化學習算法的原理實現及案例。代碼豐富,可直接上手操作;配套豐富的直播課程資源!
作者簡介
郭憲,南開大學人工智能學院講師。2009年畢業於華中科技大學機械設計製造及自動化專業,同年保送到中國科學院瀋陽自動化研究所進行碩博連讀,2016年1月獲得工學博士學位,並到南開大學從事博士後研究工作,2018年7月任教于南開大學至今。目前主要研究方向和興趣是仿生機器人智能運動控制、強化學習和機器人博弈。
宋俊瀟,香港科技大學博士,目前就職於啟元世界,擔任研究科學家,專注于決策智能相關算法的研究與開發。博士期間在國際知名期刊和會議發表論文9篇。2015年,獲得阿裡巴巴天池大數據黃金聯賽個人年度第1名(參賽隊伍總計15154支)。曾就職于網易遊戲,擔任資深數據挖掘研究員,負責個性化推薦算法及基於深度強化學習的遊戲AI技術的探索研究,三次獲得公司層面的技術進步獎。
方勇純,南開大學人工智能學院院長、教授、博士生導師,國家傑出青年基金獲得者(2013年),教育部長江學者特聘教授(2017年)。1992~1994年在浙江大學混合班(尖子班)學習,獲混合班榮譽證書。1996年和1999年分獲浙江大學學士和碩士學位,2002年獲美國克萊姆森大學(Clemson University)電機工程博士學位。2002至2003年在康乃爾大學(Cornell University)從事博士後研究。2003年底至今,任教于南開大學。目前主要研究方向為機器人視覺控制、無人機、欠驅動吊車系統和微納米操作
宋俊瀟,香港科技大學博士,目前就職於啟元世界,擔任研究科學家,專注于決策智能相關算法的研究與開發。博士期間在國際知名期刊和會議發表論文9篇。2015年,獲得阿裡巴巴天池大數據黃金聯賽個人年度第1名(參賽隊伍總計15154支)。曾就職于網易遊戲,擔任資深數據挖掘研究員,負責個性化推薦算法及基於深度強化學習的遊戲AI技術的探索研究,三次獲得公司層面的技術進步獎。
方勇純,南開大學人工智能學院院長、教授、博士生導師,國家傑出青年基金獲得者(2013年),教育部長江學者特聘教授(2017年)。1992~1994年在浙江大學混合班(尖子班)學習,獲混合班榮譽證書。1996年和1999年分獲浙江大學學士和碩士學位,2002年獲美國克萊姆森大學(Clemson University)電機工程博士學位。2002至2003年在康乃爾大學(Cornell University)從事博士後研究。2003年底至今,任教于南開大學。目前主要研究方向為機器人視覺控制、無人機、欠驅動吊車系統和微納米操作
名人/編輯推薦
涵蓋強化學習基本算法實踐+深度強化學習算法的原理實現及案例。代碼豐富,可直接上手操作
本書是《深入淺出強化學習:原理入門》的姐妹篇。
1 實戰性強:以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法並快速應用。
2 系統全面:在馬爾可夫理論框架下,介紹了最基本的算法,涵蓋了基於值函數的算法,直接策略搜索方法,基於模型的強化學習方法等。
3 前沿技術分析:剖析了AlphaZero強大技術背後的深度強化學習原理,並介紹了它在五子棋上的具體實現。
4 操作性強:讀者可根據書中的代碼直接上手,並通過修改程序中的超參數,親自體會算法原理。
本書是《深入淺出強化學習:原理入門》的姐妹篇。
1 實戰性強:以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法並快速應用。
2 系統全面:在馬爾可夫理論框架下,介紹了最基本的算法,涵蓋了基於值函數的算法,直接策略搜索方法,基於模型的強化學習方法等。
3 前沿技術分析:剖析了AlphaZero強大技術背後的深度強化學習原理,並介紹了它在五子棋上的具體實現。
4 操作性強:讀者可根據書中的代碼直接上手,並通過修改程序中的超參數,親自體會算法原理。
目次
第0 篇 先導篇 1
1 一個極其簡單的強化學習實例 2
1.1 多臂賭博機 2
1.1.1 greedy策略 3
1.1.2 玻爾茲曼策略 . 6
1.1.3 UCB 策略 7
1.2 多臂賭博機代碼實現 7
2 馬爾可夫決策過程 13
2.1 從多臂賭博機到馬爾可夫決策過程 13
2.2 馬爾可夫決策過程代碼實現 23
第1 篇 基於值函數的方法 31
3 基於動態規劃的方法 32
3.1 策略迭代與值迭代 .32
3.1.1 策略迭代算法原理 33
3.1.2 值迭代算法原理 35
3.2 策略迭代和值迭代的代碼實現 36
3.2.1 鴛鴦環境的修改 36
3.2.2 策略迭代算法代碼實現 37
3.2.3 值迭代算法代碼實現 .41
4 基於蒙特卡洛的方法 45
4.1 蒙特卡洛算法原理 46
4.2 蒙特卡洛算法的代碼實現 49
4.2.1 環境類的修改和蒙特卡洛算法類的聲明 49
4.2.2 探索初始化蒙特卡洛算法實現 52
4.2.3 同策略蒙特卡洛算法實現 . 56
5 基於時間差分的方法 62
5.1 從動態規劃到時間差分強化學習 62
5.2 時間差分算法代碼實現 66
5.2.1 時間差分算法類的聲明 66
5.2.2 SARSA 算法 . 67
5.2.3 Q-Learning 算法 70
6 基於函數逼近的方法 74
6.1 從表格型強化學習到線性函數逼近強化學習 74
6.1.1 表格特徵表示 74
6.1.2 固定稀疏表示 75
6.1.3 參數的訓練 76
6.2 基於線性函數逼近的Q-Learning 算法實現 76
6.3 非線性函數逼近DQN 算法代碼實現 85
第2 篇 直接策略搜索的方法 95
7 策略梯度方法 96
7.1 算法基本原理及代碼架構 96
7.1.1 策略的表示問題 97
7.1.2 隨機策略梯度的推導 98
7.1.3 折扣累積回報 99
7.1.4 代碼架構 101
7.2 離散動作:CartPole 實例解析及編程實戰 103
7.2.1 CartPole 簡介 103
7.2.2 問題分析及MDP 模型 .104
7.2.3 採樣類的Python 源碼實現 105
7.2.4 策略網絡模型分析 106
7.2.5 策略網絡類的Python 源碼實現 108
7.2.6 策略網絡的訓練與測試 110
7.2.7 用策略梯度法求解Cartpole 的主函數 112
7.2.8 CartPole 仿真環境開發 113
7.3 連續動作Pendulum 實例解析及編程實戰 117
7.3.1 Pendulum 簡介 118
7.3.2 採樣類的Python 源代碼實現 118
7.3.3 策略網絡模型分析 .120
7.3.4 策略網絡類的Python 源碼實現 121
7.3.5 策略網絡的訓練與測試 125
7.3.6 用策略梯度法求解Pendulum 的主函數 126
7.3.7 Pendulum 仿真環境開發 127
8 Actor-Critic 方法 131
8.1 Actor-Critic 原理及代碼架構 131
8.1.1 Actor-Critic 基本原理 131
8.1.2 Actor-Critic 算法架構 .133
8.2 TD-AC 算法 133
8.2.1 採樣類的Python 源碼 134
8.2.2 策略網絡的Python 源碼 135
8.2.3 策略訓練和測試 138
8.2.4 主函數及訓練效果 140
8.3 Minibatch-MC-AC 算法 141
8.3.1 Minibatch-MC-AC 算法框架 141
8.3.2 採樣類的Python 源碼 142
8.3.3 策略網絡的Python 源碼 144
8.3.4 策略的訓練和測試 147
8.3.5 主函數及訓練效果 149
9 PPO 方法 151
9.1 PPO 算法基本原理及代碼結構 151
9.2 Python 源碼解析 154
9.2.1 採樣類 154
9.2.2 策略網絡 156
9.2.3 策略的訓練和測試 159
9.2.4 主函數及訓練效果 160
10 DDPG 方法 163
10.1 DDPG 基本163
10.2 Python 源碼解析 167
10.2.1 經驗緩存器類 167
10.2.2 策略網絡 169
10.2.3 訓練和測試 173
10.2.4 主函數及訓練效果 175
第3 篇 基於模型的強化學習方法 177
11 基於模型預測控制的強化學習算法 178
11.1 基於模型的強化學習算法的基本原理 178
11.1.1 神經網絡擬合動力學模型 179
11.1.2 模型預測控制 179
11.1.3 基於模型的強化學習算法偽代碼 180
11.2 Python 源碼實現及解析 181
11.2.1 數據收集類 181
11.2.2 數據採樣類 181
11.2.3 動力學網絡類 182
11.2.4 模型預測控制器類 185
11.2.5 模型訓練和預測函數 186
11.2.6 主函數 188
12 AlphaZero 原理淺析 190
12.1 從AlphaGo 到AlphaZero 191
12.2 蒙特卡洛樹搜索算法 196
12.2.1 博弈樹和極小極大搜索 196
12.2.2 再論多臂老虎機問題 198
12.2.3 UCT 算法 200
12.3 基於自我對弈的強化學習 206
12.3.1 基於MCTS 的自我對弈 206
12.3.2 策略價值網絡的訓練 210
13 AlphaZero 實戰:從零學下五子棋 214
13.1 構建簡易的五子棋環境 215
13.2 建立整體算法流程 223
13.3 實現蒙特卡洛樹搜索 229
13.4 實現策略價值網絡 235
13.5 訓練實驗與效果評估 240
附錄A PyTorch 入門 246
A.1 PyTorch 基礎知識 246
A.1.1 Tensor 246
A.1.2 基礎操作 247
A.1.3 Tensor 和NumPy array 間的轉化 249
A.1.4 Autograd:自動梯度 249
A.2 PyTorch 中的神經網絡 250
A.2.1 如何定義神經網絡 251
A.2.2 如何訓練神經網絡 254
A.2.3 在CIFAR-10 數據集上進行訓練和測試 256
A.2.4 模型的保存和加載 259
參考文獻 261
後記 263
1 一個極其簡單的強化學習實例 2
1.1 多臂賭博機 2
1.1.1 greedy策略 3
1.1.2 玻爾茲曼策略 . 6
1.1.3 UCB 策略 7
1.2 多臂賭博機代碼實現 7
2 馬爾可夫決策過程 13
2.1 從多臂賭博機到馬爾可夫決策過程 13
2.2 馬爾可夫決策過程代碼實現 23
第1 篇 基於值函數的方法 31
3 基於動態規劃的方法 32
3.1 策略迭代與值迭代 .32
3.1.1 策略迭代算法原理 33
3.1.2 值迭代算法原理 35
3.2 策略迭代和值迭代的代碼實現 36
3.2.1 鴛鴦環境的修改 36
3.2.2 策略迭代算法代碼實現 37
3.2.3 值迭代算法代碼實現 .41
4 基於蒙特卡洛的方法 45
4.1 蒙特卡洛算法原理 46
4.2 蒙特卡洛算法的代碼實現 49
4.2.1 環境類的修改和蒙特卡洛算法類的聲明 49
4.2.2 探索初始化蒙特卡洛算法實現 52
4.2.3 同策略蒙特卡洛算法實現 . 56
5 基於時間差分的方法 62
5.1 從動態規劃到時間差分強化學習 62
5.2 時間差分算法代碼實現 66
5.2.1 時間差分算法類的聲明 66
5.2.2 SARSA 算法 . 67
5.2.3 Q-Learning 算法 70
6 基於函數逼近的方法 74
6.1 從表格型強化學習到線性函數逼近強化學習 74
6.1.1 表格特徵表示 74
6.1.2 固定稀疏表示 75
6.1.3 參數的訓練 76
6.2 基於線性函數逼近的Q-Learning 算法實現 76
6.3 非線性函數逼近DQN 算法代碼實現 85
第2 篇 直接策略搜索的方法 95
7 策略梯度方法 96
7.1 算法基本原理及代碼架構 96
7.1.1 策略的表示問題 97
7.1.2 隨機策略梯度的推導 98
7.1.3 折扣累積回報 99
7.1.4 代碼架構 101
7.2 離散動作:CartPole 實例解析及編程實戰 103
7.2.1 CartPole 簡介 103
7.2.2 問題分析及MDP 模型 .104
7.2.3 採樣類的Python 源碼實現 105
7.2.4 策略網絡模型分析 106
7.2.5 策略網絡類的Python 源碼實現 108
7.2.6 策略網絡的訓練與測試 110
7.2.7 用策略梯度法求解Cartpole 的主函數 112
7.2.8 CartPole 仿真環境開發 113
7.3 連續動作Pendulum 實例解析及編程實戰 117
7.3.1 Pendulum 簡介 118
7.3.2 採樣類的Python 源代碼實現 118
7.3.3 策略網絡模型分析 .120
7.3.4 策略網絡類的Python 源碼實現 121
7.3.5 策略網絡的訓練與測試 125
7.3.6 用策略梯度法求解Pendulum 的主函數 126
7.3.7 Pendulum 仿真環境開發 127
8 Actor-Critic 方法 131
8.1 Actor-Critic 原理及代碼架構 131
8.1.1 Actor-Critic 基本原理 131
8.1.2 Actor-Critic 算法架構 .133
8.2 TD-AC 算法 133
8.2.1 採樣類的Python 源碼 134
8.2.2 策略網絡的Python 源碼 135
8.2.3 策略訓練和測試 138
8.2.4 主函數及訓練效果 140
8.3 Minibatch-MC-AC 算法 141
8.3.1 Minibatch-MC-AC 算法框架 141
8.3.2 採樣類的Python 源碼 142
8.3.3 策略網絡的Python 源碼 144
8.3.4 策略的訓練和測試 147
8.3.5 主函數及訓練效果 149
9 PPO 方法 151
9.1 PPO 算法基本原理及代碼結構 151
9.2 Python 源碼解析 154
9.2.1 採樣類 154
9.2.2 策略網絡 156
9.2.3 策略的訓練和測試 159
9.2.4 主函數及訓練效果 160
10 DDPG 方法 163
10.1 DDPG 基本163
10.2 Python 源碼解析 167
10.2.1 經驗緩存器類 167
10.2.2 策略網絡 169
10.2.3 訓練和測試 173
10.2.4 主函數及訓練效果 175
第3 篇 基於模型的強化學習方法 177
11 基於模型預測控制的強化學習算法 178
11.1 基於模型的強化學習算法的基本原理 178
11.1.1 神經網絡擬合動力學模型 179
11.1.2 模型預測控制 179
11.1.3 基於模型的強化學習算法偽代碼 180
11.2 Python 源碼實現及解析 181
11.2.1 數據收集類 181
11.2.2 數據採樣類 181
11.2.3 動力學網絡類 182
11.2.4 模型預測控制器類 185
11.2.5 模型訓練和預測函數 186
11.2.6 主函數 188
12 AlphaZero 原理淺析 190
12.1 從AlphaGo 到AlphaZero 191
12.2 蒙特卡洛樹搜索算法 196
12.2.1 博弈樹和極小極大搜索 196
12.2.2 再論多臂老虎機問題 198
12.2.3 UCT 算法 200
12.3 基於自我對弈的強化學習 206
12.3.1 基於MCTS 的自我對弈 206
12.3.2 策略價值網絡的訓練 210
13 AlphaZero 實戰:從零學下五子棋 214
13.1 構建簡易的五子棋環境 215
13.2 建立整體算法流程 223
13.3 實現蒙特卡洛樹搜索 229
13.4 實現策略價值網絡 235
13.5 訓練實驗與效果評估 240
附錄A PyTorch 入門 246
A.1 PyTorch 基礎知識 246
A.1.1 Tensor 246
A.1.2 基礎操作 247
A.1.3 Tensor 和NumPy array 間的轉化 249
A.1.4 Autograd:自動梯度 249
A.2 PyTorch 中的神經網絡 250
A.2.1 如何定義神經網絡 251
A.2.2 如何訓練神經網絡 254
A.2.3 在CIFAR-10 數據集上進行訓練和測試 256
A.2.4 模型的保存和加載 259
參考文獻 261
後記 263
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。