TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
深度強化學習實踐(原書第2版)(簡體書)
滿額折

深度強化學習實踐(原書第2版)(簡體書)

人民幣定價:149 元
定價
:NT$ 894 元
優惠價
87778
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:23 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

本書理論與實踐相結合,系統闡述強化學習的基礎知識,以及如何動手編寫智能體以執行一系列實際任務。通過閱讀本書,讀者將獲得深層Q網絡、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等主題領域的可行洞見,還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬件機器人,並通過一步步代碼優化在短短30分鐘的訓練後解決Pong環境。此外,本書還專門介紹了強化學習的新發展,包括離散優化(解決魔方問題)、多智能體方法、Microsoft的TextWorld環境、高級探索技術等。

名人/編輯推薦

一本幫助你快速上手強化學習並開始實踐的入門書,從理論與實踐維度對強化學習進行全面解釋和演示

目次

譯者序
前言
作者簡介
審校者簡介
第1章 什麼是強化學習1
1.1 機器學習分類2
1.1.1 監督學習2
1.1.2 非監督學習2
1.1.3 強化學習2
1.2 強化學習的複雜性4
1.3 強化學習的形式4
1.3.1 獎勵5
1.3.2 智能體6
1.3.3 環境6
1.3.4 動作7
1.3.5 觀察7
1.4 強化學習的理論基礎9
1.4.1 馬爾可夫決策過程9
1.4.2 策略17
1.5 總結18
第2章 OpenAI Gym19
2.1 剖析智能體19
2.2 硬件和軟件要求21
2.3 OpenAI Gym API23
2.3.1 動作空間23
2.3.2 觀察空間23
2.3.3 環境25
2.3.4 創建環境26
2.3.5 車擺系統28
2.4 隨機CartPole智能體30
2.5 Gym的額外功能:包裝器和監控器30
2.5.1 包裝器31
2.5.2 監控器33
2.6 總結35
第3章 使用PyTorch進行深度學習36
3.1 張量36
3.1.1 創建張量37
3.1.2 零維張量39
3.1.3 張量操作39
3.1.4 GPU張量40
3.2 梯度41
3.3 NN構建塊44
3.4 自定義層45
3.5 最終黏合劑:損失函數和優化器47
3.5.1 損失函數48
3.5.2 優化器48
3.6 使用TensorBoard進行監控50
3.6.1 TensorBoard 10150
3.6.2 繪圖52
3.7 示例:將GAN應用於Atari圖像53
3.8 PyTorch Ignite57
3.9 總結61
第4章 交叉熵方法62
4.1 RL方法的分類62
4.2 交叉熵方法的實踐63
4.3 交叉熵方法在CartPole中的應用65
4.4 交叉熵方法在FrozenLake中的應用72
4.5 交叉熵方法的理論背景78
4.6 總結79
第5章 表格學習和Bellman方程80
5.1 價值、狀態和最優性80
5.2 最佳Bellman方程82
5.3 動作的價值84
5.4 價值迭代法86
5.5 價值迭代實踐87
5.6 Q-learning在FrozenLake中的應用92
5.7 總結94
第6章 深度Q-network95
6.1 現實的價值迭代95
6.2 表格Q-learning96
6.3 深度Q-learning100
6.3.1 與環境交互102
6.3.2 SGD優化102
6.3.3 步驟之間的相關性103
6.3.4 馬爾可夫性質103
6.3.5 DQN訓練的最終形式103
6.4 DQN應用於Pong遊戲104
6.4.1 包裝器105
6.4.2 DQN模型109
6.4.3 訓練110
6.4.4 運行和性能118
6.4.5 模型實戰120
6.5 可以嘗試的事情122
6.6 總結123
第7章 高級強化學習庫124
7.1 為什麼使用強化學習庫124
7.2 PTAN庫125
7.2.1 動作選擇器126
7.2.2 智能體127
7.2.3 經驗源131
7.2.4 經驗回放緩衝區136
7.2.5 TargetNet類137
7.2.6 Ignite幫助類139
7.3 PTAN版本的CartPole解決方案139
7.4 其他強化學習庫141
7.5 總結141
第8章 DQN擴展142
8.1 基礎DQN143
8.1.1 通用庫143
8.1.2 實現147
8.1.3 結果148
8.2 N步DQN150
8.2.1 實現152
8.2.2 結果152
8.3 Double DQN153
8.3.1 實現154
8.3.2 結果155
8.4 噪聲網絡156
8.4.1 實現157
8.4.2 結果159
8.5 帶優先級的回放緩衝區160
8.5.1 實現161
8.5.2 結果164
8.6 Dueling DQN165
8.6.1 實現166
8.6.2 結果167
8.7 Categorical DQN168
8.7.1 實現171
8.7.2 結果175
8.8 組合所有方法178
8.9 總結180
8.10 參考文獻180
第9章 加速強化學習訓練的方法182
9.1 為什麼速度很重要182
9.2 基線184
9.3 PyTorch中的計算圖186
9.4 多個環境188
9.5 在不同進程中分別交互和訓練190
9.6 調整包裝器194
9.7 基準測試總結198
9.8 硬核CuLE199
9.9 總結199
9.10 參考文獻199
第10章 使用強化學習進行股票交易200
10.1 交易200
10.2 數據201
10.3 問題陳述和關鍵決策202
10.4 交易環境203
10.5 模型210
10.6 訓練代碼211
10.7 結果211
10.7.1 前饋模型212
10.7.2 卷積模型217
10.8 可以嘗試的事情218
10.9 總結219
第11章 策略梯度:一種替代方法220
11.1 價值與策略220
11.1.1 為什麼需要策略221
11.1.2 策略表示221
11.1.3 策略梯度222
11.2 REINFORCE方法222
11.2.1 CartPole示例223
11.2.2 結果227
11.2.3 基於策略的方法與基於價值的方法228
11.3 REINFORCE的問題229
11.3.1 需要完整片段229
11.3.2 高梯度方差229
11.3.3 探索230
11.3.4 樣本相關性230
11.4 用於CartPole的策略梯度方法230
11.4.1 實現231
11.4.2 結果233
11.5 用於Pong的策略梯度方法237
11.5.1 實現238
11.5.2 結果239
11.6 總結240
第12章 actor-critic方法241
12.1 減小方差241
12.2 CartPole的方差243
12.3 actor-crit

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 778
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區