TOP
0
0
結帳前領券,購書好優惠
深度強化學習核心算法與應用(簡體書)
滿額折

深度強化學習核心算法與應用(簡體書)

商品資訊

人民幣定價:69 元
定價
:NT$ 414 元
優惠價
87360
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點:10 點
商品簡介
作者簡介
名人/編輯推薦
目次
相關商品

商品簡介

強化學習是實現決策智能的主要途徑之一。經歷數十年的發展,強化學習領域已經枝繁葉茂,技術內容紛繁復雜,這也為初學者快速入門造成障礙。

本書是一本深度強化學習領域的入門讀物,梳理了深度強化學習算法的發展脈絡,闡述了各類算法之間的關聯,它們之間既有繼承也有更新和發展,這種寫法可以幫助讀者更好地掌握算法中不變的精髓,並理解在不同的場景下應如何根據情勢作出調整。

全書分為四部分。第一部分主要闡述強化學習領域的基本理論知識;第二部分講解深度強化學習常用算法的原理、各算法之間的繼承與發展,以及各自的算法流程;第三部分總結深度強化學習算法在遊戲、推薦系統等領域的應用;第四部分探討了該領域存在的問題和發展前景。

本書適合想了解強化學習算法的小伙伴作為入門讀物,也適合對強化學習感興趣的讀者閱讀。

作者簡介

陳世勇

騰訊遊戲AI研究中心高級算法研究員。畢業於南京大學機器學習與數據挖掘研究所,主要從事強化學習、分布式機器學習方面的研究工作,並在國際頂級會議和期刊上發表多篇論文。對於大規模強化學習在遊戲AI和推薦系統領域的研究和落地有著豐富經驗,負責了多款遊戲的強化學習AI項目和“淘寶錦囊”強化學習推薦項目研發,參與了虛擬淘寶項目研發。


蘇博覽

新加坡國立大學博士,曾任職於騰訊遊戲AI研究中心,參與了QQ飛車和斗地主遊戲AI的研發,在國際頂級會議和期刊發表論文數十篇,在機器學習和強化學習上有豐富的科研和落地應用經驗。


楊敬文

騰訊遊戲AI研究中心高級算法研究員。畢業於南京大學機器學習與數據挖掘研究所,獲南京大學“優秀畢業生”稱號、南京大學計算機優秀碩士畢業論文獎。曾獲全國大學生大數據競賽第yi名,在國際頂會發表多篇論文和技術文章。長期從事強化學習在遊戲領域的研究與應用,是競速類、格斗類、射擊類、多人在線戰術競技類等強化學習AI項目的主要負責人之一,具有豐厚的強化學習研究和落地的經驗。

名人/編輯推薦

《深度強化學習核心算法與應用》由騰訊遊戲的AI算法專家聯合寫作,作為深度強化學習落地的先行者,他們將自己豐富的實踐經驗融入了本書。

不同於其他算法書,本書摒棄“枝蔓”,直接切入算法主幹,闡述具體場景中算法設計的思路、實現與流程,並側重分析各類算法之間繼承與發揚關係(脈絡)。

這種寫法讓讀者可以直接掌握深度強化學習算法的本質,舉一反三,領悟各類相關算法的精髓,應用於自己的工作中。


近幾年來,深度學習無論是在學術界還是在工業界都掀起了一次又一次的熱潮。深度學習憑借強大的建模能力和學習能力,不僅使機器學習技術有了長足的進步,而且在計算機視覺、自然語言處理、搜索推薦等諸多領域都展現了強大的應用實力。

即使深度學習技術能夠把貓狗花草分得比人類精準得多,人們依然認為它距離真正的人工智能還有很大差距。這是為什麼呢?原因在於深度學習技術僅僅解決了機器感知外界的問題,雖然它能夠告訴我們一張圖片是貓還是狗(這是一個分類模型),但是對於感知到這個外界的知識之後該怎麼用這一問題,目前在絕大部分場景下,都還是由人類完成的。因此,與真正的人工智能相比,深度學習技術還欠缺決策能力,必須對感知的知識做出反應才能稱得上是一個智能體。

眾所周知,強化學習一直研究的就是多步決策的問題,它在機器學習領域是一個比較特殊的類別[68]。在監督學習中,我們通過建立數據與標簽的關係來學習樣本的數據分布;在無監督學習中,我們從數據的結構中發掘樣本的分布規律。而強化學習與監督學習和無監督學習都不同,它既沒有非常準確的監督信號,也不完全是無監督地在數據中發現結構。它通過不斷與環境交互去學習一系列的決策,使得模型最終能夠在環境中獲得最大的收益。這是一種很接近人類智能的算法,但是由於學習效率低,強化學習一直都僅存在於學術研究領域,很難在真實的復雜場景中應用起來。

然而DeepMind 在2015 年於《自然》雜志上發表的Human-LevelControl Through Deep Reinforcement Learning 中,將強化學習與深度學習技術相結合,賦予了深度學習決策能力,兩者結合訓練出來的智能體在若幹電子遊戲上達到甚至超過了人類玩家的水平。這是一個裡程碑式的研究工作,它利用深度學習極大地拓寬了強化學習的應用範圍,打開了深度強化學習這個全新的研究方向。DeepMind 的技術負責人David Silver 提出:人工智能就等於強化學習加深度學習!隨著越來越多的相關研究比如A3C、IMPALA、PPO、DDPG 等研究工作的涌現,深度強化學習展現出越來越強的生命力,在許多真實的應用領域比如圍棋、非常復雜的實時戰略遊戲《星際爭霸》、機器人、動畫生成、智能對話、搜索與推薦等領域都開始發揮著重要的作用,

並且完成了很多之前根本無法完成的任務。

深度強化學習無疑正在掀起深度學習的又一波浪潮,它對機器學習技術乃至人工智能技術有著深遠的影響,並且很可能把人工智能領域帶向新的高度,這是令所有人工智能從業者和愛好者激動的技術革命。筆者認為,無論未來人工智能技術是否會強依賴於深度強化學習,它都很有借鑒價值,值得大家學習、了解。

本書系統地介紹了深度強化學習的基本概念和經典算法,並結合若幹實際的應用場景對深度強化學習進行了深入的探討。本書希望通過相對完整的知識體系和應用案例,幫助讀者比較快地了解深度強化學習的內涵,掌握大概的脈絡,從而能夠順利地進入該領域的研究和應用。


目次

第I 部分基礎理論篇 1
第1 章馬爾可夫決策過程 3
1.1 馬爾可夫性 3
1.2 一些基本定義 4
1.3 值函數 5
1.4 基於策略的值函數 5
1.5 貝爾曼方程 6
1.6 策略迭代與值迭代 7
第2 章無模型的強化學習 9
2.1 蒙特卡洛方法 10
2.1.1 蒙特卡洛方法預測狀態V 值 10
2.1.2 蒙特卡洛方法預測Q 值 11
2.1.3 蒙特卡洛策略優化算法 11
2.1.4 探索和利用 12
2.1.5 異策略蒙特卡洛方法 13
2.2 時間差分方法 16
2.2.1 基本思想 16
2.2.2 Sarsa 算法 17
2.2.3 Q-Learning 算法 20
2.3 值函數估計和策略搜索 23
深度強化學習核心算法與應用
2.3.1 值函數估計 23
2.3.2 策略搜索 24
第3 章有模型的強化學習 27
3.1 什麼是模型 27
3.2 基本思路 28
3.3 有模型方法和無模型方法的區別 29
3.4 典型算法 31
第II 部分常用算法篇 33
第4 章DQN 算法 35
4.1 算法介紹 35
4.1.1 背景 36
4.1.2 核心技術 37
4.1.3 算法流程 39
4.2 相關改進 40
4.2.1 Double Q-Learning 40
4.2.2 優先級回放 41
4.2.3 Dueling Networks 41
4.3 實驗效果與小結 43
第5 章A3C 算法 45
5.1 Actor-Critic 方法 45
5.2 基線減法與優勢函數 47
5.3 博采眾長的A3C 算法 48
5.4 實驗效果與小結 50
第6 章確定性策略梯度方法 53
6.1 隨機性策略梯度與確定性策略梯度 53
iv
目錄
6.2 異策略的確定性策略梯度 54
6.3 深度確定性策略梯度 56
6.4 D4PG 算法 57
6.4.1 分布式 57
6.4.2 值函數分布 58
6.4.3 N-step TD 誤差和優先級的經驗回放 59
6.5 實驗效果與小結 59
第7 章PPO 算法 61
7.1 PPO 算法的核心 61
7.2 TRPO 算法 62
7.3 PPO 算法 65
7.4 實驗效果與小結 67
7.4.1 替代函數的對比 67
7.4.2 在連續空間中與其他算法的對比 68
7.4.3 小結 69
第8 章IMPALA 算法 71
8.1 算法架構 71
8.2 V-trace 算法 73
8.3 V-trace Actor-Critic 算法 75
8.4 實驗效果與小結 76
8.4.1 計算性能 76
8.4.2 單任務訓練性能 76
8.4.3 多任務訓練性能 78
8.4.4 小結 79
v
深度強化學習核心算法與應用
第III 部分應用實踐篇 81
第9 章深度強化學習在棋牌遊戲中的應用 83
9.1 棋盤類遊戲 84
9.1.1 AlphaGo: 戰勝人類圍棋冠軍 84
9.1.2 AlphaGo Zero: 不使用人類數據,從頭學習 87
9.1.3 AlphaZero: 從圍棋到更多 90
9.2 牌類遊戲 93
9.2.1 Suphx 的五個模型 93
9.2.2 Suphx 的訓練過程和算法優化 94
9.2.3 Suphx 的在線實戰表現 94
第10 章深度強化學習在電子遊戲中的應用 97
10.1 研發遊戲中的機器人 97
10.1.1 單機遊戲 97
10.1.2 對戰遊戲 99
10.1.3 小結 104
10.2 制作遊戲動畫 105
10.3 其他應用 106
第11 章深度強化學習在推薦系統中的應用 109
11.1 適用的場景 110
11.1.1 動態變化 110
11.1.2 考慮長期利益 110
11.2 淘寶錦囊推薦中的應用 111
11.2.1 淘寶錦囊推薦介紹 111
11.2.2 問題建模與推薦框架 112
11.2.3 算法設計與實驗 114
vi
目錄
第12 章深度強化學習在其他領域中的應用 119
12.1 在無人駕駛中的應用 119
12.2 在金融交易中的應用 121
12.3 在信息安全中的應用 122
12.4 在自動調參中的應用 123
12.5 在交通控制中的應用 124
第IV 部分總結與展望篇 127
第13 章問題與挑戰 129
13.1 樣本利用率低 129
13.2 獎勵函數難以設計 131
13.3 實驗效果難復現 132
13.4 行為不完全可控 134
第14 章深度強化學習往何處去 135
14.1 未來發展和研究方向 136
14.1.1 有模型的方法潛力巨大 136
14.1.2 模仿學習 137
14.1.3 遷移學習的引入 138
14.1.4 分層強化學習 140
14.2 審慎樂觀,大有可為 141
參考資料 143

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 360
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區