評論

滿額折

深度強化學習：原理、算法與PyTorch實戰(微課視頻版)（簡體書）

系列名：大數據與人工智能技術叢書
ISBN13：9787302578208
出版社：清華大學出版社(大陸)
作者：劉全; 黃志剛
出版日：2021/08/01
裝訂／頁數：平裝／243頁
規格：24cm*17cm (高/寬)
版次：一版
關鍵字：深度強化學習：原理、算法與PyTorch實戰(微課視頻版)（簡體書）、深度、度強、強化、化學、學習、原理、算法、 PyTorch、實戰、視頻、簡體、清華大學出版社（大陸）、劉全、黃志剛、簡體書、工業技術、自動化技術、計算技術、自動推理、機器學習、

中國圖書館分類

：

自動推理、機器學習

人民幣定價：59.8 元

定價

：NT$ 359 元

優惠價

：87 折 312 元

領券後再享89折起

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：9 點

相關商品

商品簡介

作者簡介

名人/編輯推薦

序

商品簡介

圍繞著MDP模型，闡述動態規劃、蒙特卡羅、動態規劃等有窮表格式強化學習方法。在深度強化學習框架PyTorch下，闡述DQN,DDDPG,A3C等算法。本書以實例為導向，深度淺出地講解相關算法。全書采用完整的數學體系，各章內容循序漸進，嚴謹地講授強化學習的理論基礎，主要定理均給出證明過程。基於理論講解強化學習算法，覆蓋了所有主流強化學習算法，包括資格跡等經典算法和深度確定性梯度策略等深度強化學習算法。適合本科以上的人工智能相關專業學生及工程人員。

作者簡介

劉全，蘇州大學教授，博士生導師。吉林大學博士, 南京大學軟件新技術國家重點實驗室博士後。蘇州市人工智能學會常務理事、秘書長。2006年開始從事強化學習

領域的教學和科研工作。主講研究生、本科生《強化學習》及相關課程16次。主持“深度強化學習方法研究”、“部分感知強化學習理論及方法”、“基於tableau的邏輯強化學習研究”等國家、省部級項目10余項。目前主要研究方向為：深度強化學習。

2012年獲江蘇省教工委優秀共產黨員稱號。2011年、2012年入選江蘇省“六大人才”、江蘇省“333”人才培養計劃。

名人/編輯推薦

強化學習是目前機器學習領域最熱門的方向之一，本書經多年的實踐教學經驗的積累，形成了一套完整的教學體系。並結合流行的深度學習框架PyTorch，該書在理論和應用上都是較先進的。本書理論結合實踐，深入淺出地講解相關算法和實例。

序

近年來，強化學習和深度學習相結合形成的深度強化學習方法已經是人工智能領域中新的研究熱點。在許多需要智能體（Agent）同時具備感知和決策能力的場景中，深度強化學習方法具備了與人類相媲美的智能。其中深度學習（Deep Learning，DL）和強化學習（Reinforcement Learning，RL）是機器學習領域中最重要的兩個研究方向。深度學習方法側重於對事物的感知與表達，其基本思想是面向高維數據，通過多層的網絡結構和非線性變換，組合低層特徵，形成抽象的、易於區分的高層表示，以發現數據的分布式特徵表示。深度學習已經在圖像識別與理解、智能語音、機器翻譯等領域取得了非凡的成果。強化學習與基於監督訓練的深度學習不同，更加側重於學習解決問題的策略，其基本思想是智能體通過試錯的機制與環境進行不斷地交互，從而最大化智能體從環境中獲得的累計獎賞值。強化學習已經廣泛應用於遊戲博弈、機器人操控、參數優化等領域。傳統的強化學習算法主要針對輸入狀態規模較小的決策問題，這種小規模強化學習算法可通過表格式的存儲方式來評價每個狀態或者狀態動作對的好壞。然而當狀態或動作空間維度很高時（例如圖片或視頻數據），傳統的強化學習方法會因缺乏感知和泛化高維輸入數據的能力而導致算法性能急劇下降。

隨著人類社會的飛速發展，未來的人工智能系統不僅需要具備很強的感知與表達能力，而且需要擁有一定的決策能力。因此，人們將具有感知能力的深度學習和具有決策能力的強化學習相結合，形成直接從輸入原始數據到輸出動作控制的完整智能系統，這就是深度強化學習（Deep Reinforcement Learning，DRL）方法。該方法從本質上解決了傳統強化學習智能體缺乏感知和泛化高維度輸入數據能力的問題，從而適用於一系列大規模的決策任務。例如，谷歌旗下的DeepMind公司將深度學習中的卷積神經網絡（Convolutional Neural Network，CNN）和強化學習中Q學習算法（QLearning）相結合，提出深度Q網絡（Deep QNetwork，DQN）模型。該模型可直接將原始的遊戲視頻畫面作為輸入狀態，遊戲得分作為強化學習中的獎賞信號，並通過深度Q學習算法進行訓練。最終該模型在許多Atari 2600視頻遊戲上的表現已經趕上甚至超過了專業人類玩家的水平。該項研究工作是深度強化學習方法形成的重要標志。此後，DeepMind團隊又開發出一款被稱為AlphaGo的圍棋算法。該算法一方面利用深度學習通過有信號的監督來模擬人類玩家的走子方式，另一方面利用強化學習來進行自我對抗，從而進一步提高智能體取勝的概率。最終AlphaGo以懸殊的比分先後擊敗當時的歐洲圍棋冠軍和世界圍棋冠軍。深度強化學習的基本思想可以描述為：利用深度學習的強大感知能力來提取大規模輸入數據的抽象特徵，並以此特徵為依據進行自我激勵的強化學習，直至求解出問題的最優策略。AlphaGo事件正式將深度強化學習技術推向了一個高峰。隨著國內外對於深度強化學習理論和應用的不斷完善，目前深度強化學習技術已經在遊戲、機器人操控、自動駕駛、自然語言處理、參數優化等領域得到了廣泛的應用。此外，深度強化學習也被認為是實現通用人工智能（General Artificial Intelligence，GAI）的一個重要途徑。

本書深入淺出、內容翔實全面，全書配有PPT和視頻講解，對相關算法和實例配有代碼程序。本書既適合強化學習零基礎的本科生、研究生入門學習，也適合相關科研人員研究參考。

本書作者多年來一直從事強化學習的研究和教學工作，在國家自然科學基金、博士後基金、教育部科學研究重點項目、軟件新技術與產業化協同創新中心、江蘇高校優勢學科建設工程資助項目、江蘇省高校自然科學基金項目、蘇州大學研究生精品課程項目等的資助下，提出了一些深度強化學習理論，解決了一系列核心技術，並將這些理論和方法用於解決實際問題。

本書總體設計、修改和審定由劉全完成，參加撰寫的有黃志剛、翟建偉、吳光軍、徐平安、歐陽震、寇俊強、郝少璞、李曉牧、顧子賢、葉倩等，對以上作者付出的艱辛勞動表示感謝！本書的撰寫參考了國內外有關研究成果，他們的豐碩成果和貢獻是本書學術思想的重要來源，在此對涉及的專家和學者表示誠摯的謝意。本書也得到了蘇州大學計算機學院及智能計算與認知軟件課題組部分老師和同學們的大力支持和協助，在此一並表示感謝。他們是：朱斐、凌興宏、伏玉琛、章宗長、章曉芳、徐云龍、陳冬火、王輝、金海東、王浩、曹家慶、張立華、徐進、梁斌、姜玉斌、閆巖、胡智能、陳紅名、吳金金、李斌、何斌、時聖苗、張琳琳、範靜宇、傲天宇、李洋、張建行、代珊珊、申怡、王逸勉、徐亞鵬、栗軍偉、烏蘭、王卓、楊皓麟、施眉龍、張雄振等。

機器學習是一個快速發展、多學科交叉的研究方向，其理論及應用均存在大量的亟待解決的問題。限於作者的水平，書中難免有不妥和錯誤之處，敬請同行專家和讀者指正。

劉全

2021年1月

主題書展

更多書展

本週66折

李卓吾(精)

波波上課記

甜點裡的法國：把甜蜜當武器的法蘭西歷史與文化

波波的復活節

道教的信仰與思想

基督宗教

早點知道就好了！改變一生的金錢觀：14歲就能學的致富習慣，學校沒教，但你一定要會

鋼鐵德國：難民潮下的危機與轉機

新詩遊樂園

刻意暫停：讓疲倦的你，再次充電的技術

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

熱搜：

深度強化學習：原理、算法與PyTorch實戰(微課視頻版)（簡體書）

商品資訊

系列名：大數據與人工智能技術叢書

ISBN13：9787302578208

出版社：清華大學出版社(大陸)

作者：劉全; 黃志剛

出版日：2021/08/01

裝訂／頁數：平裝／243頁

規格：24cm*17cm (高/寬)

版次：一版

商品簡介

作者簡介

名人/編輯推薦

序

目次

主題書展

簡體書新到貨

魅力．花火特展

悅讀紀特展

簡體新書搶先報

簡體新生代華文原創小說特展

豬豬隊友中英文童書團

玫瑰的故事-亦舒作品書展

書紐電子書使用說明

Carnegie Medal 2024

領券專區

本週66折

李卓吾(精)

波波上課記

甜點裡的法國：把甜蜜當武器的法蘭西歷史與文化

波波的復活節

道教的信仰與思想

基督宗教

早點知道就好了！改變一生的金錢觀：14歲就能學的致富習慣，學校沒教，但你一定要會

鋼鐵德國：難民潮下的危機與轉機

新詩遊樂園

刻意暫停：讓疲倦的你，再次充電的技術

您曾經瀏覽過的商品

購物須知