評論

滿額折

強化學習入門：基於Python（簡體書）

系列名：基於Python的數據分析叢書
ISBN13：9787300313818
出版社：中國人民大學出版社
作者：吳喜之; 張敏
出版日：2023/03/01
裝訂／頁數：平裝／186頁
規格：24cm*17cm (高/寬)
版次：一版
關鍵字：強化學習入門：基於Python（簡體書）、強化、化學、學習、入門、基於、 Python、簡體、中國人民大學出版社、吳喜之、張敏、簡體書、工業技術、自動化技術、計算技術、自動推理、機器學習、

中國圖書館分類

：

自動推理、機器學習

人民幣定價：49 元

定價

：NT$ 294 元

優惠價

：87 折 256 元

領券後再享89折起

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：7 點

相關商品

商品簡介

強化學習是機器學習的重要組成部分。本書採用理論與實踐相結合的寫法，從強化學習的基本概念開始，詳細介紹了強化學習的算法理論和實踐操作，配有Python代碼實現，完整呈現強化學習算法的實踐細節。通過這本書你將會：
（1）理解強化學習關鍵方面的問題。
（2）探索馬爾可夫決策過程及動態規劃的過程。
（3）深入理解強化學習的各種方法，包括MC方法，TD方法，深度學習Q方法，SARSA方法等。
（4）通過大量的現實例子及Python實現程序，不斷地實踐，成為強化學習的高手。

部分強化學習基礎與實踐
第1章引言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎勵矩陣
1.1.4 例1.1: 訓練以得到關於狀態和行動的獎勵: Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字遊戲*
1.2.1 兩個真人的簡單井字遊戲
1.2.2 人和機器的井字遊戲的強化學習實踐
1.2.3 井字遊戲的強化學習代碼解釋
1.2.4 整個訓練過程
1.2.5 使用訓練後的模型做人機遊戲
1.2.6 1.2.1節代碼
1.2.7 附錄: 1.2.3節人和機器的井字遊戲代碼
1.3 強化學習的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標的獎勵
1.6 探索與開發的權衡
1.6.1 探索與開發
1.6.2 強化學習中的優化和其他學科的區別
1.7 本書將會討論和運算的一些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區別
第2章馬爾可夫決策過程和動態規劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報期望的價值函數
2.1.4 通過例 1.3 格子路徑問題理解本節概念
2.2 動態規劃
2.2.1 動態規劃簡介
2.2.2 Bellman方程
2.2.3 策略和價值函數
2.3 強化學習基本方法概述
2.3.1 代理與環境的互動
2.3.2 策略迭代: 策略評估和策略改進
2.3.3 價值迭代
2.3.4 策略迭代與價值迭代比較
2.3.5 異步動態規劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態-行動值的估計
2.4.3 on-policy: Q價值的MC估計
2.4.4 off-policy: MC預測
2.4.5 MC的策略梯度
2.5 和本章概念相關的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做價值迭代
2.5.2 例1.3格子路徑問題的TD函數
第3章各種機器學習算法及實例
3.1 暫時差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進
3.2.1 SARSA (on-policy)
3.2.2 Q學習 (off-policy)
3.2.3 加倍Q學習 (off-policy)
3.3 函數逼近及深度學習算法
3.3.1 基於價值和策略的函數逼近
3.3.2 深度Q學習
3.3.3 TD: 演員-批評者(AC)架構
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學
3.4.4 例1.5推車桿問題: 深度Q學習
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PP

主題書展

主題書展

更多書展

本週66折

自然英語會話

唐朝人在忙什麼？：文人墨客的社畜日常X盛世王朝的江山風雨

尼布爾(精)

施萊爾馬赫(平)

靜心之教與養生之道

全國高中生英文單字比賽冠軍的私密筆記：英文字神教你三大記憶法，帶你從學習中脫困，大考逆轉勝

榮格(平)

從印度佛教到泰國佛教－宗教文庫

在同一地平線上(平)

別讓地球再挨撞

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

熱搜：

強化學習入門：基於Python（簡體書）

商品資訊

系列名：基於Python的數據分析叢書

ISBN13：9787300313818

出版社：中國人民大學出版社

作者：吳喜之; 張敏

出版日：2023/03/01

裝訂／頁數：平裝／186頁

規格：24cm*17cm (高/寬)

版次：一版

商品簡介

目次

主題書展

簡體書新到貨

魅力．花火特展

悅讀紀特展

簡體新書搶先報

簡體新生代華文原創小說特展

【新版】三采尋寶記20周年限量珍藏組（全35冊）

阿秤當媽了-精選三民中英文童書團

豬豬隊友中英文童書團

玫瑰的故事-亦舒作品書展

讀書共和國全書系書展

本週66折

自然英語會話

唐朝人在忙什麼？：文人墨客的社畜日常X盛世王朝的江山風雨

尼布爾(精)

施萊爾馬赫(平)

靜心之教與養生之道

全國高中生英文單字比賽冠軍的私密筆記：英文字神教你三大記憶法，帶你從學習中脫困，大考逆轉勝

榮格(平)

從印度佛教到泰國佛教－宗教文庫

在同一地平線上(平)

別讓地球再挨撞

您曾經瀏覽過的商品

購物須知