TOP
0
0
古典詩詞的女兒-葉嘉瑩
強化學習:人工智能如何知錯能改(簡體書)
滿額折

強化學習:人工智能如何知錯能改(簡體書)

商品資訊

人民幣定價:69.8 元
定價
:NT$ 419 元
優惠價
87365
庫存:3
下單可得紅利積點:10 點
商品簡介
作者簡介
名人/編輯推薦
目次
相關商品

商品簡介

“人工智能超入門叢書”致力于面向人工智能各技術方向零基礎的讀者,內容涉及數據素養、機器學習、視覺感知、情感分析、搜索算法、強化學習、知識圖譜、專家系統等方向。本叢書體系完整、內容簡潔、語言通俗,綜合介紹了人工智能相關知識,并輔以程序代碼解決問題,使得零基礎的讀者能夠快速入門。《強化學習:人工智能如何知錯能改》是“人工智能超入門叢書”中的分冊,以科普的形式講解了強化學習的核心知識,內容生動有趣,帶領讀者走進強化學習的世界。本書包含強化學習方向的基礎知識,如動態規劃、時序差分等,讓讀者在開始學習時對強化學習有初步的認識;之后,通過對馬爾可夫決策過程及貝爾曼方程的解讀,逐漸過渡到強化學習的關鍵內容;同時,本書也重點解析了策略迭代與價值迭代兩種核心算法,也對蒙特卡洛方法、時序差分算法、深度強化學習及基于策略的強化學習算法進行了深度剖析。本書內容結構完整、邏輯清晰、層層遞進,并配有相關實例與代碼,讓讀者在閱讀學習過程中能夠加深理解。本書適合強化學習及人工智能方向的初學者閱讀學習,也可供高等院校人工智能及計算機類專業的師生參考。

作者簡介

龔超,工學博士,清華大學日本研究中心主任助理,中日創新中心主任研究員,深圳清華大學研究院下一代互聯網研發中心核心成員,海口經濟學院雅和人居工程學院客座教授。中國高科技產業化研究會理事、中國自動化學會普及工作委員會委員、中國人工智能學會中小學工作委員會委員、中國青少年宮協會特聘專家、未來基因(北京)人工智能研究院首席專家、教育信息化教學應用實踐共同體項目特聘專家,多家500強企業數字化轉型領域高級顧問。研究方向為人工智能優化算法、人工智能在數字化轉型中的應用等。著有15本人工智能相關圖書,在國內外期刊上發表文章共計70余篇。 王冀,工學博士,西北工業大學計算機學院助理教授,研究方向為關鍵數據提取及圖像編碼,在本領域優秀期刊、會議發表論文20余篇,參與起草行業及團體標準2項,出版專著4部。曾獲PCSJ學會WBVC競賽特別獎、圖像信息媒體學會優秀發表獎。 梁霄,中國人民大學附屬中學教師,任信息學競賽教練,本科畢業于清華大學電子工程系,博士畢業于清華大學計算機系。截至2024年6月,指導學生許庭強以世界第一的成績獲得2023國際信息學奧林匹克競賽金牌,指導學生黃洛天以總分第一名獲得2023年APIO國際金牌,指導6人次獲得NOI金牌(全部為國家集訓隊)。此外還開設了多門人工智能相關課程,致力于探索計算機科學的中小學教育。 貴寧,本科畢業于清華大學自動化系,目前在清華大學深圳研究生院智能機器人實驗室攻讀碩士學位。研究方向集中于魯棒強化學習及其在機器人領域的應用。在碩士學習期間,專注于強化學習與大模型在機器人技術上的實際應用,積累了豐富的經驗。

名人/編輯推薦

1.本書以通俗易懂的語言風格講解了強化學習的關鍵核心知識;2.本書涵蓋強化學習多種關鍵算法,如動態規劃、馬爾科夫、貝爾曼方程、蒙特卡洛、深度強化學習等;3.本書搭配實例和實現代碼,讀者可以直接上手實操。

新一代人工智能的崛起深刻影響著國際競爭格局,人工智能已經成為推動國家與人類社會發展的重大引擎。2017年,國務院發布《新一代人工智能發展規劃》,其中明確指出:支持開展形式多樣的人工智能科普活動,鼓勵廣大科技工作者投身人工智能知識的普及與推廣,全面提高全社會對人工智能的整體認知和應用水平。實施全民智能教育項目,在中小學階段設置人工智能相關課程,逐步推廣編程教育,鼓勵社會力量參與寓教于樂的編程教學軟件、游戲的開發和推廣。
為了貫徹落實《新一代人工智能發展規劃》,國家有關部委相繼頒布出臺了一系列政策。截至2022年2月,全國共有440所高校設置了人工智能本科專業,387所高等職業教育(專科)學校設置了人工智能技術服務專業,一些高校甚至已經在積極探索人工智能跨學科的建設。在高中階段,“人工智能初步”已經成為信息技術課程的選擇性必修內容之一。在2022年實現“從0到 1”突破的義務教育階段信息科技課程標準中,明確要求在7~9年級需要學習“人工智能與智慧社會”相關內容,實際上,1~6年級階段信息技術課程的不少內容也與人工智能關系密切,是學習人工智能的基礎。
人工智能是一門具有高度交叉屬性的學科,筆者認為其交叉性至少體現在三個方面:行業交叉、學科交叉、學派交叉。在大數據、算法、算力三駕馬車的推動下,新一代人工智能已經逐步開始賦能各個行業。人工智能也在助力各學科的研究,近幾年,《自然》等頂級刊物不斷刊發人工智能賦能學科的文章,如人工智能推動數學、化學、生物、考古、設計、音樂以及美術等的發展。人工智能內部的學派也在不斷交叉融合,像知名的AlphaGo,就是集三大主流學派優勢,并且現在這種不同學派間取長補短的研究開展得如火如荼。總之,未來的學習、工作與生活中,人工智能賦能的身影將無處不在,因此掌握一定的人工智能知識與技能將大有裨益。
從筆者長期從事人工智能教學、研究經驗來看,有些人對人工智能還存在一定的誤區。比如將編程與人工智能直接畫上了等號,又或是認為人工智能就只有深度學習等。實際上,人工智能的知識體系十分龐大,內容涵蓋相當廣泛,不但有邏輯推理、知識工程、搜索算法等相關內容,還涉及機器學習、深度學習以及強化學習等算法模型。當然,了解人工智能的起源與發展、人工智能的道德倫理對正確認識人工智能和樹立正確的價值觀也是十分必要的。
通過對人工智能及其相關知識的系統學習,可以培養數學思維(mathematical thinking)、邏輯思維(reasoning thinking)、計算思維(computational thinking)、藝術思維(artistic thinking)、創新思維(innovative thinking)與數據思維(data thinking),即 MRCAID。然而遺憾的是,目前市場上既能較綜合介紹人工智能相關知識,又能輔以程序代碼解決問題,同時還能迅速入門的圖書并不多見。因此筆者編寫了本系列圖書,以期實現體系內容較全、配合程序操練及上手簡單方便等特點。
本書將帶您走進強化學習的奇妙世界。強化學習,作為人工智能領域的一個重要分支,近年來在理論研究和實際應用中都取得了顯著進展。本書旨在為讀者提供一個全面而深入的強化學習概覽,從歷史背景到未來趨勢,從基本概念到復雜算法。
第1章介紹強化學習的基本概念和關鍵要素,并比較它與監督學習、無監督學習的區別。本章還探討了三個強化學習的主要方法:試錯、動態規劃和時序差分,以及它們與深度學習和跨界應用中的融合,旨在讓讀者能夠快速了解強化學習的相關內容。第2章探討了馬爾可夫決策過程和貝爾曼方程,這兩個概念是理解和實施強化學習算法的基石。通過探索網格迷宮等例子,來直觀理解這些數學工具的實際應用。本章介紹的動態規劃是解決強化學習問題的一種經典方法。第3章詳細介紹了策略迭代和價值迭代這兩種核心算法,并通過實例和代碼演示來加深理解。第4章開始轉向無模型的強化學習方法。蒙特卡洛方法在強化學習中的應用廣泛,本章不僅解釋了其在強化學習中的基本原理,還通過21點這樣的游戲環境,展示了蒙特卡洛方法在強化學習中的應用,如何從經驗中直接學習策略而無須環境模型。第5章仍然探討無模型的強化學習方法,引入時序差分的概念。時序差分是強化學習中的核心算法之一,它結合了蒙特卡洛方法的樣本效率和動態規劃的引導特性。本章給出了Sarsa算法和Q-Learning算法的原理,并通過懸崖漫步的實際案例來闡釋這些概念。第6章重點介紹了強化學習與深度學習的結合,這是強化學習一個熱門的研究領域,本章介紹了DQN及其變種,此外還討論了神經網絡如何提升強化學習算法的性能。第7章討論了基于策略的強化學習算法,如策略梯度算法、REINFORCE算法以及Actor-Critic算法。這些算法在處理高維動作空間時顯示出了其獨特的優勢。本書的附錄部分包含了Gym庫的使用、博弈理論以及如何衡量收益的相關內容。
本書的出版要感謝曾提供熱情指導與幫助的院士、教授、中小學教師等專家學者,也要感謝與筆者一起并肩參與寫作的其他作者,同時還要感謝化學工業出版社編輯老師們的熱情支持與一絲不茍的工作態度。
在本書的出版過程中,未來基因(北京)人工智能研究院、騰訊教育、阿里云、科大訊飛等機構給予了大力支持,在此一并表示感謝。
另外,還需要感謝北京航空航天大學的吳越博士以及清華大學本科生陳碩同學,他們也為本書做出了重要貢獻。
最后,還要特別鳴謝西北工業大學計算機學院的張世周老師,張老師對本書提供的諸多寶貴建議和支持使得本書得以順利完成,并在內容質量上得到了顯著提升。
希望這本書能夠幫助讀者更好地快速理解和應用強化學習。由于筆者水平有限,書中內容不可避免會存在疏漏,歡迎廣大讀者批評指正并提出寶貴的意見。

龔超
2023年12月于清華大學

目次

第1章 強化學習概述 001
1.1 什么是強化學習 002
1.1.1 初識強化學習 002
1.1.2 強化學習的關鍵要素 005
1.1.3 監督、無監督與強化學習 007
1.2 三條主線 009
1.2.1 試錯 009
1.2.2 動態規劃 011
1.2.3 時序差分 012
1.3 強化學習的方法與應用 014
1.3.1 強強聯合之深度強化學習 014
1.3.2 強化學習的跨界賦能 017
1.3.3 強化學習的分類 021

第2章 馬爾可夫與貝爾曼方程 024
2.1 “隨機”那些事兒 025
2.1.1 概率的基本概念 025
2.1.2 網格迷宮的探索 031
2.1.3 探索的策略與獎勵 034
2.1.4 探索的足跡 037
2.2 馬爾可夫大家族 040
2.2.1 馬爾可夫過程 040
2.2.2 馬爾可夫獎勵過程 043
2.2.3 馬爾可夫決策過程 044
2.3 貝爾曼方程 046
2.3.1 價值函數與動作價值函數 046
2.3.2 貝爾曼方程 050
2.3.3 貝爾曼最優方程 052

第3章 動態規劃 056
3.1 動態規劃基礎與環境 057
3.1.1 動態規劃基礎 057
3.1.2 環境:冰湖 059
3.2 策略迭代算法 063
3.2.1 原理 063
3.2.2 代碼 067
3.3 價值迭代算法 072
3.3.1 原理 072
3.3.2 代碼 074

第4章 蒙特卡洛 078
4.1 隨機變量的數字特征 080
4.1.1 期望 080
4.1.2 方差 082
4.2 蒙特卡洛方法與應用 083
4.2.1 圓面積的估計 084
4.2.2 均值估計 087
4.3 蒙特卡洛與強化學習 091
4.3.1 原理 091
4.3.2 環境:21點 101
4.3.3 代碼 102

第5章 時序差分 107
5.1 時序差分 108
5.1.1 時序差分基礎 108
5.1.2 環境:懸崖漫步 116
5.2 Sarsa算法 118
5.2.1 原理 118
5.2.2 代碼 120
5.3 Q-Learning算法 124
5.3.1 原理 124
5.3.2 代碼 127

第6章 深度強化學習 134
6.1 DQN入門 135
6.1.1 DQN的基本概念 135
6.1.2 環境:車桿 139
6.2 BP神經網絡 強化學習 141
6.2.1 原理 141
6.2.2 代碼 145
6.3 卷積神經網絡 強化學習 157
6.3.1 原理 157
6.3.2 代碼 162
6.4 DQN的改進 167

第7章 策略學習 170
7.1 策略梯度算法 171
7.1.1 策略梯度原理 171
7.1.2 REINFORCE算法 173
7.1.3 代碼 176
7.2 Actor-Critic算法 184
7.2.1 原理 184
7.2.2 環境:LunarLander 189
7.2.3 代碼 190
7.3 其他基于策略的算法 197

附錄 203
附錄A 環境設置與行為探索 204
A.1 Gym庫與環境設置 204
A.2 具有人類偏好的多智能體強化學習 206
附錄B 博弈與策略 209
B.1 什么是博弈 209
B.2 混合策略博弈 212
B.3 序貫博弈 215
B.4 無限博弈與有限博弈 216
附錄C 收益衡量 222
C.1 理性收益:期望價值 223
C.2 效用收益:期望效用 226
C.3 情感收益:前景理論 228

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 365
庫存:3

暢銷榜

客服中心

收藏

會員專區