TOP
0
0
購書領優惠,滿額享折扣!
人民幣定價:139 元
定價
:NT$ 834 元
優惠價
87726
庫存:3
下單可得紅利積點:21 點
商品簡介
目次
相關商品

商品簡介

本書旨在為有興趣更好地理解數學和統計的學生提供一個可訪問的、全面的教科書,這些數學和統計知識是數據科學和機器學習算法的基礎。

譯者序

“學者貴知其當然與所以然,若偶能然,不得謂為學。” 這是中國民主革命先驅孫中山警誡自己並勉勵後人的學問之道。
我們正處於數據科學和機器學習蓬勃發展的時代,快速增長的海量數據給我們提供了源源不斷的數字資源,日新月異的機器學習技術讓我們能從中提取有用的價值,似乎人人都能分享時代發展的成果,又似乎很少有人能說清楚這背後的技術奧秘。在教學實踐中,我們看到很多高校爭先恐後地開設數據科學與人工智能專業,也發現很多學生自願放棄傳統優勢專業,轉攻數據科學、機器學習和人工智能等新興學科。
了解機器學習的讀者,一定聽說過被無數人奉為經典,又很難啃的“西瓜書”——《機器學習》。“西瓜書”的作者周志華曾經指出,研究的目的是發現新知識、發明新技術,而研發則是利用已有的知識和技術進行研制、開發。由於Python、ScikitLearn等相關軟件的易用性,簡單調用現成的機器學習算法確實能夠解決一些問題,此謂“知其然”;而要真正把研究做深做精,寫出有深度、有價值的好文章,一定要理解實際問題或機器學習算法背後的數學和統計知識,此謂“知其所以然”。
當你不滿足於簡單應用現成的工具和方法,當你在迷信機器學習方法是黑盒的假設,當你想真正理解數據科學和機器學習的算法思想時,本書就是為你精心準備,讓你知其然也知其所以然的理想選擇。本書系統地介紹了統計監督學習、無監督學習、回歸、分類、決策樹和集成學習以及當前最流行的深度學習等內容,其中交叉熵方法、蒙特卡羅方法等很多內容本身就是作者的原創成果,由作者自己介紹最合適。
本書的每一個定理都有嚴謹的證明,主要算法都通過偽代碼描述了輸入、輸出及詳細過程,全書配套簡潔實用的Python代碼,代碼可以通過本書的GitHub主頁下載使用。本書每一章都有豐富的配套習題,能夠滿足你進一步提升自我的需要,部分章節還給出了擴展閱讀資料。另外,本書附錄部分系統地介紹了線性代數、泛函分析、多元微分、優化問題和概率統計等數學基礎知識。本書可以作為高等院校數據科學、機器學習和人工智能等學科高年級本科生或研究生的教材,也可以作為機器學習領域相關從業人員的參考書和工具書。
本書第3章和附錄C由解放軍信息工程大學劉楠副教授翻譯,其余章節由河南工業大學人工智能與大數據學院於俊偉副教授翻譯。本書翻譯工作得到2021年度河南省重點研發與推廣專項(科技攻關)(212102210152)、河南工業大學第二批青年骨幹教師培育計劃項目的資助。感謝機械工業出版社讓我翻譯這本優秀的作品。感恩為河南水災、全國疫情無私奉獻的所有人,是他們讓我在困境中仍能安靜地完成本書的翻譯工作。由於譯者水平有限,錯誤和疏漏在所難免,歡迎廣大專家和讀者提出寶貴意見。
於俊偉
2021年8月



前言

在當前自動化、云計算、算法、人工智能和大數據的世界中,很少有主題像數據科學和機器學習如此相關。它們的流行不僅在於它們對現實生活問題的適用性,還在於它們天然地融合了許多不同的學科,包括數學、統計、計算機科學與工程和金融。
對於開始學習這些主題的人來說,大量的計算方法和數學思想可能會讓你不知所措。有些人可能只滿足於學習如何將現成的算法應用於實際情況。但是,如果黑盒算法的假設被違背了,我們還能相信其結果嗎?該如何調整算法?要真正理解數據科學和機器學習,重要的是理解其背後的數學和統計知識,以及由此產生的算法。
本書的目的是提供易於理解,但內容全面的數據科學和機器學習清單。它面向任何有志於更好地理解數學和統計學知識的人,這些知識是數據科學中豐富多樣的思想和機器學習算法的基礎。我們認為,雖然計算機語言更迭不息,但潛在的關鍵思想和算法將永遠存在,並將成為未來發展的基礎。
在開始介紹本書主題之前,我們想說幾句撰寫本書的哲學。這本書源於澳大利亞昆士蘭大學和新南威爾士大學的數據科學和機器學習課程。教授這些課程時,我們注意到學生們不僅渴望學習如何應用算法,而且還渴望了解這些算法的工作原理。然而,許多現有的教科書要麼背景知識(如測度論和泛函分析)太多,要麼背景知識太少(大多都是黑箱算法),經常脫節和相互矛盾的網絡資源又會造成信息過載,這使學生們更難逐步建立自己的知識體系。因此,我們想寫一本關於數據科學和機器學習的書,將相關內容像故事一樣串起來,並在附錄中給出重要的“故事背景”。“故事”由淺入深,逐漸發展起來。附錄包含了所有必要的背景知識,例如線性代數與泛函分析(附錄A)、多元微分與優化問題(附錄B)以及概率與統計(附錄C)。此外,為了讓抽象的思想變得生動,我們相信讓讀者看到理論直接轉化為算法的實際實現過程是很重要的。經過深思熟慮,我們選擇Python作為編程語言。Python是免費提供的,並已被許多數據科學和機器學習從業者選作編程語言。它有許多好用的數據操作包(通常從R語言移植而來),其設計讓編程更容易。附錄D對Python進行了詳細介紹。
為了使本書篇幅合理,我們必須對主題做出選擇。重要思想和各種概念之間的聯繫通過加粗字體來突出顯示。關鍵定義和定理通過加框來突出顯示。我們盡可能地提供了定理的證明。最後,我們非常重視數學符號。通常情況下,一旦用一致和簡潔的符號系統表示,看似困難的想法會突然變得顯而易見。我們使用不同的字體來區分不同類型的物件。向量、矩陣用黑斜體字母表示,如x和X,並通過大寫和小寫字母來區分隨機向量和它們的值,例如X表示隨機向量,x表示隨機向量的值或結果。集合通常用書法體字母G、H來表示。概率和期望的符號分別是P和E。概率分布由無襯線字體表示,如Bin和Gamma,普遍使用的正態分布和均勻分布符號和除外。“數學符號”中匯總了最重要的符號和縮寫。
數據科學為理解和處理數據提供了必要的語言和技術。它涉及數字數據的設計、收集、分析和解釋,目的是提取模式和其他有用信息。機器學習與數據科學密切相關,它研究從數據中學習的算法和計算機資源的設計。本書內容的組織大致遵循數據科學項目研究的典型步驟:收集數據以獲得要研究問題的相關信息;數據清洗、匯總和可視化;數據建模和分析;將模型的決策轉化為關於研究問題的決策和預測。由於本書面向數學和統計學,因此重點將放在建模和分析上。
第1章首先介紹如何使用Python中的數據操作包pandas來讀取、構造、匯總和可視化數據。雖然本章涵蓋的內容不涉及數學知識,但它是數據科學的一個明顯的切入點:更好地理解可用數據的性質。第2章介紹統計學習的主要內容。我們區分了監督學習和無監督學習技術,討論了如何評估(無)監督學習方法的預測性能。統計學習的重要部分是數據建模,我們介紹了數據科學中各種有用的模型,包括正態線性模型、多元正態模型和貝葉斯模型。機器學習和數據科學中的許多算法都使用了蒙特卡羅方法,因此第3章介紹蒙特卡羅方法。蒙特卡羅方法可用於模擬、估計和優化。第4章介紹無監督學習,討論諸如密度估計、聚類和主成分分析等方法。第5章介紹監督學習,解釋許多回歸模型背後的思想。在這一章,我們還描述了如何使用Python的statsmodels包來定義和分析線性模型。第6章在第5章的基礎上提出了核方法和正則化的強大概念,利用再生核希爾伯特空間理論,使得第5章的基本思想得以巧妙地展開。第7章介紹分類任務,這種任務也屬於監督學習框架,因此這章考慮各種分類方法,包括貝葉斯分類、線性判別分析和二次判別分析、K近鄰和支持向量機。第8章探討利用樹結構進行回歸和分類的通用方法。第9章探索神經網絡和深度學習的工作原理,證明這些學習算法具有簡單的數學解釋。每章的結尾都提供了大量的練習。



每一章的Python代碼和數據集可以從GitHub網站下載。


致謝
第1章和第5章的一些Python代碼改編自文獻\[73\]。感謝Benoit Liquet提供這些代碼,也感謝Lauren Jones將R代碼轉換成Python代碼。
感謝所有通過評論、反饋和建議為本書做出貢獻的人,他們是Qibin Duan、Luke Taylor、Rémi Mouzayek、Harry Goodman、Bryce Stansfield、Ryan Tongs、Dillon Steyl、Bill Rudd、Nan Ye、Christian Hirsch、Chris van der Heide、Sarat Moka、Aapeli Vuorinen、Joshua Ross、Giang Nguyen以及匿名的評論者。David Grubbs作為本書的編輯,他的專業精神和對細節的關注值得特別稱讚。
本書在澳大利亞數學科學研究所2019年暑期班進行了測試,80多名優秀的高年級本科生(優等生)在Zdravko IBotev講授的“機器學習的數學方法”課程中使用了本書。感謝他們提供寶貴的反饋意見。
特別感謝Robert Salomone、Liam Berry、Robin Carrick和Sam Daley,他們針對全書內容給出了非常詳細的評論意見,並編寫、改進了我們的Python代碼。他們的熱情、洞察力和善意的幫助是無價的。
當然,如果沒有家人的愛心支持、耐心陪伴和鼓勵,這些工作是不可能完成的,我們由衷地感謝他們。
本書得到了澳大利亞研究委員會數學與統計前沿卓越中心的資助,資助編號為CE140100049。
Dirk PKroese、Zdravko IBotev、
Thomas Taimre和Radislav Vaisman
布裡斯班、悉尼

目次

譯者序
前言
數學符號
第1章導入、匯總和可視化
數據
11簡介
12類型結構特徵
13匯總表
14匯總統計量
15數據可視化
151定性變量繪圖
152定量變量繪圖
153雙變量的數據可視化
16擴展閱讀
17習題
第2章統計學習
21簡介
22監督學習和無監督學習
23訓練損失和測試損失
24統計學習中的權衡處理
25估計風險
251樣本內風險
252交叉驗證
26數據建模
27多元正態模型
28正態線性模型
29貝葉斯學習
210擴展閱讀
211習題
第3章蒙特卡羅方法
31簡介
32蒙特卡羅抽樣
321生成隨機數
322模擬隨機變量
323模擬隨機向量和隨機
過程
324重采樣
325馬爾可夫鏈蒙特卡羅
33蒙特卡羅估計
331樸素蒙特卡羅
332自舉法
333方差縮減
34蒙特卡羅優化
341模擬退火
342交叉熵方法
343分裂優化
344噪聲優化
35擴展閱讀
36習題
第4章無監督學習
41簡介
42無監督學習的風險和損失
43期望大化算法
44經驗分布和密度估計
45通過混合模型聚類
451混合模型
452混合模型的EM
算法
46向量量化聚類
461K均值
462通過連續多極值優化
進行聚類
47層次聚類
48主成分分析
481動機:橢球體的
主軸
482PCA和奇異值分解
49擴展閱讀
410習題
第5章回歸
51簡介
52線性回歸
53線性模型分析
531參數估計
532模型選擇和預測
533交叉驗證與預測殘差
平方和
534樣本內風險和赤池信
息準則
535分類特徵
536嵌套模型
537決定系數
54正態線性模型的推理
541比較兩個正態線性
模型
542置信區間和預測
區間
55非線性回歸模型
56用Python實現線性模型
561建模
562分析
563方差分析
564置信區間和預測區間
565模型驗證
566變量選擇
57廣義線性模型
58擴展閱讀
59習題
第6章正則化和核方法
61簡介
62正則化
63再生核希爾伯特空間
64再生核的構造
641通過特徵映射構造
再生核
642根據特徵函數構造
再生核
643利用正交特徵構造
再生核
644通過核構造再生核
65表示定理
66平滑三次樣條
67高斯過程回歸
68核PCA
69擴展閱讀
610習題
第7章分類
71簡介
72分類評價指標
73基於貝葉斯規則的分類
74線性判別分析和二次判別
分析
75邏輯回歸和softmax分類
76K近鄰分類
77支持向量機
78使用ScikitLearn進行分類
79擴展閱讀
710習題
第8章決策樹和集成方法
81簡介
82自頂向下的決策樹構建方法
821區域預測函數
822分裂規則
823終止條件
824基本實現
83其他考慮因素
831二叉樹與非二叉樹
832數據預處理
833替代分裂規則
834類別變量
835缺失值
84控制樹形
841代價複雜度剪枝
842決策樹的優點和
局限性
85自舉聚合
86隨機森林
87提升法
88擴展閱讀
89習題
第9章深度學習
91簡介
92前饋神經網絡
93反向傳播
94訓練方法
941速下降法
942LevenbergMarquardt
方法
943受限內存BFGS
方法
944自適應梯度法
95Python示例
951簡單多項式回歸
952圖像分類
96擴展閱讀
97習題
附錄A線性代數與泛函分析
附錄B多元微分與優化問題
附錄C概率與統計
附錄DPython入門
參考文獻

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 726
庫存:3

暢銷榜

客服中心

收藏

會員專區