統計至簡:概率統計全彩圖解+微課+Python編程(簡體書)
商品資訊
系列名:鳶尾花數學大系
ISBN13:9787302643562
出版社:清華大學出版社(大陸)
作者:姜偉生
出版日:2023/10/01
裝訂/頁數:平裝/600頁
規格:24cm*17cm (高/寬)
版次:一版
商品簡介
數據科學和機器學習已經深度融合到我們生活的方方面面,而數學正是開啟未來大門的鑰匙。不是所有人生來都握有一副好牌,但是掌握“數學 編程 機器學習”的知識絕對是王牌。這一次,學習數學不再是為了考試、分數、升學,而是投資時間、自我實現、面向未來。為了讓大家學數學、用數學,甚至愛上數學,在創作時,作者盡量克服傳統數學教材的各種弊端,讓大家學習時有興趣、看得懂、有思考、更自信、用得著。
《統計至簡:概率統計全彩圖解 微課 Python編程》是“鳶尾花數學大系—從加減乘除到機器學習”叢書中數學版塊—“數學三劍客”的第三冊,也是最後一本。“數學”板塊的第一本《數學要素》是各種數學工具的“大雜燴”,可謂數學基礎;《矩陣力量》專門講解機器學習中常用的線性代數工具;本冊《統計至簡》則介紹機器學習和數據分析中常用的概率統計工具。《統計至簡:概率統計全彩圖解 微課 Python編程》的核心是“多元統計”,離不開第二冊《矩陣力量》中介紹的線性代數工具。《統計至簡:概率統計全彩圖解 微課 Python編程》內容又可以歸納為 7 大板塊——統計、概率、高斯、隨機、頻率派、貝葉斯派、橢圓。《統計至簡:概率統計全彩圖解 微課 Python編程》在講解概率統計工具時,會穿插介紹其在數據科學和機器學習領域的應用場景,讓大家學以致用。
《統計至簡:概率統計全彩圖解 微課 Python編程》讀者群包括所有在工作中應用概率統計的朋友,尤其適用於初級程序員進階、大學本科數學開竅、高級數據分析師、機器學習開發者。
作者簡介
姜偉生 博士 FRM。
勤奮的小鎮做題家,熱愛知識可視化和開源分享。自2022年8月開始,在GitHub上開源“鳶尾花書”學習資源,截至2023年9月,已經分享4000多頁PDF、4000多幅矢量圖、約2000個代碼文件,全球讀者數以萬計。
名人/編輯推薦
這是一套前所未見的數學書,更是一套具備極高顏值的書。姜偉生博士自謙“小鎮做題家”,實際上他是國際著名金融企業的金融科技專家。很難想象一位以“術數”為業的金融家具備如此徹底的分享動機,同時,姜博士有著卓越的藝術品位和設計能力,不僅承擔了這套書的精深內容,更承擔了全系圖書的整體設計。希望讀者從枯燥的常規數學書中解脫出來,賞心悅目地慢慢走入繽紛的數學宇宙。
序
Preface
前言
感謝
首先感謝大家的信任。
作者僅僅是在學習應用數學科學和機器學習算法時,多讀了幾本數學書,多做了一些思考和知識整理而已。知者不言,言者不知。知者不博,博者不知。由於作者水平有限,斗膽把自己有限所學所思與大家分享,作者權當無知者無畏。希望大家在 B 站視頻下方和 GitHub 多提意見,讓“鳶尾花數學大系—從加減乘除到機器學習”叢書成為作者和讀者共同參與創作的優質作品。
特別感謝清華大學出版社的欒大成老師。從選題策劃、內容創作到裝幀設計,欒老師事無巨細、一路陪伴。每次與欒老師交流,都能感受到他對優質作品的追求、對知識分享的熱情。
出來混總是要還的
曾經,考試是我們學習數學的唯一動力。考試是頭懸梁的繩,是錐刺股的錐。我們中的絕大多數人從小到大為各種考試埋頭題海,學數學味同嚼蠟,甚至讓人恨之入骨。
數學給我們帶來了無盡的“折磨”。我們甚至恐懼數學,憎恨數學,恨不得一走出校門就把數學拋之腦後,老死不相往來。
可悲可笑的是,我們很多人可能會在畢業的五年或十年以後,因為工作需要,不得不重新學習微積分、線性代數、概率統計,悔恨當初沒有學好數學,走了很多彎路,沒能學以致用,甚至遷怒於教材和老師。
這一切不能都怪數學,值得反思的是我們學習數學的方法和目的。
再給自己一個學數學的理由
為考試而學數學,是被逼無奈的舉動。而為數學而學數學,則又太過高尚而遙不可及。
相信對於絕大部分的我們來說,數學是工具,是謀生手段,而不是目的。我們主動學數學,是想用數學工具解決具體問題。
現在,本叢書給大家帶來一個“學數學、用數學”的全新動力—數據科學、機器學習。
數據科學和機器學習已經深度融合到我們生活的方方面面,而數學正是開啟未來大門的鑰匙。不是所有人生來都握有一副好牌,但是掌握“數學 編程 機器學習”的知識絕對是王牌。這次,學習數學不再是為了考試、分數、升學,而是投資時間、自我實現、面向未來。
未來已來,你來不來?
本叢書如何幫到你
為了讓大家學數學、用數學,甚至愛上數學,作者可謂頗費心機。在叢書創作時,作者盡量克服傳統數學教材的各種弊端,讓大家學習時有興趣、看得懂、有思考、更自信、用得著。
為此,叢書在內容創作上突出以下幾個特點。
雖然本書標榜“從加減乘除到機器學習”,但是建議讀者朋友們至少具備高中數學知識。如果讀者正在學習或曾經學過大學數學 (微積分、線性代數、概率統計),那麼就更容易讀懂本叢書了。
聊聊數學
數學是工具。錘子是工具,剪刀是工具,數學也是工具。
數學是思想。數學是人類思想高度抽象的結晶體。在其冷酷的外表之下,數學的內核實際上就是人類樸素的思想。學習數學時,知其然,更要知其所以然。不要死記硬背公式定理,理解背後的數學思想才是關鍵。如果你能畫一幅圖、用大白話描述清楚一個公式、一則定理,這就說明你真正理解了她。
數學是語言。就好比世界各地不同種族有自己的語言,數學則是人類共同的語言和邏輯。數學這門語言極其精準、高度抽象,放之四海而皆準。雖然我們中大多數人沒有被數學“女神”選中,不能為人類對數學認知開疆拓土,但是這絲毫不妨礙我們使用數學這門語言。就好比,我們不會成為語言學家,我們完全可以使用母語和外語交流。
數學是體系。代數、幾何、線性代數、微積分、概率統計、優化方法等,看似一個個孤島,實際上都是數學網絡的一條條織線。建議大家學習時,特別關注不同數學板塊之間的聯繫,見樹,更要見林。
數學是基石。拿破侖曾說:“數學的日臻完善和國強民富息息相關。”數學是科學進步的根基,
是經濟繁榮的支柱,是保家衛國的武器,是探索星辰大海的航船。
數學是藝術。數學和音樂、繪畫、建築一樣,都是人類藝術體驗。通過可視化工具,我們會在看似枯燥的公式、定理、數據背後,發現數學之美。
II
數學是歷史,是人類共同內存。“歷史是過去,又屬於現在,同時在指引未來。”數學是人類的集體學習思考,她把人的思維符號化、形式化,進而記錄、積累、傳播、創新、發展。從甲骨、泥板、石板、竹簡、木牘、紙草、羊皮卷、活字印刷、紙質書,到數字媒介,這一過程持續了數千年, 至今綿延不息。
數學是無窮無盡的想象力,是人類的好奇心,是自我挑戰的毅力,是一個接著一個的問題,是看似荒誕不經的猜想,是一次次膽大包天的批判性思考,是敢於站在前人臂膀之上的勇氣,是孜孜不倦地延展人類認知邊界的不懈努力。
家園、詩、遠方
諾瓦利斯曾說:“哲學就是懷著一種鄉愁的衝動到處去尋找家園。”
在紛繁複雜的塵世,數學純粹得就像精神的世外桃源。數學是一束光、一條巷、一團不滅的希望、一股磅礴的力量、一個值得寄托的避風港。
打破陳腐的鎖鏈,把功利心暫放一邊,我們一道懷揣一份鄉愁,心存些許詩意,踩著藝術維度, 投入數學張開的臂膀,駛入它色彩斑斕、變幻無窮的深港,感受久違的歸屬,一睹更美、更好的遠方。
前言 《統計至簡》
III
Acknowledgement
致謝
To my parents.
謹以此書獻給我的母親父親。
How to Use the Book
使用本書
叢書資源
本系列叢書提供的配套資源有以下幾個。
在紙質圖書中,為了方便大家查找不同配套資源,作者特別設計了以下幾個標識。
數學家、科學家、藝術家等語錄
代碼中核心Python 庫函數和講解
思維導圖總結本章脈絡和核心內容
配套Python代碼完成核心計算和制圖
引出本書或本系列
其他圖書相關內容
相關數學家生平貢獻介紹
用Streamlit開發製作App
提醒讀者格外注意的知識點
每章結束總結或升 華本章內容
介紹數學工具、機器學習之間的聯繫
每章配套微課視頻二維碼
本書核心參考文獻和推薦閱讀文獻
微課視頻
本書配套微課視頻均發布在B站—生姜DrGinger。
微課視頻是以“聊天”的方式,和大家探討某個數學話題的重點內容,講解代碼中可能遇到的難點,甚至侃侃歷史、說說時事、聊聊生活。
本書配套微課視頻的目的是引導大家自主編程實踐、探究式學習,並不是“照本宣科”。
紙質圖書上已經寫得很清楚的內容,視頻課程只會強調重點。需要說明的是,圖書內容不是視頻的“逐字稿”。
App開發
本書配套多個用Streamlit開發的App,用來展示數學動畫、數據分析、機器學習算法。
Streamlit是個開源的Python庫,能夠方便快捷地搭建、部署交互型網頁App。Streamlit簡單易用,很受歡迎。Streamlit兼容目前主流的Python數據分析庫,比如NumPy、Pandas、Scikit-learn、PyTorch、TensorFlow等。Streamlit還支持Plotly、Bokeh、Altair等交互可視化庫。
本書中很多App設計都採用Streamlit Plotly方案。此外,本書專門配套教學視頻手把手和大家一起做App。
大家可以參考如下頁面,更多了解Streamlit:
實踐平臺
本書作者編寫代碼時採用的IDE (Integrated Development Environment) 是Spyder,目的是給大家提供簡潔的Python代碼文件。
但是,建議大家採用JupyterLab或Jupyter Notebook作為鳶尾花書配套學習工具。
簡單來說,Jupyter集“瀏覽器 編程 文檔 繪圖 多媒體 發布”眾多功能於一身,非常適合探究式學習。
運行Jupyter無需IDE,只需要瀏覽器。Jupyter容易分塊執行代碼。Jupyter支持inline打印結果,直接將結果圖片打印在分塊代碼下方。Jupyter還支持很多其他語言,如R和Julia。
使用Markdown文檔編輯功能,可以在編程的同時寫筆記,不需要額外創建文檔。在Jupyter中插入圖片和視頻鏈接都很方便,此外還可以插入LaTex公式。對於長文檔,可以用邊欄目錄查找特定內容。
Jupyter發布功能很友好,方便打印成HTML、PDF等格式文件。
VI
Jupyter也並不完美,目前尚待解決的問題有幾個:Jupyter中代碼調試不是特別方便。Jupyter沒有variable explorer,可以在線打印數據,也可以將數據寫到CSV或Excel文件中再打開。Matplotlib 圖像結果不具有交互性,如不能查看某個點的值或者旋轉3D圖形,此時可以考慮安裝 (Jupyter Matplotlib)。注意,利用Altair或Plotly繪製的圖像支持交互功能。對於自定義函數,目前沒有快捷鍵直接跳轉到其定義。但是,很多開發者針對這些問題正在開發或已經發布相應插件,請大家留意。
大家可以下載安裝Anaconda。JupyterLab、Spyder、PyCharm等常用工具,都集成在Anaconda 中。下載Anaconda的地址為:
JupyterLab探究式學習視頻:
代碼文件
鳶尾花書的Python代碼文件下載地址為:
同時也在如下GitHub地址備份更新:
Python代碼文件會不定期修改,請大家注意更新。圖書原始創作版本PDF(未經審校和修訂,內容和紙質版略有差異,方便移動終端碎片化學習以及對照代碼)和紙質版本勘誤也會上傳到這個GitHub 帳戶。因此,建議大家注冊GitHub帳戶,給書稿文件夾標星 (Star) 或分支克隆 (Fork)。
考慮再三,作者還是決定不把代碼全文印在紙質書中,以便減少篇幅,節約用紙。
本書編程實踐例子中主要使用“鳶尾花數據集”,數據來源是Scikit-learn庫、Seaborn庫。要是給
“鳶尾花數學大系”起個暱稱的話,作者樂見“鳶尾花書”。
使用本書
《統計至簡》
VII
學習指南
大家可以根據自己的偏好制定學習步驟,本書推薦如下步驟。
1
瀏覽本章思維導圖, 把握核心脈絡
4
用Jupyter 創建筆記,編程實踐
2
下載本章配套
Python 代碼文件
5
嘗試開發數學動畫、機器學習 App
3
觀看微課視頻,閱讀本章正文內容
6
翻閱本書推薦參
考文獻
學完每章後,大家可以在社交媒體、技術論壇上發布自己的Jupyter筆記,進一步聽取朋友們的意見,共同進步。這樣做還可以提高自己學習的動力。
另外,建議大家採用紙質書和電子書配合閱讀學習,學習主陣地在紙質書上,學習基礎課程最重要的是沉下心來,認真閱讀並記錄筆記,電子書可以配合查看代碼,相關實操性內容可以直接在計算機上開發、運行、感受,Jupyter筆記同步記錄起來。
強調一點:學習過程中遇到困難,要嘗試自行研究解決,不要第一時間就去尋求他人幫助。
意見和建議
歡迎大家對鳶尾花書提意見和建議,叢書專屬郵箱地址為:
也歡迎大家在B站視頻下方留言互動。
目次
緒論 1
第1章 概率統計全景 7
1.1 必 備數學工具:一個線性代數小測驗 8
1.2 統計描述 9
1.3 概率 10
1.4 高斯 16
1.5 隨機 19
1.6 頻率派 19
1.7 貝葉斯派 20
1.8 橢圓三部曲 21
第2章 統計描述 23
2.1 統計兩大工具:描述、推斷 25
2.2 直方圖:單特徵數據分布 26
2.3 散點圖:兩特徵數據分布 31
2.4 有標簽數據的統計可視化 33
2.5 集中度:均值、質心 36
2.6 分散度:極差、方差、標準差 38
2.7 分位:四分位、百分位等 40
2.8 箱型圖:小提琴圖、分布散點圖 42
2.9 中心距:均值、方差、偏度、峰度 44
2.10 多元隨機變量關係:協方差矩陣、相關性系數矩陣 47
第3章 古典概率模型 51
3.1 無處不在的概率 52
3.2 古典概率:離散均勻概率律 56
3.3 回顧:楊輝三角和概率 64
3.4 事件之間的關係:集合運算 65
3.5 條件概率:給定部分信息做推斷 67
3.6 貝葉斯定理:條件概率、邊緣概率、聯合概率關係 70
3.7 全概率定理:窮舉法 73
3.8 獨立、互斥、條件獨立 76
第4章 離散隨機變量 79
4.1 隨機:天地不仁,以萬物為芻狗 80
4.2 期望值:隨機變量的可能取值加權平均 89
4.3 方差:隨機變量離期望距離平方的平均值 91
4.4 累積分布函數(CDF):累加 94
4.5 二元離散隨機變量 95
4.6 協方差、相關性系數 97
4.7 邊緣概率:偏求和,相當於降維 100
4.8 條件概率:引入貝葉斯定理 101
4.9 獨立性:條件概率等於邊緣概率 104
4.10 以鳶尾花數據為例:不考慮分類標簽 107
4.11 以鳶尾花數據為例:考慮分類標簽 116
4.12 再談概率1:展開、折疊 120
第5章 離散分布 123
5.1 概率分布:高度理想化的數學模型 124
5.2 離散均勻分布:不分厚薄 125
5.3 伯努利分布:非黑即白 128
5.4 二項分布:楊輝三角 129
5.5 多項分布:二項分布推廣 132
5.6 泊松分布:建模隨機事件的發生次數 135
5.7 幾何分布:滴水穿石 136
5.8 超幾何分布:不放回 138
第6章 連續隨機變量 141
6.1 一元連續隨機變量 142
6.2 期望、方差和標準差 145
6.3 二元連續隨機變量 147
6.4 邊緣概率:二元PDF偏積分 149
6.5 條件概率:引入貝葉斯定理 151
6.6 獨立性:比較條件概率和邊緣概率 153
6.7 以鳶尾花數據為例:不考慮分類標簽 154
6.8 以鳶尾花數據為例:考慮分類標簽 162
第7章 連續分布 171
7.1 連續均勻分布:離散均勻分布的連續版 172
7.2 高斯分布:最重要的概率分布,沒有之一 173
7.3 邏輯分布:類似高斯分布 177
7.4 學生t-分布:厚尾分布 179
7.5 對數正態分布:源自正態分布 181
7.6 指數分布:泊松分布的連續隨機變量版 183
7.7 卡方分布:若干IID標準正態分布平方和 184
7.8 F-分布:和兩個服從卡方分布的獨立隨機變量有關 185
7.9 Beta分布:概率的概率 187
7.10 Dirichlet分布:多元Beta分布 190
第8章 條件概率 197
8.1 離散隨機變量:條件期望 198
8.2 離散隨機變量:條件方差 204
8.3 離散隨機變量的條件期望和條件方差:以鳶尾花為例 206
8.4 連續隨機變量:條件期望 215
8.5 連續隨機變量:條件方差 216
8.6 連續隨機變量:以鳶尾花為例 217
8.7 再談如何分割“1” 221
第9章 一元高斯分布 231
9.1 一元高斯分布:期望值決定位置,標準差決定形狀 232
9.2 累積概率密度:對應概率值 234
9.3 標準高斯分布:期望為0,標準差為1 236
9.4 68-95-99.7 法則 239
9.5 用一元高斯分布估計概率密度 243
9.6 經驗累積分布函數 244
9.7 QQ圖:分位-分位圖 245
9.8 從距離到一元高斯分布 249
第10章 二元高斯分布 253
10.1 二元高斯分布:看見橢圓 254
10.2 邊緣分布:一元高斯分布 258
10.3 累積分布函數:概率值 262
10.4 用橢圓解剖二元高斯分布 264
10.5 聊聊線性相關性系數 268
10.6 以鳶尾花數據為例:不考慮分類標簽 272
10.7 以鳶尾花數據為例:考慮分類標簽 281
第11章 多元高斯分布 287
11.1 矩陣角度:一元、二元、三元到多元 288
11.2 高斯分布:橢圓、橢球、超橢球 293
11.3 解剖多元高斯分布PDF 298
11.4 平移 → 旋轉 302
11.5 平移 → 旋轉 → 縮放 308
第12章 條件高斯分布 311
12.1 聯合概率和條件概率關係 312
12.2 給定X條件下,Y的條件概率:以二元高斯分布為例 316
12.3 給定Y條件下,X的條件概率:以二元高斯分布為例 321
12.4 多元正態條件分布:引入矩陣運算 325
第13章 協方差矩陣 331
13.1 計算協方差矩陣:描述數據分布 332
13.2 相關性系數矩陣:描述Z分數分布 338
13.3 特徵值分解:找到旋轉、縮放 340
13.4 SVD分解:分解數據矩陣 345
13.5 Cholesky分解:列向量坐標 349
13.6 距離:歐氏距離 VS 馬氏距離 350
13.7 幾何視角:超橢球、橢球、橢圓 353
13.8 合並協方差矩陣 362
第14章 隨機變量的函數 367
14.1 隨機變量的函數:以鳶尾花為例 368
14.2 線性變換:投影視角 369
14.3 單方向投影:以鳶尾花兩特徵為例 372
14.4 正交系投影:以鳶尾花兩特徵為例 376
14.5 以橢圓投影為視角看線性變換 380
14.6 主成分分析:換個視角看數據 383
第15章 蒙特卡洛模擬 387
15.1 蒙特卡洛模擬:基於偽隨機數發生器 388
15.2 估算平方根 389
15.3 估算積分 390
15.4 估算體積 391
15.5 估算圓周率 391
15.6 布豐投針估算圓周率 393
15.7 接受-拒絕抽樣法 395
15.8 二項分布隨機漫步 397
15.9 兩個服從高斯分布的隨機變量相加 399
15.10 產生滿足特定相關性的隨機數 400
第16章 頻率派統計推斷 411
16.1 統計推斷:兩大學派 412
16.2 頻率學派的工具 414
16.3 中心極限定理:漸近於正態分布 416
16.4 最大似然:雞兔比例 419
16.5 最大似然:以估算均值、方差為例 421
16.6 區間估計:總體方差已知,均值估計 424
16.7 區間估計:總體方差未知,均值估計 427
16.8 區間估計:總體均值未知,方差估計 429
第17章 概率密度估計 431
17.1 概率密度估計:從直方圖說起 432
17.2 核密度估計:若干核函數加權疊合 435
17.3 帶寬:決定核函數的高矮胖瘦 439
17.4 核函數:八種常見核函數 441
17.5 二元KDE:概率密度曲面 443
第18章 貝葉斯分類 447
18.1 貝葉斯定理:分類鳶尾花 448
18.2 似然概率:給定分類條件下的概率密度 450
18.3 先驗概率:鳶尾花分類占比 451
18.4 聯合概率:可以作為分類標準 451
18.5 證據因子:和分類無關 452
18.6 後驗概率:也是分類的依據 453
18.7 單一特徵分類:基於KDE 457
18.8 單一特徵分類:基於高斯 461
第19章 貝葉斯分類進階 467
19.1 似然概率:給定分類條件下的概率密度 468
19.2 聯合概率:可以作為分類標準 470
19.3 證據因子:和分類無關 472
19.4 後驗概率:也是分類的依據 474
19.5 獨立:不代表條件獨立 477
19.6 條件獨立:不代表獨立 478
第20章 貝葉斯推斷入門 483
20.1 貝葉斯推斷:更貼合人腦思維 484
20.2 從一元貝葉斯公式說起 486
20.3 走地雞兔:比例完全不確定 488
20.4 走地雞兔:很可能一半一半 495
20.5 走地雞兔:更一般的情況 504
第21章 貝葉斯推斷進階 511
21.1 除了雞兔,農場發現了豬 512
21.2 走地雞兔豬:比例完全不確定 517
21.3 走地雞兔豬:很可能各1/3 520
21.4 走地雞兔豬:更一般的情況 525
第22章 馬爾可夫鏈蒙特卡洛 529
22.1 歸一化因子沒有閉式解? 530
22.2 雞兔比例:使用PyMC3 534
22.3 雞兔豬比例:使用PyMC3 537
第23章 馬氏距離 543
23.1 馬氏距離:考慮數據分布的距離度量 544
23.2 歐氏距離:最基本的距離 546
23.3 標準化歐氏距離:兩個視角 547
23.4 馬氏距離:兩個視角 549
23.5 馬氏距離和卡方分布 553
第24章 線性回歸 557
24.1 再聊線性回歸 558
24.2 最小二乘法 561
24.3 優化問題 562
24.4 投影視角 563
24.5 線性方程組:代數視角 563
24.6 條件概率 564
24.7 最大似然估計(MLE) 568
第25章 主成分分析 571
25.1 再聊主成分分析 572
25.2 原始數據 574
25.3 特徵值分解協方差矩陣 575
25.4 投影 577
25.5 幾何視角看PCA 583
25.6 奇異值分解 586
25.7 優化問題 591
25.8 數據還原和誤差 592
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。