數據科學與分析:Python語言實現(簡體書)
商品資訊
系列名:數據科學與工程技術叢書
ISBN13:9787111623175
出版社:機械工業出版社
作者:(英)赫蘇斯‧羅格爾-薩拉查
譯者:白皓
出版日:2019/04/01
裝訂/頁數:平裝/236頁
規格:26cm*18.5cm (高/寬)
版次:一版
商品簡介
作者簡介
目次
相關商品
商品簡介
本書由前IBM首席數據科學家撰寫,旨在為勵志成為數據科學家的讀者給出一個可行的實踐指南。從Python入門開始,逐步實現數據分析、機器學習等通用算法,進而討論數據科學家的典型工作流程,*後從實踐入手,由淺入深,精選決策樹、降維技術、支持向量機等數據分析案例,讓讀者能逐步理解晦澀的公式理論並上手操作,可以滿足不同層次的讀者需求。
作者簡介
[英]赫蘇斯·羅格爾-薩拉查(Jesús Rogel-Salazar), 博士作為首席數據科學家,曾在AKQA、IBM數據科學工作室、Dow Jones等大型公司工作,在該領域有豐富的工作經驗。 他是英國倫敦帝國理工學院物理系的訪問研究員,也是英國赫特福德大學物理學、天文學和數學學院的成員。 他在帝國理工學院獲得物理學博士學位,從事量子原子光學和超冷物質方面的研究。自2006年以來,他一直擔任數學高級講師以及金融行業的顧問和數據科學家,是《Essential Matlaband Octave》一書的作者。 他的興趣包括數學建模、數據科學以及光學、量子力學、數據新聞與金融等應用領域的優化問題。
目次
譯者序
前言
讀者指南
第1章 數據科學家的試驗與磨難 1
1.1 數據?科學?數據科學! 1
1.2 數據科學家:現代鹿角兔 4
1.3 數據科學工具 9
1.4 從數據到洞察力:數據科學工作流 11
1.4.1 識別問題 13
1.4.2 獲取數據 13
1.4.3 數據挖掘 13
1.4.4 建模與評價 13
1.4.5 表徵與互動 14
1.4.6 數據科學:一個迭代過程 14
1.5 總結 15
第2章 Python:完全不同的編程語言 16
2.1 為何是Python?為何不是? 17
2.1.1 使用Shell或不使用Shell 19
2.1.2 使用iPython/Jupyter Notebook 20
2.2 初探Python 21
2.2.1 基本類型 21
2.2.2 數字 21
2.2.3 字符串 22
2.2.4 複數 23
2.2.5 列表 24
2.2.6 元組 27
2.2.7 字典 29
2.3 控制流 31
2.3.1 if ... elif ... else 31
2.3.2 while 32
2.3.3 for 33
2.3.4 try... except 34
2.3.5 函數 36
2.3.6 腳本和模塊 39
2.4 計算和數據處理 41
2.4.1 矩陣操作和線性代數 41
2.4.2 NumPy數組和矩陣 42
2.4.3 索引和切片 45
2.5 “熊貓”前來救駕 46
2.6 繪圖和可視化庫:Matplotlib 50
2.7 總結 52
第3章 能夠探知的機器:機器學習和模式識別 53
3.1 認知模式 53
3.2 人工智能和機器學習 54
3.3 數據很好,但也需要其他支持 56
3.4 學習、預測和分類 57
3.5 機器學習和數據科學 58
3.6 特徵選擇 59
3.7 偏差、差異和正規化:平衡法 60
3.8 一些有用的措施:距離和相似性 61
3.9 注意“維度的詛咒” 64
3.10 Scikit-learn是我們的朋友 67
3.11 訓練和測試 70
3.12 交叉驗證 72
3.13 總結 75
第4章 關係難題:回歸 76
4.1 變量之間的關係:回歸 76
4.2 多元線性回歸 78
4.3 普通最小二乘法 80
4.4 大腦與身體:單變量回歸 83
4.5 對數變換 90
4.6 使任務更容易:標準化和擴展 93
4.6.1 正則化或單位縮放 94
4.6.2 z-Score縮放 95
4.7 多項式回歸 96
4.8 方差–偏差權衡 99
4.9 收縮:選擇運算符和Ridge 101
4.10 總結 105
第5章 鹿角兔和野兔:聚類 107
5.1 聚類 107
5.2 k–均值聚類 108
5.2.1 聚類驗證 110
5.2.2 k–均值實際操作 112
5.3 總結 115
第6章 獨角獸和馬:分類 116
6.1 分類 116
6.1.1 混淆矩陣 117
6.1.2 ROC和AUC 119
6.2 使用KNN算法分類 121
6.3 邏輯回歸分類器 126
6.3.1 邏輯回歸的解釋 129
6.3.2 邏輯回歸的應用 130
6.4 使用樸素貝葉斯算法進行分類 136
6.4.1 樸素貝葉斯分類器 139
6.4.2 樸素貝葉斯分類的應用 140
6.5 總結 144
第7章 決策:分層聚類、決策樹和集成技術 145
7.1 分層聚類 145
7.2 決策樹 150
7.3 集成技術 160
7.3.1 套袋 164
7.3.2 助推 164
7.3.3 隨機森林 165
7.3.4 層疊和混合 166
7.4 集成技術實踐 167
7.5 總結 171
第8章 少即多:降維 172
8.1 降維 172
8.2 主成分分析 175
8.2.1 PCA實踐 177
8.2.2 PCA在鳶尾花數據集中的應用 180
8.3 奇異值分解 183
8.4 推薦系統 187
8.4.1 基於內容的過濾實踐 188
8.4.2 協同過濾實踐 191
8.5 總結 195
第9章 內核秘訣:支持向量機 197
9.1 支持向量機和內核方法 197
9.1.1 支持向量機 199
9.1.2 內核的技巧 204
9.1.3 SVM實踐:回歸 205
9.1.4 SVM實踐:分類 208
9.2 總結 212
附錄 Scikit-learn中的管道 213
參考文獻 217
前言
讀者指南
第1章 數據科學家的試驗與磨難 1
1.1 數據?科學?數據科學! 1
1.2 數據科學家:現代鹿角兔 4
1.3 數據科學工具 9
1.4 從數據到洞察力:數據科學工作流 11
1.4.1 識別問題 13
1.4.2 獲取數據 13
1.4.3 數據挖掘 13
1.4.4 建模與評價 13
1.4.5 表徵與互動 14
1.4.6 數據科學:一個迭代過程 14
1.5 總結 15
第2章 Python:完全不同的編程語言 16
2.1 為何是Python?為何不是? 17
2.1.1 使用Shell或不使用Shell 19
2.1.2 使用iPython/Jupyter Notebook 20
2.2 初探Python 21
2.2.1 基本類型 21
2.2.2 數字 21
2.2.3 字符串 22
2.2.4 複數 23
2.2.5 列表 24
2.2.6 元組 27
2.2.7 字典 29
2.3 控制流 31
2.3.1 if ... elif ... else 31
2.3.2 while 32
2.3.3 for 33
2.3.4 try... except 34
2.3.5 函數 36
2.3.6 腳本和模塊 39
2.4 計算和數據處理 41
2.4.1 矩陣操作和線性代數 41
2.4.2 NumPy數組和矩陣 42
2.4.3 索引和切片 45
2.5 “熊貓”前來救駕 46
2.6 繪圖和可視化庫:Matplotlib 50
2.7 總結 52
第3章 能夠探知的機器:機器學習和模式識別 53
3.1 認知模式 53
3.2 人工智能和機器學習 54
3.3 數據很好,但也需要其他支持 56
3.4 學習、預測和分類 57
3.5 機器學習和數據科學 58
3.6 特徵選擇 59
3.7 偏差、差異和正規化:平衡法 60
3.8 一些有用的措施:距離和相似性 61
3.9 注意“維度的詛咒” 64
3.10 Scikit-learn是我們的朋友 67
3.11 訓練和測試 70
3.12 交叉驗證 72
3.13 總結 75
第4章 關係難題:回歸 76
4.1 變量之間的關係:回歸 76
4.2 多元線性回歸 78
4.3 普通最小二乘法 80
4.4 大腦與身體:單變量回歸 83
4.5 對數變換 90
4.6 使任務更容易:標準化和擴展 93
4.6.1 正則化或單位縮放 94
4.6.2 z-Score縮放 95
4.7 多項式回歸 96
4.8 方差–偏差權衡 99
4.9 收縮:選擇運算符和Ridge 101
4.10 總結 105
第5章 鹿角兔和野兔:聚類 107
5.1 聚類 107
5.2 k–均值聚類 108
5.2.1 聚類驗證 110
5.2.2 k–均值實際操作 112
5.3 總結 115
第6章 獨角獸和馬:分類 116
6.1 分類 116
6.1.1 混淆矩陣 117
6.1.2 ROC和AUC 119
6.2 使用KNN算法分類 121
6.3 邏輯回歸分類器 126
6.3.1 邏輯回歸的解釋 129
6.3.2 邏輯回歸的應用 130
6.4 使用樸素貝葉斯算法進行分類 136
6.4.1 樸素貝葉斯分類器 139
6.4.2 樸素貝葉斯分類的應用 140
6.5 總結 144
第7章 決策:分層聚類、決策樹和集成技術 145
7.1 分層聚類 145
7.2 決策樹 150
7.3 集成技術 160
7.3.1 套袋 164
7.3.2 助推 164
7.3.3 隨機森林 165
7.3.4 層疊和混合 166
7.4 集成技術實踐 167
7.5 總結 171
第8章 少即多:降維 172
8.1 降維 172
8.2 主成分分析 175
8.2.1 PCA實踐 177
8.2.2 PCA在鳶尾花數據集中的應用 180
8.3 奇異值分解 183
8.4 推薦系統 187
8.4.1 基於內容的過濾實踐 188
8.4.2 協同過濾實踐 191
8.5 總結 195
第9章 內核秘訣:支持向量機 197
9.1 支持向量機和內核方法 197
9.1.1 支持向量機 199
9.1.2 內核的技巧 204
9.1.3 SVM實踐:回歸 205
9.1.4 SVM實踐:分類 208
9.2 總結 212
附錄 Scikit-learn中的管道 213
參考文獻 217
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。