評論

滿額折

Spark機器學習進階實戰（簡體書）

系列名：大數據技術叢書
ISBN13：9787111608103
出版社：機械工業出版社
作者：馬海平; 于俊; 呂昕; 向海
出版日：2018/09/15
裝訂／頁數：平裝／210頁
規格：24.0cm*18.6cm (高/寬)
關鍵字： Spark機器學習進階實戰（簡體書）、 Spark、機器、學習、進階、實戰、簡體、機械工業出版社、馬海平、于俊、呂昕、向海、簡體書、工業技術、自動化技術、計算技術、數據處理、數據處理系統、

中國圖書館分類：數據處理、數據處理系統

人民幣定價：59 元

定價

：NT$ 354 元

優惠價

：87 折 308 元

領券後再享88折

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：9 點

相關商品

商品簡介

全書一共分三大部分：基礎篇（1-2章）對Spark機器學習進行概述、並通過Spark機器學習開始進行數據分析；算法篇（3-8章）針對分類、聚類、回歸、協同過濾、關聯規則、降維等算法進行詳細講解，並進行案例支持；綜合案例篇（9-12章）重點通過異常檢測、用戶畫像、廣告點擊率預估、智慧交通大數據4個綜合場景，詳細講解基於Spark機器學習的綜合應用。

前　言
第一篇　基礎篇
第1章　機器學習概述 2
1.1　機器學習概述 2
1.1.1　理解大數據 2
1.1.2　機器學習發展過程 4
1.1.3　大數據生態環境 5
1.2　機器學習算法 6
1.2.1　傳統機器學習 6
1.2.2　深度學習 8
1.2.3　其他機器學習 8
1.3　機器學習分類 9
1.3.1　監督學習 9
1.3.2　無監督學習 10
1.3.3　半監督學習 10
1.3.4　強化學習 10
1.4　機器學習綜合應用 11
1.4.1　異常檢測 12
1.4.2　用戶畫像 12
1.4.3　廣告點擊率預估 12
1.4.4　企業征信大數據應用 12
1.4.5　智慧交通大數據應用 13
1.5　本章小結 13
第2章　數據分析流程和方法 14
2.1　數據分析概述 14
2.2　數據分析流程 15
2.2.1　業務調研 16
2.2.2　明確目標 16
2.2.3　數據準備 16
2.2.4　特徵處理 17
2.2.5　模型訓練與評估 21
2.2.6　輸出結論 23
2.3　數據分析的基本方法 24
2.3.1　匯總統計 24
2.3.2　相關性分析 25
2.3.3　分層抽樣 26
2.3.4　假設檢驗 26
2.4　簡單的數據分析實踐 27
2.4.1　環境準備 27
2.4.2　準備數據 28
2.4.3　數據分析 29
2.5　本章小結 30
第二篇　算法篇
第3章　構建分類模型 32
3.1　分類模型概述 32
3.2　分類模型算法 34
3.2.1　邏輯回歸 34
3.2.2　樸素貝葉斯模型 36
3.2.3　SVM模型 37
3.2.4　決策樹模型 39
3.2.5　K-近鄰 40
3.3　分類效果評估 40
3.3.1　正確率 41
3.3.2　準確率、召回率和F1值 41
3.3.3　ROC和AUC 42
3.4　App數據的分類實現 44
3.4.1　選擇分類器 44
3.4.2　準備數據 45
3.4.3　訓練模型 46
3.4.4　模型性能評估 48
3.4.5　模型參數調優 49
3.5　其他分類模型 50
3.5.1　隨機森林 50
3.5.2　梯度提升樹 51
3.5.3　因式分解機模型 51
3.6　本章小結 52
第4章　構建聚類模型 53
4.1　聚類概述 53
4.2　聚類模型 54
4.2.1　KMeans聚類 54
4.2.2　DBSCAN聚類 55
4.2.3　主題聚類 56
4.3　聚類效果評價 58
4.3.1　集中平方誤差和 58
4.3.2　Purity評價法 59
4.4　使用KMeans對鳶尾花卉數據集聚類 59
4.4.1　準備數據 59
4.4.2　特徵處理 60
4.4.3　聚類分析 60
4.4.4　模型性能評估 62
4.5　使用DBSCAN對GPS數據進行聚類 62
4.5.1　準備數據 63
4.5.2　特徵處理 64
4.5.3　聚類分析 64
4.5.4　模型參數調優 65
4.6　其他模型 66
4.6.1　層次聚類 66
4.6.2　基於圖的聚類 67
4.6.3　混合聚類模型 67
4.7　本章小結 68
第5章　構建回歸模型 69
5.1　常用回歸模型 69
5.1.1　線性回歸模型 70
5.1.2　回歸樹模型 70
5.1.3　其他回歸模型 71
5.2　評估指標 73
5.3　回歸模型優化 74
5.3.1　特徵選擇 74
5.3.2　特徵變換 74
5.4　構建UCI裙子銷售數據回歸模型 75
5.4.1　準備數據 75
5.4.2　訓練模型 78
5.4.3　評估效果 79
5.4.4　模型優化 79
5.5　其他回歸模型案例 80
5.5.1　GDP影響因素分析 81
5.5.2　大氣污染分析 81
5.5.3　大數據比賽中的回歸問題 81
5.6　本章小結 82
第6章　構建關聯規則模型 83
6.1　關聯規則概述 83
6.2　常用關聯規則算法 84
6.2.1　Apriori算法 84
6.2.2　FP-Growth算法 85
6.3　效果評估和優化 86
6.3.1　效果評估 86
6.3.2　效果優化 87
6.4　使用FP-Growth對豆瓣評分數據進行挖掘 88
6.4.1　準備數據 89
6.4.2　訓練模型 89
6.4.3　觀察規則 91
6.4.4　參數調優 91
6.4.5　使用算法 92
6.5　其他應用場景 94
6.6　本章小結 96
第7章　協同過濾 97
7.1　協同過濾概述 97
7.2　常用的協同過濾算法 98
7.2.1　基於用戶的協同過濾 99
7.2.2　基於物品的協同過濾 100
7.2.3　矩陣分解技術 101
7.2.4　推薦算法的選擇 102
7.3　評估標準 103
7.3.1　準確率 103
7.3.2　覆蓋率 103
7.3.3　多樣性 104
7.3.4　其他指標 104
7.4　使用電影評分數據進行協同過濾實踐 104
7.4.1　準備數據 105
7.4.2　訓練模型 106
7.4.3　測試模型 109
7.4.4　使用ALS結果 111
7.5　本章小結 112
第8章　數據降維 113
8.1　降維概述 113
8.2　常用降維算法 114
8.2.1　主成分分析 114
8.2.2　奇異值分解 116
8.2.3　廣義降維 117
8.2.4　文本降維 118
8.3　降維評估標準 121
8.4　使用PCA對Digits數據集進行降維 122
8.4.1　準備數據 122
8.4.2　訓練模型 123
8.4.3　分析降維結果 124
8.5　其他降維方法 124
8.5.1　線性判別分析 124
8.5.2　局部線性嵌入 125
8.5.3　拉普拉斯特徵映射 125
8.6　本章小結 126
第三篇　綜合應用篇
第9章　異常檢測 128
9.1　異常概述 128
9.1.1　異常的產生 129
9.1.2　異常檢測的分類 129
9.2　異常檢測方法 130
9.2.1　基於模型的方法 130
9.2.2　基於鄰近度的方法 131
9.2.3　基於密度的方法 132
9.2.4　基於聚類的方法 133
9.3　異常檢測系統 133
9.3.1　異常檢測過程 133
9.

主題書展

優惠方式：5折起

優惠方式：熱賣中

主題書展

更多書展

本週66折

英語發音(附CD2片)

敬愛的心意：最終等待的，只是心意相通的那個人

中國末代禪師

禪宗六變(平)

時空列車長－解釋宇宙的天才愛因斯坦(二版)

洛爾斯(平)

火山與地震－人類文明小百科9

夏丏尊

投報率最高！第一本圖解半導體產業的投資指南：股市分析X資產配置X產業介紹，選對標的未來穩穩賺

遠離祖國的波蘭孤兒：鋼琴詩人蕭邦(二版)

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

Spark機器學習進階實戰（簡體書）

商品簡介

目次

主題書展

主題書展

本週66折

您曾經瀏覽過的商品

購物須知

網路書店

復北店

重南店