TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
SPSS Modeler+Weka數據挖掘從入門到實戰(簡體書)
滿額折

SPSS Modeler+Weka數據挖掘從入門到實戰(簡體書)

人民幣定價:69 元
定  價:NT$ 414 元
優惠價:87360
缺貨無法訂購
相關商品
商品簡介
目次

商品簡介

本書是一本面向商業數據挖掘建模分析人員的教材,從具體的商業數據分析案例入手,幫助讀者掌握數據挖掘的目的、方法、工具與分析步驟。本書所採用的分析工具為目前頗受好評的IBM SPSS Modeler及開源軟件Weka。IBM SPSS Modeler有很好的用戶接口,也有不錯的分析功能,但缺乏比較前沿的分析模塊,以及很難與現有的信息系統結合,而Weka恰能彌補其缺憾。同時,這兩個軟件都不需要編程,適合初學者。本書具體內容由四位活躍在數據挖掘教學和項目開發一線的人員完成,內容側重軟件的實際操作。力圖將複雜的技術以淺顯的方式進行解釋,儘量避免涉及過多的數學內容。

目次

第1 篇 理論篇
第1 章 數據挖掘簡介 ................................................................................... 1
1.1 數據挖掘的起源、定義及目標 ....................................................................................... 2
1.2 數據挖掘的發展歷程 ....................................................................................................... 2
1.3 SPSS Modeler 和Weka 基礎操作 .................................................................................... 4
1.3.1 SPSS Modeler 軟件簡介 ....................................................................................... 4
1.3.2 建立一個SPSS Modeler 項目 .............................................................................. 5
1.3.3 Weka 軟件環境簡介 ............................................................................................. 8
1.3.4 Weka 簡單操作實例 ............................................................................................. 9

第2 章 數據挖掘方法論 .............................................................................. 15
2.1 數據挖掘方法論 ............................................................................................................. 16
2.1.1 CRISP-DM .......................................................................................................... 16
2.1.2 SEMMA .............................................................................................................. 16
2.2 數據庫中的知識挖掘步驟 ............................................................................................. 17
2.2.1 字段選擇 ............................................................................................................. 17
2.2.2 數據清洗 ............................................................................................................. 18
2.2.3 字段擴充 ............................................................................................................. 18
2.2.4 數據編碼 ............................................................................................................. 19
2.2.5 數據挖掘 ............................................................................................................. 20
2.2.6 結果呈現 ............................................................................................................. 21
2.3 案例:運用SPSS Modeler 和Weka 做客戶的信用風險評分模型 ............................. 22
2.3.1 案例說明 ............................................................................................................. 22
2.3.2 案例實操 ............................................................................................................. 23
2.3.3 運用SPSS Modeler 進行初步的數據挖掘 ........................................................ 28
2.3.4 運用Weka 進行數據匯入 .................................................................................. 34
2.3.5 Weka 自有數據存儲格式arff 簡介 ................................................................... 36

第3 章 基本的數據挖掘技術 ...................................................................... 38
3.1 描述性統計 ..................................................................................................................... 39
3.1.1 案例:通過數據判斷客戶是否需要新增電話線路 ......................................... 39
3.1.2 案例:運用描述性統計分析雜誌社的客戶特徵 ............................................. 40
3.2 可視化技術 ..................................................................................................................... 42
3.3 KNN 原理及實例 ........................................................................................................... 44
3.3.1 KNN(K 最近鄰)算法 ..................................................................................... 44
3.3.2 使用KNN 算法計算距離 .................................................................................. 45
3.3.3 案例:使用KNN 算法向用戶推薦電影 ........................................................... 49
3.4 案例:運用Weka 的KNN 算法對診斷結果進行預測 ..................................................... 52
3.4.1 案例說明 ............................................................................................................. 52
3.4.2 運用Weka 中的IBk 模型進行預測 .................................................................. 53
3.5 案例:運用SPSS Modeler 的KNN 算法預測客戶是否接受人壽保險推銷 ............. 58
3.5.1 案例說明 ............................................................................................................. 58
3.5.2 案例實操 ............................................................................................................. 59

第4 章 數據挖掘進階技術 .......................................................................... 68
4.1 數據挖掘的功能分類 ..................................................................................................... 69
4.1.1 描述型數據挖掘(無監督數據挖掘) ............................................................. 69
4.1.2 預測型數據挖掘(有監督數據挖掘) ............................................................. 70
4.2 數據挖掘的績效增益 ..................................................................................................... 72
4.2.1 數據挖掘模型評估指標:正確率、響應率、查全率、F 值 .......................... 72
4.2.2 數據挖掘模型評估指標:Gain Chart ................................................................ 74
4.2.3 數據挖掘模型評估指標:Lift Chart ................................................................. 75
4.2.4 數據挖掘模型評估指標:Profit Chart .............................................................. 76
4.3 數據挖掘網站 ................................................................................................................. 77
4.3.1 KDnuggets ........................................................................................................... 77
4.3.2 Kaggle ................................................................................................................. 80
4.4 案例:評估新產品的促銷活動效果 ............................................................................. 82
4.4.1 案例說明 ............................................................................................................. 83
4.4.2 數據及字段描述 ................................................................................................. 83
4.4.3 效能評估方式 ..................................................................................................... 85
4.4.4 比賽結果排名 ..................................................................................................... 85

第2 篇 準備篇
第5 章 數據預處理 ..................................................................................... 87
5.1 字段選擇 ......................................................................................................................... 88
5.1.1 數據整合 ............................................................................................................. 88
5.1.2 數據過濾 ............................................................................................................. 88
5.1.3 案例:運用SPSS Modeler 過濾數據 ................................................................ 89
5.2 數據清洗 ......................................................................................................................... 92
5.2.1 錯誤值的檢測及處理 ......................................................................................... 92
5.2.2 案例:運用SPSS Modeler 進行錯誤值的檢測及處理 .................................... 92
5.2.3 離群值的檢測及處理 ......................................................................................... 96
5.2.4 案例:運用SPSS Modeler 進行離群值的檢測及處理 .................................... 96
5.2.5 缺失值的檢測及處理 ....................................................................................... 100
5.2.6 案例:運用SPSS Modeler 進行缺失值的檢測及處理 .................................. 101
5.3 字段擴充 ........................................................................................................................110
5.3.1 案例說明 ............................................................................................................110
5.3.2 案例:運用SPSS Modeler 進行字段擴充及評估對效能的提升 ................... 111
5.4 數據編碼 ........................................................................................................................118
5.4.1 數據轉換 ............................................................................................................118
5.4.2 數據精簡 ........................................................................................................... 128
5.4.3 數據集的切割 ................................................................................................... 129

第6 章 關鍵變量挖掘技術 ........................................................................ 137
6.1 無效變量 ....................................................................................................................... 138
6.2 統計方式的變量選擇 ................................................................................................... 138
6.2.1 卡方檢驗 ........................................................................................................... 138
6.2.2 方差分析(ANOVA 檢驗)及t 檢驗 ............................................................. 138
6.2.3 案例:運用SPSS Modeler 進行關鍵變量挖掘 .............................................. 139
6.3 模型方式的變量選擇 ................................................................................................... 141
6.3.1 決策樹 ............................................................................................................... 141
6.3.2 Logistic 回歸 ..................................................................................................... 141

第7 章 貝葉斯網絡 ................................................................................... 143
7.1 樸素貝葉斯 ................................................................................................................... 144
7.1.1 獨立性假設 ....................................................................................................... 145
7.1.2 概率的離散化 ................................................................................................... 147
7.2 什麼是貝葉斯網絡 ....................................................................................................... 147

第8 章 線性回歸 ...................................................................................... 150
8.1 簡單線性回歸 ............................................................................................................... 151
8.2 多元回歸 ....................................................................................................................... 152
8.3 相關係數 ....................................................................................................................... 152
8.4 回歸分析案例 ............................................................................................................... 153
8.5 線性回歸模型評估 ....................................................................................................... 156
8.5.1 線性回歸模型評估指標:MAE、MSE 和RMSE ......................................... 156
8.5.2 線性回歸模型評估指標:R2 ........................................................................... 156
8.6 案例:運用SPSS Modeler 建立線性回歸模型 .......................................................... 157
8.6.1 案例說明 ........................................................................................................... 157
8.6.2 案例實操 ........................................................................................................... 157

第9 章 決策樹 .......................................................................................... 161
9.1 ID3 決策樹模型 ............................................................................................................ 162
9.2 ID3 算法........................................................................................................................ 165
9.2.1 ID3 算法的字段選擇方式 ................................................................................ 165
9.2.2 使用決策樹進行分類 ....................................................................................... 168
9.2.3 決策樹與決策規則之間的關係 ....................................................................... 168
9.2.4 ID3 算法的缺點 ................................................................................................ 169
9.3 C5.0 算法 ...................................................................................................................... 170
9.3.1 C5.0 算法的字段選擇方式 .............................................................................. 170
9.3.2 C5.0 算法的數值型字段處理方式 .................................................................. 170
9.3.3 C5.0 算法的剪枝方法 ...................................................................................... 172
9.4 CART 算法 ................................................................................................................... 173
9.4.1 分類樹與回歸樹 ............................................................................................... 174
9.4.2 CART 分類樹的字段選擇方式 ........................................................................ 174
9.4.3 CART 分類樹的剪枝作法 ................................................................................ 177
9.5 CHAID 算法 ................................................................................................................. 177
9.6 案例:運用SPSS Modeler 和Weka 建立決策樹模型 .................................................. 177
9.6.1 案例說明 ........................................................................................................... 177
9.6.2 案例實操 ........................................................................................................... 178
9.6.3 運用SPSS Modeler 建立交互式分類樹模型 .................................................. 179
9.6.4 運用Weka 建立交互式分類樹模型 ................................................................ 180
9.7 CART 回歸樹算法 ....................................................................................................... 186
9.7.1 CART 回歸樹的字段選擇方式 ........................................................................ 186
9.7.2 利用模型樹提升CART 回歸樹的效率 ........................................................... 187
9.8 案例:運用SPSS Modeler 和Weka 建立回歸樹模型 .................................................. 188
9.8.1 案例說明 ........................................................................................................... 188
9.8.2 案例實操 ........................................................................................................... 188
9.8.3 使用Weka 對比“剪枝”前後的模型 ............................................................ 189

第10 章 神經網絡 .................................................................................... 194
10.1 BP 神經網絡模型 ....................................................................................................... 195
10.1.1 BP 神經網絡模型的概念 ............................................................................. 195
10.1.2 BP 神經網絡模型的架構方式 ..................................................................... 195
10.2 神經元的組成 ............................................................................................................. 198
10.3 神經網絡模型如何傳遞信息 ..................................................................................... 199
10.4 修正神經網絡模型的權重值及常數項 ..................................................................... 200
10.5 BP 神經網絡模型與Logistic 回歸、線性回歸及非線性回歸之間的關係 ............. 201
10.6 案例:運用SPSS Modeler 建立類神經網絡模型 .................................................... 202

第11 章 Logistic 回歸 ............................................................................... 208
11.1 Logistic 回歸與BP 神經網絡的關係 ........................................................................ 210
11.2 Logistic 回歸的字段選擇方式 ....................................................................................211
11.2.1 前向法 ............................................................................................................211
11.2.2 後向法 ........................................................................................................... 212
11.2.3 逐步法 ........................................................................................................... 212
11.3 案例:運用SPSS Modeler 建立Logistic 回歸模型 ...................................................... 213
11.3.1 案例說明 ....................................................................................................... 213
11.3.2 案例實操 ....................................................................................................... 213

第12 章 支持向量機 ................................................................................. 215
12.1 數據是線性可分的支持向量機 ................................................................................. 217
12.2 數據是線性不可分的支持向量機 ............................................................................. 219
12.3 案例:運用SPSS Modeler 建立SVM 模型 ............................................................. 221

第3 篇 關係篇
第13 章 聚類分析 .................................................................................... 230
13.1 相似性度量 ................................................................................................................. 232
13.1.1 二元變量的相似性度量 ............................................................................... 232
13.1.2 類別型變量的相似性度量 ........................................................................ 234
13.1.3 數值型變量的相似性度量 ........................................................................... 234
13.2 聚類算法 ..................................................................................................................... 234
13.2.1 互斥聚類與非互斥聚類算法 ....................................................................... 234
13.2.2 分層聚類算法 ............................................................................................... 235
13.2.3 分割式聚類算法 ........................................................................................... 236
13.3 分層聚類算法 ............................................................................................................. 236
13.3.1 單一連接法 ................................................................................................... 236
13.3.2 完全連接法 ................................................................................................... 237
13.3.3 平均連接法 ................................................................................................... 238
13.3.4 中心法 ........................................................................................................... 238
13.3.5 Ward's 法(華德法).................................................................................. 239
13.4 分割式聚類算法 ......................................................................................................... 240
13.4.1 K-Means 算法 ............................................................................................... 240
13.4.2 K-Medoids 算法 ............................................................................................ 243
13.4.3 SOM 算法 ..................................................................................................... 243
13.4.4 兩步法 ........................................................................................................... 243
13.5 集群判斷 ..................................................................................................................... 244
13.5.1 集群判斷方法:R2 ....................................................................................... 244
13.5.2 集群判斷方法:半徑R2 .............................................................................. 245
13.5.3 集群判斷方法:均方根標準差(RMSSTD) ........................................... 245
13.6 案例:運用SPSS Modeler 建立聚類模型 ................................................................ 246
13.6.1 案例說明 ....................................................................................................... 246
13.6.2 案例實操 ....................................................................................................... 246

第14 章 關聯規則 .................................................................................... 252
14.1 關聯規則的概念 ......................................................................................................... 253
14.2 關聯規則的評估指標 ................................................................................................. 253
14.2.1 支持度 ........................................................................................................... 253
14.2.2 置信度 ........................................................................................................... 254
14.3 Apriori 算法 ................................................................................................................ 254
14.3.1 暴力法的問題 ............................................................................................... 254
14.3.2 Apriori 算法的理論基礎 .............................................................................. 255
14.4 Apriori 算法實例說明 ................................................................................................ 255
14.4.1 候選項目組合的產生 ................................................................................... 255
14.4.2 候選項目組合的刪除 ................................................................................... 256
14.5 再談評估指標 ............................................................................................................. 256
14.5.1 支持度與置信度的問題 ............................................................................... 256
14.5.2 提升度指標 ................................................................................................... 257
14.6 關聯規則的延伸 ......................................................................................................... 257
14.6.1 虛擬商品的加入 ........................................................................................... 257
14.6.2 負向關聯規則 ............................................................................................... 257
14.7 案例:運用SPSS Modeler 建立關聯規則模型 ........................................................ 258
14.7.1 案例說明 ....................................................................................................... 258
14.7.2 案例實操 ....................................................................................................... 258

第15 章 序列模型 .................................................................................... 263
15.1 序列模型的概念 ......................................................................................................... 264
15.2 案例:運用SPSS Modeler 建立序列模型 ................................................................ 266
15.2.1 案例說明 ....................................................................................................... 266
15.2.2 案例實操 ....................................................................................................... 266

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 360
缺貨無法訂購

暢銷榜

客服中心

收藏

會員專區