TOP
0
0
三民出版.新書搶先報|最速、最優惠的新鮮貨報給你知!
小白學數據挖掘與機器學習:SPSS Modeler案例篇(簡體書)
滿額折

小白學數據挖掘與機器學習:SPSS Modeler案例篇(簡體書)

商品資訊

人民幣定價:79 元
定價
:NT$ 474 元
優惠價
87412
絕版無法訂購
商品簡介
作者簡介
目次
相關商品

商品簡介

本書用生活中常見的例子、有趣的插圖和通俗的語言,把看上去晦澀難懂的數據挖掘與機器學習知識以通俗易懂的方式分享給讀者,讓讀者從入門學習階段就發現,原來數據挖掘與機器學習不但有用,還很有趣。本書以IBM SPSS Modeler作為案例實踐工具,首先介紹了數據挖掘的基本概念及數據挖掘方法,然後介紹了IBM SPSS Modeler工具的基本使用、數據探索、統計檢驗、回歸分析、分類算法、聚類算法、關聯規則、神經網絡以及集成學習。每一章都會以漫畫形式介紹一些日常小例子並作為切入點,用通俗的語言介紹具體的算法理論,同時在每章最後都附上應用案例,讓讀者更輕鬆地閱讀本書並掌握對應的算法和實踐操作。全書內容循序漸進,完整覆蓋了數據挖掘與機器學習的主要知識點,適合數據挖掘與機器學習入門讀者閱讀。

作者簡介

張浩彬,數據分析/數據挖掘專家,目前任職於國際商業機器(中國)有限公司認知計算部門,曾張浩彬,人稱浩彬老撕,曾任IBM大中華區商業智能事業部SPSS分析工程師,認知解決方案事業部數據分析專家,現任廣東柯內特環境科技有限公司首席數據科學家,致力機器學習及SPSS技術分享,專注於人工智能技術與應用。
微信公眾號:探數尋理(wetalkdata)

前言

浩彬老撕(作者網名),一個有趣的人。
數據挖掘與機器學習,一件好玩的事情。
IBM SPSS Modeler,一套有用的工具。

在日常生活和工作中,筆者經常會遇到有朋友面帶難色地諮詢:怎麼做數據挖掘?怎麼學習數據挖掘?筆者發現,大家都認識到,在這個大數據時代,數據挖掘是一項非常有用的技能,但與此同時,他們往往又會覺得學習數據挖掘與機器學習非常難,因為必須要花費大量的時間去重新學習數學知識以及各種編程技能。

對於這些困難,筆者當然理解,而且,隨著大數據的興起,市面上也出現了越來越多關於數據挖掘與機器學習方面的書籍。這些書籍固然都寫得很好,但是很多都是一上來就介紹統計理論和模型算法,未免又增加了初學者的畏難情緒。

就筆者看來,從海量數據中挖掘出有用的知識本來是一件很好玩的事情,而且看上去晦澀難懂的算法,其實也有接地氣的一面,只要找對學習方法和案例,數據挖掘與機器學習也可以像聽故事一樣有趣。也是基於這一點,筆者開始了個人公眾號以及本書的寫作,希望可以用生活中一些常見的例子和一些有趣的插圖及通俗的語言故事,把這些看上去晦澀的數據挖掘與機器學習知識通俗易懂的方式分享給讀者,希望讓讀者從入門學習階段就發現,原來數據挖掘與機器學習這件事情不但有用,而且還真的有趣。
本書採用IBM SPSS Modeler(以下簡稱SPSS Modeler)作為案例實踐工具。SPSS Modeler是業界公認的數據挖掘利器,它依據CRISP-DM 方法論,內置了豐富的數據挖掘算法,同時作為一款以“圖形化語法”的數據挖掘工具,它的最大優點就是在保證專業性的同時,很好地兼顧了易用性,相信讀者使用SPSS Modeler作為數據挖掘與機器學習入門工具,將能夠很快掌握實際的應用技巧。

本書特色
本書從結構上看,首先介紹了數據挖掘的基本概念以及數據挖掘方法論,接下來介紹了SPSS Modeler工具的基本使用、數據探索、統計檢驗、回歸分析、分類算法、聚類算法、關聯規則、神經網絡以及集成學習。全書內容循序漸進,完整覆蓋了數據挖掘與機器學習的主要知識點。

特別地,在每一章中都會以漫畫形式介紹一些日常小例子作為切入點,並用通俗的語言為讀者介紹具體的算法理論,同時在每章最後都附上應用案例,希望以這樣的形式幫助讀者更輕鬆地閱讀本書並掌握對應的算法和實踐操作。

致謝
感謝圖標網站http://www.easyicon.net/以及http://pictogram2.com/提供的原始素材,本書的插圖大部分來源於對這些原始素材的再創作。
感謝公眾號“探數尋理”的讀者的關注與支持。感謝IBM大中華區分析事業部周偉珠等多位同事的幫助和建議,是你們的建議讓本書變得更加完善。感謝柯內特環保大數據研究院院長龍力輝等多位書評作者,感謝你們能夠在百忙之中抽出時間閱讀書稿,並提出寶貴的建議。感謝電子工業出版社博文視點王靜老師的大力支持和辛勤工作,讓本書能夠順利出版。最後感謝我的家人和徐小白同學,也因為你們的支持和理解,本書才能順利出版。
聯繫方式和電子資源
由於筆者水平有限,本書難免會出現一些紕漏和不足之處,懇請各位讀者批評、指正。如果有任何意見和想法,歡迎掃描下方的二維碼或在微信中搜索“wetalkdata”,關注“探數尋理”公眾號,與筆者進行互動溝通,衷心感謝各位讀者的意見和建議。
讀者可以通過關注公眾號,回復“SPSS”獲取軟件試用版下載鏈接以及回復“案例數據”獲取本書所有章節對應的數據文件,以及數據模型文件。

目次

第 1 章 數據挖掘那些事兒 \ 1
1.1 當我們在談數據挖掘時,其實在討論什麼 \ 2
1.2 從 CRISP-DM 開啟數據挖掘實踐 \ 7

第 2 章 數據挖掘之利器:SPSS Modeler \ 17
2.1 SPSS Modeler 簡介 \ 18
2.2 SPSS Modeler 的下載與安裝 \ 21
2.3 SPSS Modeler 的主界面及基本操作 \ 23
2.3.1 SPSS Modeler 主界面介紹 \ 23
2.3.2 鼠標基本操作 \ 31
2.4 將 SPSS Modeler 連接到服務器端 \ 31

第 3 章 巧婦難為無米之炊:數據,數據! \ 34
3.1 數據的身份 \ 35
3.1.1 變量的測量級別 \ 35
3.1.2 變量的角色 \ 36
3.2 數據的讀取 \ 37
3.2.1 讀取 Excel 文件數據 \ 37
3.2.2 讀取變量文件數據 \ 38
3.2.3 讀取 SPSS Statistics(.sav)文件數據 \ 40
3.2.4 讀取數據庫數據 \ 42
3.3 數據的基本設定 \ 45
3.3.1 變量角色的設定 \ 45
3.3.2 字段的篩選及命名 \ 46
3.4 數據的集成 \ 47
3.4.1 數據的變量集成:合併節點 \ 47
3.4.2 數據的記錄集成:追加節點 \ 50

第 4 章 一點都不簡單的描述性統計分析 \ 53
4.1 分類變量的基本分析: “矩陣”節點 \ 54
4.2 連續變量的基本分析:數據審核節點 \ 57
4.2.1 連續變量基本分析指標介紹 \ 57
4.2.2 “數據審核”節點 \ 63

第 5 章 何為足夠大的差異:常用的統計檢驗 \ 67
5.1 假設檢驗 \ 68
5.1.1 假設檢驗的基本原理 \ 68
5.1.2 假設檢驗的一般步驟 \ 69
5.2 連續變量與分類變量之間的關係: t 檢驗 \ 70
5.2.1 兩組獨立樣本均值比較 \ 71
5.2.2 兩組配對樣本均值比較 \ 72
5.2.3 使用 t 檢驗的前提條件 \ 73
5.2.4 案例:使用均值比較分析電信客戶的流失情況 \ 73
5.3 兩個連續變量之間的關係:相關分析 \ 75
5.3.1 相關分析理論 \ 76
5.3.2 案例:使用相關分析研究居民消費水平與國內生產總值的相關關係 \ 77
5.4 兩個分類變量之間的關係:卡方檢驗 \ 80
5.4.1 卡方檢驗的原理 \ 80
5.4.2 卡方檢驗的前提條件 \ 82
5.4.3 案例:使用卡方檢驗研究兩個分類字段之間的關係 \ 82

第 6 章 從身高和體重的關係談起:回歸分析 \ 84
6.1 一元線性回歸分析 \ 85
6.1.1 分析因變量與自變量的關係,構建回歸模型 \ 85
6.1.2 估計模型係數,求解回歸模型 \ 87
6.1.3 對模型係數進行檢驗,確認模型有效性 \ 88
6.1.4 擬合優度檢驗,判斷模型解釋能力 \ 89
6.1.5 借助回歸模型進行預測 \ 90
6.2 多元線性回歸分析 \ 90
6.2.1 估計模型係數,求解回歸模型 \ 91
6.2.2 對模型參數進行檢驗,確認模型有效性 \ 92
6.2.3 擬合優度檢驗,判斷模型解釋能力 \ 94
6.2.4 模型的變量選擇 \ 95
6.3 使用線性回歸分析的注意事項 \ 97
6.4 案例:使用回歸分析研究影響房屋價格的重要因素 \ 98

第 7 章 回歸豈止這麼簡單:回歸模型的進一步擴展 \ 102
7.1 曲線回歸 \ 103
7.2 Logistic 回歸 \ 110
7.2.1 Logistic 回歸理論 \ 110
7.2.2 案例:使用 Logistic 回歸模型分析個人收入水平影響因素 \ 112

第 8 章 模型評估那些事兒:過擬合與欠擬合 \ 117
8.1 過擬合與欠擬合 \ 118
8.2 留出法與交叉驗證 \ 122
8.2.1 留出法與分層抽樣 \ 122
8.2.2 交叉驗證 \ 124

第 9 章 從看電影的思考到決策樹的生成 \ 126
9.1 決策樹概述 \ 127
9.2 決策樹生成 \ 129
9.2.1 從 ID3 算法到 C5.0 算法 \ 131
9.2.2 CART 算法 \ 134
9.3 決策樹的剪枝 \ 136
9.3.1 預剪枝策略 \ 137
9.3.2 後剪枝策略 \ 137
9.3.3 代價敏感學習 \ 138
9.4 案例:用決策樹分析客戶違約情況 \ 140
9.5 關於信息熵的擴展 \ 147

第 10 章 人工神經網絡:從人腦神經元開始 \ 151
10.1 從人腦神經元到人工神經網絡 \ 152
10.2 感知機 \ 154
10.3 人工神經網絡 \ 159
10.3.1 隱藏層的作用 \ 159
10.3.2 人工神經網絡算法 \ 160
10.4 案例:利用人工神經網絡分析某電信運營商的客戶流失情況 \ 164

第 11 章 物以類聚,人以群分:聚類分析 \ 172
11.1 聚類思想的概述 \ 173
11.2 聚類方法的關鍵:距離 \ 175
11.3 K-Means 算法 \ 176
11.3.1 K-Means 算法原理 \ 176
11.3.2 輪廓係數(Silhouette coefficient) \ 177
11.4 案例:利用 K-Means 算法對不同型號汽車的屬性進行聚類分群研究 \ 179

第 12 章 啤酒+尿布=關聯分析? \ 186
12.1 一個關於關聯分析的傳說 \ 187
12.2 關聯分析的基本概念 \ 188
12.3 關聯規則的有效性指標 \ 190
12.4 Apriori 算法 \ 192
12.4.1 生成頻繁項集 \ 193
12.4.2 生成關聯規則 \ 195
12.5 案例:利用 Apriori 算法對顧客的個人信息及購買記錄進行關聯分析 \ 195

第 13 章 三個臭皮匠,賽過諸葛亮:集成學習算法 \ 199
13.1 集成學習算法概述 \ 200
13.2 3 種不同的集成學習算法 \ 201
13.2.1 Bagging 算法 \ 201
13.2.2 Boosting 算法 \ 203
13.2.3 隨機森林 \ 204
13.3 集成學習算法實踐 \ 205
13.3.1 Bagging 算法和 Boosting 算法 \ 205
13.3.2 隨機森林 \ 211
13.3.3 集成學習算法結果比較 \ 214

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
絕版無法訂購

暢銷榜

客服中心

收藏

會員專區