TOP
0
0
即日起~6/30,暑期閱讀書展,好書7折起
統計挖掘與機器學習:大數據預測建模和分析技術(原書第3版)(簡體書)
滿額折

統計挖掘與機器學習:大數據預測建模和分析技術(原書第3版)(簡體書)

商品資訊

人民幣定價:149 元
定價
:NT$ 894 元
優惠價
87778
領券後再享89折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:23 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

本書是一本區分統計數據挖掘和機器學習數據挖掘的圖書。它創造性地匯編了數據挖掘技術,解決了對經典和現代統計方法框架的擴展,用於預測建模和大數據分析。SM-DM為數據挖掘領域新晉的數據科學家所面臨的共同問題提供了適當的解決方案。它的展示側重於數據科學家(通常被稱為統計學家、數據采礦者和數據分析師)的需求,提供實用但又強大的、簡單而又有洞察力的量化技術,其中大部分使用了新機器學習影響改進的“舊”統計方法。

名人/編輯推薦

本書創造性地匯編了數據挖掘技術,將統計數據挖掘和機器學習數據挖掘進行了區分,對經典和現代統計方法框架進行了擴展,以用於預測建模和大數據分析。本書為數據挖掘領域新晉的數據科學家所面臨的共同問題提供了適當的解決方案,並側重於數據科學家的需求,提供了實用且強大、簡單而富有洞察力的量化技術,其中大部分使用了受新機器學習影響改進的“舊”統計方法。
在這本暢銷書的新版裡,作者大幅修改並重新組織章節內容,新增了一些富有創意且用途廣泛的機器學習數據挖掘技術方面的內容。簡單而有針對性的量化處理方法使得本書在數據挖掘圖書領域別具一格。

第3版前言
大數據的預測分析法在本書第2版出版之後的四年來一直保持著穩定的熱度。我之所以決定寫作新版,不是因為第2版的成功,而是因為我收到的大量正面反饋(讀者來信)。而且,重要的是,我需要分享解決問題的方法。這些問題還沒有被人們普遍接受的、可靠的或者已知的解決方案。與上一版一樣,約翰·圖基(John Tukey)原則是推進統計學的發展以及提高靈活性、實用性、創新性和普遍性所必需的,是各章介紹的新分析法和建模方法論的試金石。
第3版的主要目標如下:
1)擴充核心內容,包括解決問題的策略和方法,它們來自頂級預測分析學術會議和統計建模研討會,以及我對Statistics on the Table [1]的一些想法。
2)重新編輯現有章節,提高寫作質量;修改結尾部分,使內容更緊湊。
3)提供本書推薦的分析方法和建模的統計子程序。我使用Base SAS和STAT/SAS。這些子程序也可以從 http://wwwgeniqnet/articleshtml#section9下載,代碼很容易轉換成用戶喜歡的其他語言。
在第2版的基礎上,本書新增了13章,它們穿插在原來的章節中間,以最大限度地保證內容的連貫性。新章節如下:
第2章介紹統計學與數據科學。如果人們不留意,可能就會按下刪除鍵,刪掉統計學和統計學家,代之以科學和數據科學家。我討論了近期出現的術語—數據科學是否意味著統計學是一個發展更快的領域的子集合,或者數據科學是否掩蓋了當前的統計學應用狀況。
第8章介紹一個市場份額估算模型,其獨特之處是不采用常規的基於抽樣調研的市場份額情境分析,而是采用主成分分析(PCA)作為估算一個真實案例的市場份額的基礎。我提供了構建這個案例研究的市場份額模型的SAS子程序。
第11章介紹無抽樣調研數據預測錢包份額。這種預測錢包份額(SOW)的日常方法需要抽樣調研數據。由於抽樣調研工作耗時多、成本高,而且會出現不可靠數據,所以通常不采用。我提供了一種不需要數據就能預測SOW的兩步法。第一步定義一個準SOW並通過模擬法對總金額進行估算。第二步采用分數邏輯斯諦回歸法預測SOW_q,巧妙地將普通的邏輯斯諦回歸用於比例或比率不變的因變量。我給出了詳細的案例分析和SAS子程序,讀者會發現這種方法很有價值。
第19章提出了一種基於模型的潛在類別分析(LCA)聚類方法。這種細分的創新型策略包含在時間序列數據的應用之中。時間序列LCA模型是一種完全不同的方法,可以作為處理截面數據集中的時間序列數據的模板。這種LCA法可以替代目前流行的基於數據的啟發式k均值法。我提供了SAS子程序,數據挖掘人員可以用來執行與演示類似的市場細分工作。我還提供了一種將時間序列數據合並到其他截面數據集中的獨特方法。
隨後是第20章。文獻通常會介紹各種可以用來進行市場細分的聚類方法,而有關如何解讀細分結果的文獻卻寥寥無幾。這一章提供了一種理解客戶細分的便捷方法。我用一個常見的簡單例子說明新方法,以充分展示這種方法的威力。本章提供了執行這種新方法所用的SAS子程序,數據挖掘人員可以將這個有價值的統計技術收入工具箱。
第21章是第20章的擴展。本章的目的是提供一種理解統計回歸模型的簡單方法,即普通最小二乘法和邏輯斯諦回歸(LR)模型。我用一個LR模型演示了這種方法,展示了這種方法的威力。這種方法含有補充信息,用於彌補一直以來人們需要依靠回歸系數才能理解統計回歸模型的不足。我提供了SAS子程序,可以作為其他統計方法的一個有價值的補充。
第23章介紹大數據建模,接在使用CHAID作為歸因方法的章節之後。缺失的數據會警告統計學家:“除非你知道如何接納我,否則你毫無勝算。”在大數據出現之前,用傳統的基於數據的方法(完整案例分析)處理任何數據集都會出現問題。這些方法能否有效用於大數據分析令人懷疑。我提出了一個兩步法,即先用完整的響應數據建模,然後用PCA對不完整的響應數據建模。這兩個模型可以單獨使用,也可以與具體任務目標結合使用。我提供了這種方法的SAS子程序,它會成為統計建模者的一個有用工具。
第24章高度融合了藝術、科學、數字和詩歌,它們都受到了埃及金字塔、達·芬奇和愛因斯坦的啟發。這一章會引發你的思考。
第27章是對前一章的補充。營銷人員使用十分位分析評估他們的響應模型相對於隨機獲得的響應的可預測優勢。我定義了兩種新指標,即響應模型十分位分析精確度和隨機模型十分位精確度,可以讓營銷人員對響應模型的優缺點進行更深入的評估。我提供了構建這兩種新指標的SAS子程序,這會成為市場營銷統計學家的可靠工具。
第28章將評估響應模型的方法擴展到適當使用對照組(文獻中使用諸如提升或凈提升度模型這類名稱),以替代第27章中討論的隨機模型。有關凈提升度模型的文獻有很多,有些相互矛盾而且容易引起混淆。我提供了另一種方法—T-C凈提升度模型,這是一個簡單、直觀、可靠、易於實現和理解的模型,緩解了有關這個主題的文獻之間的不相容情況。我提供了T-C凈提升度模型的SAS子程序,統計學家可以用於建模,而不必購買昂貴的軟件。
對於統計學家來說,當踏上數據處理旅程時,第34章會給

目次

第3版前言
第2版前言
致謝
關於作者
第1章 引論 1
11 個人計算機與統計學 1
12 統計學和數據分析 2
13 EDA簡介 3
14 EDA範式 4
15 EDA的弱點 5
16 小數據和大數據 5
161 數據規模特征 6
162 數據規模:個人觀點 7
17 數據挖掘範式 7
18 統計學和機器學習 8
19 統計數據挖掘 9
參考資料 9
第2章 數據處理相關學科:統計學和數據科學 11
21 引言 11
22 背景 11
23 統計學與數據科學的比較 12
24 討論:統計學與數據科學的不同之處 18
25 本章小結 19
26 結語 19
參考資料 19
第3章 變量評估的兩種基本數據挖掘方法 21
31 引言 21
32 相關係數 21
33 散點圖 22
34 數據挖掘 24
341 示例31 24
342 示例32 24
35 平滑散點圖 25
36 一般關聯性檢驗 27
37 本章小結 28
參考資料 29
第4章 用於評估成對變量的基於CHAID的數據挖掘方法 30
41 引言 30
42 散點圖 30
43 平滑散點圖 31
44 CHAID入門 32
45 用更平滑的散點圖進行基於CHAID的數據挖掘 33
46 本章小結 36
參考資料 37
第5章 校直數據的簡單性和可取性對建模十分重要 38
51 引言 38
52 數據的直度和對稱度 38
53 數據挖掘是高級概念 39
54 相關係數 39
55 (xx3,yy3)散點圖 40
56 挖掘(xx3,yy3)關係 41
57 基於遺傳算法的數據挖掘如何處理數據 43
58 校直多個變量 43
59 本章小結 44
參考資料 44
第6章 排序數據對稱化:提高數據預測能力的統計數據挖掘方法 45
61 引言 45
62 量度範圍 45
63 莖葉圖 47
64 箱線圖 47
65 排序數據對稱處理方法的圖示 47
651 示例1 48
652 示例2 50
66 本章小結 56
參考資料 56
第7章 主成分分析:多變量評估的統計數據挖掘方法 57
71 引言 57
72 EDA重新表述範式 57
73 關鍵點 58
74 PCA基礎 58
75 示例詳解 58
76 PCA的代數特征 59
77 一個不常見示例 60
771 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61
772 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析結果 61
78 用PCA構造準交互變量 62
79 本章小結 66
第8章 市場份額估算:一個特殊的數據挖掘案例 67
81 引言 67
82 背景 67
83 一個特殊的數據挖掘案例 68
84 構建RAL的YUM市場份額模型 69
841 市場份額模型的十分位分析 76
842 YUM_3mos市場份額模型的結論 76
85 本章小結 77
附錄8A 生成 PROMO_Code啞變量 77
附錄8B PROMO_Code啞變量的PCA 77
附錄8C PROMO_Code啞變量上的邏輯斯諦回歸YUM_3mos 78
附錄8D 生成YUM_3mos_wo_PROMO_CodeEff 78
附錄 8E 將變量標準化為位於[0, 1]內 78
參考資料 79
第9章 相關係數在[-1,+1]內取值,是這樣嗎 80
91 引言 80
92 相關係數的基礎知識 80
93 計算相關係數 81
94 重新配對 82
95 計算經調整的相關係數 84
96 重新配對的意義 84
97 本章小結 84
第10章 邏輯斯諦回歸:響應建模方法 85
101 引言 85
102 邏輯斯諦回歸模型 86
1021 示例 86
1022 為LRM打分 87
103 案例分析 88
104 logit值和logit散點圖 89
105 校直數據的重要性 90
106 校直數據的重述 91
1061 冪階梯法 91
1062 突起規則 91
1063 測量校直數據 92
107 校直示例數據 92
1071 FD2_OPEN的重述 93
1072 INVESTMENT的重述 94
108 在突起規則不適用的情況下選用的技術 95
1081 擬合logit值散點圖 95
1082 平滑預測值與實際值散點圖 96
109 MOS_OPEN的重述 96
1010 評估變量的重要性 99
10101 計算G統計量 99
10102 單變量的重要性 100
10103 變量子集合的重要性 100
10104 不同變量子集合的重要性比較 100
1011 案例的重要變量 101
1012 變量的相對重要性 102
1013 案例變量的最佳子集合 103
1014 模型預測準確性的可視化指標 104
10141 得分組的平滑殘差散點圖 104
10142 基於十分位組的平滑預測與實際值散點圖 106
10....

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 778
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區