大數據分析實用教程:基於Python實現(簡體書)
商品資訊
系列名:面向新工科高等院校大數據專業系列教材
ISBN13:9787111682509
出版社:機械工業出版社
作者:唐四薪
出版日:2021/06/24
裝訂/頁數:平裝/238頁
規格:24cm*17cm (高/寬)
版次:一版
商品簡介
名人/編輯推薦
序
目次
相關商品
商品簡介
本書對大數據分析的原理與Python程序實現進行了系統的介紹,每種算法都采用sklearn和Matplotlib分別進行程序實現及數據可視化。本書共8章,內容包括大數據分析概述、Python數據分析與可視化基礎、關聯規則與推薦算法、聚類算法及其應用、分類算法及其應用、回歸與邏輯回歸、人工神經網絡、支持向量機等。
本書在理論上突出可讀性,在實踐上強調可操作性,實踐案例豐富,實用性強。隨書提供微課視頻(正文對應處掃碼可觀看)、教學課件、習題答案、教學大綱等教學資源。
本書可作為高等院校相關專業大數據分析或大數據概論等課程的教材。也可供從事大數據分析、機器學習的人員作為參考書。
本書在理論上突出可讀性,在實踐上強調可操作性,實踐案例豐富,實用性強。隨書提供微課視頻(正文對應處掃碼可觀看)、教學課件、習題答案、教學大綱等教學資源。
本書可作為高等院校相關專業大數據分析或大數據概論等課程的教材。也可供從事大數據分析、機器學習的人員作為參考書。
名人/編輯推薦
配套資源:電子課件、微課視頻、教學大綱、程序源代碼等全套教學資源
本書特色:
★詳解大數據分析的基本概念、原理及Python數據分析基礎知識。
★通過sklearn、Matplotlib,結合大量實例系統講解大數據分析方法。
序
前言
隨著物聯網和云計算技術的興起,大數據成為廣受關注的前沿技術領域。“十三五”規劃建議提出:“實施國家大數據戰略,推進數據資源開放共享”。著名咨詢公司麥肯錫稱:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”
大數據分析是實現大數據價值的關鍵環節,需要將大數據處理技術與數據分析、數據挖掘技術相結合。目前市面上有很多大數據分析或大數據挖掘的教材,這些教材大致可分為兩類:第一類以講解大數據分析的理論為主,而對大數據分析的編程實現講述得少。由於大數據分析的模型復雜,如果不講述編程實現,學生往往覺得將理論應用於實際問題時無從下手。另一類以講解大數據分析的編程為主,由於對理論講解過少,學生對程序往往很難理解,導致無法獨立編寫程序解決實際問題。
為了解決以上問題,並使大數據分析更加通俗易懂,本書將大數據分析的原理與編程實現融合在一起講述。本書的特色是對每種數據分析算法都介紹如何使用sklearn編寫程序來實現,sklearn庫是一種高度封裝的機器學習算法庫,所有的分類算法通常使用3~5行代碼就能實現,具有簡單易學的特點,通過學習sklearn能夠很好地加深對數據分析以及機器學習概念和模型的理解,並且掌握sklearn庫是學生進一步學習TensorFlow深度學習算法庫的基礎,因此學習sklearn庫的編程能幫助理解機器學習的基本原理。
本書其他特色如下:
1)與傳統數據分析的主要方法是統計學理論不同,大數據分析主要依靠機器學習,因此本書對機器學習的原理和步驟進行了通俗的闡述,力圖使學生理解機器學習的基本思想。
2)為了提高學生的學習興趣,本書所有sklearn程序均使用Matplotlib庫實現數據的可視化,具有較高實用價值。
3)本書在敘述有關基本理論時,安排了大量的例題和程序,主要目的是通過例題和程序讓學生能夠快速理解理論,達到融會貫通的目的。
4)大數據分析離不開大數據處理平臺,本書在第1章對Hadoop生態系統進行了較為系統的介紹,特別是對MapReduce並行編程框架做了實例講解。
5)本書是微課版,對於教材中一些比較復雜的軟件操作和需要用動畫才能描述清楚的算法步驟,本書提供了微課視頻,掃描相關內容旁邊的二維碼即可觀看。
本書既可以作為大數據分析的教材,也適合大數據相關專業作為大數據概論課程的教材。本書注重教材立體化建設,每章後都提供了豐富的習題,並為教師提供全面的配套資料(PPT課件、習題答案、考試試卷、教學大綱和實驗指導),可在本書配套網站上下載,也可在機工教育服務網下載,或者和作者聯系獲取。
本書由唐四薪、趙輝煌、唐瓊擔任主編,唐四薪編寫了第3章~第8章的內容。唐瓊編寫了第1章的部分內容,趙輝煌編寫了第2章的內容,參與編寫的還有譚曉蘭、劉燕群、唐滬湘、劉旭陽、陸彩琴、唐金娟、謝海波、唐佐芝、舒清健等,編寫了第1章的部分內容。
本書是湖南省普通高等學校教學改革研究項目(2020)“應用型本科院校程序設計類課程體系的重構與教學改革研究”的研究成果。
本書在編寫過程中參考了大量專家學者的圖書資料,編者已在參考文獻中列出,謹此致謝,若有疏漏,也在此表示歉意。由於編者水平和教學經驗有限,書中錯誤和把握不當之處在所難免,敬請廣大讀者和同行批評指正。
編 者
2021年3月
隨著物聯網和云計算技術的興起,大數據成為廣受關注的前沿技術領域。“十三五”規劃建議提出:“實施國家大數據戰略,推進數據資源開放共享”。著名咨詢公司麥肯錫稱:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”
大數據分析是實現大數據價值的關鍵環節,需要將大數據處理技術與數據分析、數據挖掘技術相結合。目前市面上有很多大數據分析或大數據挖掘的教材,這些教材大致可分為兩類:第一類以講解大數據分析的理論為主,而對大數據分析的編程實現講述得少。由於大數據分析的模型復雜,如果不講述編程實現,學生往往覺得將理論應用於實際問題時無從下手。另一類以講解大數據分析的編程為主,由於對理論講解過少,學生對程序往往很難理解,導致無法獨立編寫程序解決實際問題。
為了解決以上問題,並使大數據分析更加通俗易懂,本書將大數據分析的原理與編程實現融合在一起講述。本書的特色是對每種數據分析算法都介紹如何使用sklearn編寫程序來實現,sklearn庫是一種高度封裝的機器學習算法庫,所有的分類算法通常使用3~5行代碼就能實現,具有簡單易學的特點,通過學習sklearn能夠很好地加深對數據分析以及機器學習概念和模型的理解,並且掌握sklearn庫是學生進一步學習TensorFlow深度學習算法庫的基礎,因此學習sklearn庫的編程能幫助理解機器學習的基本原理。
本書其他特色如下:
1)與傳統數據分析的主要方法是統計學理論不同,大數據分析主要依靠機器學習,因此本書對機器學習的原理和步驟進行了通俗的闡述,力圖使學生理解機器學習的基本思想。
2)為了提高學生的學習興趣,本書所有sklearn程序均使用Matplotlib庫實現數據的可視化,具有較高實用價值。
3)本書在敘述有關基本理論時,安排了大量的例題和程序,主要目的是通過例題和程序讓學生能夠快速理解理論,達到融會貫通的目的。
4)大數據分析離不開大數據處理平臺,本書在第1章對Hadoop生態系統進行了較為系統的介紹,特別是對MapReduce並行編程框架做了實例講解。
5)本書是微課版,對於教材中一些比較復雜的軟件操作和需要用動畫才能描述清楚的算法步驟,本書提供了微課視頻,掃描相關內容旁邊的二維碼即可觀看。
本書既可以作為大數據分析的教材,也適合大數據相關專業作為大數據概論課程的教材。本書注重教材立體化建設,每章後都提供了豐富的習題,並為教師提供全面的配套資料(PPT課件、習題答案、考試試卷、教學大綱和實驗指導),可在本書配套網站上下載,也可在機工教育服務網下載,或者和作者聯系獲取。
本書由唐四薪、趙輝煌、唐瓊擔任主編,唐四薪編寫了第3章~第8章的內容。唐瓊編寫了第1章的部分內容,趙輝煌編寫了第2章的內容,參與編寫的還有譚曉蘭、劉燕群、唐滬湘、劉旭陽、陸彩琴、唐金娟、謝海波、唐佐芝、舒清健等,編寫了第1章的部分內容。
本書是湖南省普通高等學校教學改革研究項目(2020)“應用型本科院校程序設計類課程體系的重構與教學改革研究”的研究成果。
本書在編寫過程中參考了大量專家學者的圖書資料,編者已在參考文獻中列出,謹此致謝,若有疏漏,也在此表示歉意。由於編者水平和教學經驗有限,書中錯誤和把握不當之處在所難免,敬請廣大讀者和同行批評指正。
編 者
2021年3月
目次
目錄
出版說明
前言
第1章 大數據分析概述1
1.1 大數據概述1
1.1.1 大數據的定義和特征1
1.1.2 大數據處理的過程2
1.1.3 大數據的職業崗位4
1.2 云計算—大數據的處理架構4
1.2.1 云計算的定義和特點4
1.2.2 云計算的體系結構6
1.2.3 云計算的分類7
1.2.4 虛擬化技術9
1.3 Hadoop大數據處理平臺11
1.3.1 Hadoop的發展歷史及版本11
1.3.2 HDFS的組成13
1.3.3 HDFS讀取和寫入文件15
1.3.4 MapReduce並行編程框架16
1.3.5 YARN資源管理器19
1.3.6 Hadoop生態系統及其安裝22
1.4 NoSQL數據庫24
1.5 大數據分析技術26
1.5.1 大數據分析的方法26
1.5.2 大數據分析的種類27
1.5.3 大數據分析的層次28
1.5.4 大數據分析的工具29
1.5.5 大數據分析面臨的挑戰29
1.5.6 大數據分析的數據類型30
習題與實驗31
第2章 Python數據分析與可視化基礎34
2.1 Python程序入門34
2.1.1 一些簡單的Python程序34
2.1.2 序列數據結構36
2.1.3 序列處理函數37
2.1.4 函數和類38
2.2 Python數據分析工具41
2.2.1 Anaconda的使用41
2.2.2 Spyder集成開發環境42
2.2.3 numpy庫42
2.3 數據可視化—基於Matplotlib庫45
2.3.1 繪制曲線圖46
2.3.2 繪制散點圖等其他圖形50
2.4 SciPy庫54
2.5 sklearn庫56
2.5.1 機器學習的概念和方法56
2.5.2 樣本及樣本的劃分58
2.5.3 導入或創建數據集62
2.5.4 數據預處理65
2.5.5 數據的降維68
2.5.6 調用機器學習模型70
習題與實驗71
第3章 關聯規則與推薦算法73
3.1 關聯規則挖掘73
3.1.1 基本概念73
3.1.2 Apriori算法75
3.1.3 Apriori算法的程序實現79
3.1.4 FP-Growth算法80
3.2 推薦系統及算法83
3.2.1 協同過濾推薦算法84
3.2.2 協同過濾推薦算法應用實例86
3.2.3 推薦算法的MapReduce實現89
3.2.4 協同過濾算法的sklearn實現91
習題與實驗94
第4章 聚類算法及其應用96
4.1 聚類的原理與實現96
4.1.1 聚類的概念和類型96
4.1.2 如何度量距離96
4.1.3 聚類的基本步驟99
4.2 層次聚類算法103
4.2.1 層次聚類法舉例103
4.2.2 層次聚類法sklearn實現104
4.3 K-means聚類算法108
4.3.1 K-means聚類算法原理和實例108
4.3.2 K-means聚類算法的sklearn
實現114
4.4 K-medoids聚類算法115
4.4.1 K-medoids聚類算法原理和實例115
4.4.2 K-medoids聚類算法的sklearn
實現120
4.5 DBSCAN聚類算法121
4.5.1 DBSCAN聚類算法原理和實例121
4.5.2 DBSCAN聚類算法的sklearn
實現125
習題與實驗126
第5章 分類算法及其應用128
5.1 分類的基本原理128
5.1.1 分類與聚類的區別128
5.1.2 分類的步驟129
5.1.3 分類模型預測結果的評估131
5.1.4 sklearn庫的常用分類算法132
5.2 K-近鄰分類算法133
5.2.1 K-近鄰分類算法原理和實例133
5.2.2 sklearn中分類模型的編程步驟136
5.2.3 K-近鄰分類算法的sklearn實現138
5.2.4 繪制分類邊界圖139
5.2.5 確定最優的k值141
5.3 樸素貝葉斯分類算法142
5.3.1 樸素貝葉斯原理與實例143
5.3.2 樸素貝葉斯分類的常見問題146
5.3.3 樸素貝葉斯分類算法的sklearn
實現147
5.4 決策樹分類算法149
5.4.1 信息論基礎150
5.4.2 ID3算法153
5.4.3 C4.5算法157
5.4.4 CART算法160
5.4.5 決策樹分類算法的sklearn程序
實現162
5.5 隨機森林分類算法163
5.5.1 集成學習理論163
5.5.2 隨機森林分類的理論與實例165
5.5.3 隨機森林分類算法的sklearn
實現169
習題與實驗172
第6章 回歸與邏輯回歸174
6.1 線性回歸174
6.1.1 相關與回歸174
6.1.2 線性回歸分析175
6.1.3 線性回歸方程參數的求法177
6.1.4 線性回歸模型的sklearn實現181
6.2 邏輯回歸185
6.2.1 線性分類模型的原理185
6.2.2 邏輯回歸模型及實例187
6.2.3 邏輯回歸模型的sklearn實現190
習題與實驗195
第7章 人工神經網絡196
7.1 神經元與感知機196
7.1.1 人工神經元與邏輯回歸模型197
7.1.2 感知機模型197
7.1.3 感知機模型的Python實現199
7.1.4 多層感知機模型201
7.2 人工神經網絡的核心要素203
7.2.1 神經元的激活函數203
7.2.2 損失函數205
7.2.3 網絡結構206
7.2.4 反向傳播207
7.2.5 人工神經網絡的sklearn實現209
7.3 深度學習與深度神經網絡213
7.3.1 深度學習的概念和原理213
7.3.2 TensorFlow概述214
7.3.3 卷積神經網絡215
習題與實驗217
第8章 支持向量機219
8.1 支持向量機的理論基礎219
8.1.1 支持向量的超平面220
8.1.2 支持向量機間隔及損失函數221
8.1.3 非線性支持向量機與核函數226
8.1.4 支持向量機分類的步驟227
8.2 支持向量機的sklearn實現228
8.2.1 繪制決策邊界229
8.2.2 繪制支持向量機的分類界面230
8.2.3 支持向量機參數對性能的影響231
習題與實驗236
參考文獻238
出版說明
前言
第1章 大數據分析概述1
1.1 大數據概述1
1.1.1 大數據的定義和特征1
1.1.2 大數據處理的過程2
1.1.3 大數據的職業崗位4
1.2 云計算—大數據的處理架構4
1.2.1 云計算的定義和特點4
1.2.2 云計算的體系結構6
1.2.3 云計算的分類7
1.2.4 虛擬化技術9
1.3 Hadoop大數據處理平臺11
1.3.1 Hadoop的發展歷史及版本11
1.3.2 HDFS的組成13
1.3.3 HDFS讀取和寫入文件15
1.3.4 MapReduce並行編程框架16
1.3.5 YARN資源管理器19
1.3.6 Hadoop生態系統及其安裝22
1.4 NoSQL數據庫24
1.5 大數據分析技術26
1.5.1 大數據分析的方法26
1.5.2 大數據分析的種類27
1.5.3 大數據分析的層次28
1.5.4 大數據分析的工具29
1.5.5 大數據分析面臨的挑戰29
1.5.6 大數據分析的數據類型30
習題與實驗31
第2章 Python數據分析與可視化基礎34
2.1 Python程序入門34
2.1.1 一些簡單的Python程序34
2.1.2 序列數據結構36
2.1.3 序列處理函數37
2.1.4 函數和類38
2.2 Python數據分析工具41
2.2.1 Anaconda的使用41
2.2.2 Spyder集成開發環境42
2.2.3 numpy庫42
2.3 數據可視化—基於Matplotlib庫45
2.3.1 繪制曲線圖46
2.3.2 繪制散點圖等其他圖形50
2.4 SciPy庫54
2.5 sklearn庫56
2.5.1 機器學習的概念和方法56
2.5.2 樣本及樣本的劃分58
2.5.3 導入或創建數據集62
2.5.4 數據預處理65
2.5.5 數據的降維68
2.5.6 調用機器學習模型70
習題與實驗71
第3章 關聯規則與推薦算法73
3.1 關聯規則挖掘73
3.1.1 基本概念73
3.1.2 Apriori算法75
3.1.3 Apriori算法的程序實現79
3.1.4 FP-Growth算法80
3.2 推薦系統及算法83
3.2.1 協同過濾推薦算法84
3.2.2 協同過濾推薦算法應用實例86
3.2.3 推薦算法的MapReduce實現89
3.2.4 協同過濾算法的sklearn實現91
習題與實驗94
第4章 聚類算法及其應用96
4.1 聚類的原理與實現96
4.1.1 聚類的概念和類型96
4.1.2 如何度量距離96
4.1.3 聚類的基本步驟99
4.2 層次聚類算法103
4.2.1 層次聚類法舉例103
4.2.2 層次聚類法sklearn實現104
4.3 K-means聚類算法108
4.3.1 K-means聚類算法原理和實例108
4.3.2 K-means聚類算法的sklearn
實現114
4.4 K-medoids聚類算法115
4.4.1 K-medoids聚類算法原理和實例115
4.4.2 K-medoids聚類算法的sklearn
實現120
4.5 DBSCAN聚類算法121
4.5.1 DBSCAN聚類算法原理和實例121
4.5.2 DBSCAN聚類算法的sklearn
實現125
習題與實驗126
第5章 分類算法及其應用128
5.1 分類的基本原理128
5.1.1 分類與聚類的區別128
5.1.2 分類的步驟129
5.1.3 分類模型預測結果的評估131
5.1.4 sklearn庫的常用分類算法132
5.2 K-近鄰分類算法133
5.2.1 K-近鄰分類算法原理和實例133
5.2.2 sklearn中分類模型的編程步驟136
5.2.3 K-近鄰分類算法的sklearn實現138
5.2.4 繪制分類邊界圖139
5.2.5 確定最優的k值141
5.3 樸素貝葉斯分類算法142
5.3.1 樸素貝葉斯原理與實例143
5.3.2 樸素貝葉斯分類的常見問題146
5.3.3 樸素貝葉斯分類算法的sklearn
實現147
5.4 決策樹分類算法149
5.4.1 信息論基礎150
5.4.2 ID3算法153
5.4.3 C4.5算法157
5.4.4 CART算法160
5.4.5 決策樹分類算法的sklearn程序
實現162
5.5 隨機森林分類算法163
5.5.1 集成學習理論163
5.5.2 隨機森林分類的理論與實例165
5.5.3 隨機森林分類算法的sklearn
實現169
習題與實驗172
第6章 回歸與邏輯回歸174
6.1 線性回歸174
6.1.1 相關與回歸174
6.1.2 線性回歸分析175
6.1.3 線性回歸方程參數的求法177
6.1.4 線性回歸模型的sklearn實現181
6.2 邏輯回歸185
6.2.1 線性分類模型的原理185
6.2.2 邏輯回歸模型及實例187
6.2.3 邏輯回歸模型的sklearn實現190
習題與實驗195
第7章 人工神經網絡196
7.1 神經元與感知機196
7.1.1 人工神經元與邏輯回歸模型197
7.1.2 感知機模型197
7.1.3 感知機模型的Python實現199
7.1.4 多層感知機模型201
7.2 人工神經網絡的核心要素203
7.2.1 神經元的激活函數203
7.2.2 損失函數205
7.2.3 網絡結構206
7.2.4 反向傳播207
7.2.5 人工神經網絡的sklearn實現209
7.3 深度學習與深度神經網絡213
7.3.1 深度學習的概念和原理213
7.3.2 TensorFlow概述214
7.3.3 卷積神經網絡215
習題與實驗217
第8章 支持向量機219
8.1 支持向量機的理論基礎219
8.1.1 支持向量的超平面220
8.1.2 支持向量機間隔及損失函數221
8.1.3 非線性支持向量機與核函數226
8.1.4 支持向量機分類的步驟227
8.2 支持向量機的sklearn實現228
8.2.1 繪制決策邊界229
8.2.2 繪制支持向量機的分類界面230
8.2.3 支持向量機參數對性能的影響231
習題與實驗236
參考文獻238
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。