數據科學與大數據技術導論(簡體書)
商品資訊
系列名:數據科學與工程技術叢書
ISBN13:9787111600343
出版社:機械工業出版社
作者:(美)凱西‧斯特拉
譯者:唐金川
出版日:2018/06/20
裝訂/頁數:平裝/175頁
規格:26cm*18.5cm (高/寬)
版次:一版
商品簡介
作者簡介
目次
相關商品
商品簡介
本書由3位資深數據科學家合作撰寫,非常適合用來入門數據科學。全書共分三部分,12章。第一部分(第1~3章)概述了數據科學及其歷史演變, Hadoop及其演進史,以及Hadoop生態系統中的各種工具;第二部分(第4~6章)討論了將數據集從外部源導入Hadoop的各種工具和技術,使用Hadoop進行數據再加工,以及大數據的可視化;第三部分(第7~12章)介紹了對機器學習的高層次理解,預測建模的基本算法和各種Hadoop工具,各種聚類分析,異常檢測的各種方法和算法,將數據科學應用于自然語言處理,以及Hadoop環境下數據科學的未來。
作者簡介
奧弗‧曼德勒維奇,Lendup公司的數據科學副總裁。
目次
目 錄
譯者序
序
前言
致謝
關於作者
第一部分 Hadoop中的數據科學概覽
第1章 數據科學概述2
1.1 數據科學究竟是什麼2
1.2 示例:搜索廣告3
1.3 數據科學史一瞥4
1.3.1 統計學與機器學習4
1.3.2 互聯網巨頭的創新5
1.3.3 現代企業中的數據科學6
1.4 數據科學家的成長之路6
1.4.1 數據工程師7
1.4.2 應用科學家7
1.4.3 過渡到數據科學家角色8
1.4.4 數據科學家的軟技能9
1.5 數據科學團隊的組建10
1.6 數據科學項目的生命週期11
1.6.1 問正確的問題11
1.6.2 數據攝取12
1.6.3 數據清洗:注重數據質量12
1.6.4 探索數據和設計模型特徵13
1.6.5 構建和調整模型13
1.6.6 部署到生產環境14
1.7 數據科學項目的管理14
1.8 小結15
第2章 數據科學用例16
2.1 大數據―變革的驅動力16
2.1.1 容量:更多可用數據17
2.1.2 多樣性:更多數據類型17
2.1.3 速度:快速數據攝取18
2.2 商業用例18
2.2.1 產品推薦18
2.2.2 客戶流失分析19
2.2.3 客戶細分19
2.2.4 銷售線索的優先級20
2.2.5 情感分析20
2.2.6 欺詐檢測21
2.2.7 預測維護22
2.2.8 購物籃分析22
2.2.9 預測醫學診斷23
2.2.10 預測患者再入院23
2.2.11 檢測異常訪問24
2.2.12 保險風險分析24
2.2.13 預測油氣井生產水平24
2.3 小結25
第3章 Hadoop與數據科學26
3.1 Hadoop 究竟為何物26
3.1.1 分布式文件系統27
3.1.2 資源管理器和調度程序28
3.1.3 分布式數據處理框架29
3.2 Hadoop的演進歷史31
3.3 數據科學的Hadoop工具32
3.3.1 Apache Sqoop33
3.3.2 Apache Flume33
3.3.3 Apache Hive34
3.3.4 Apache Pig35
3.3.5 Apache Spark36
3.3.6 R37
3.3.7 Python38
3.3.8 Java機器學習軟件包39
3.4 Hadoop為何對數據科學家有用39
3.4.1 成本有效的存儲39
3.4.2 讀取模式40
3.4.3 非結構化和半結構化數據40
3.4.4 多語言工具41
3.4.5 強大的調度和資源管理功能41
3.4.6 分布式系統抽象分層42
3.4.7 可擴展的模型創建42
3.4.8 模型的可擴展應用43
3.5 小結43
第二部分 用Hadoop準備和可視化數據
第4章 將數據導入Hadoop46
4.1 Hadoop數據湖46
4.2 Hadoop分布式文件系統47
4.3 直接傳輸文件到 HDFS48
4.4 將數據從文件導入Hive表49
4.5 使用Spark將數據導入Hive表52
4.5.1 使用Spark將CSV文件導入Hive52
4.5.2 使用Spark將JSON文件導入Hive54
4.6 使用Apache Sqoop獲取關係數據55
4.6.1 使用Sqoop導入和導出數據55
4.6.2 Apache Sqoop版本更改56
4.6.3 使用Sqoop版本2:基本示例57
4.7 使用Apache Flume獲取數據流63
4.8 使用Apache Oozie管理Hadoop工作和數據流67
4.9 Apache Falcon68
4.10 數據攝取的下一步是什麼69
4.11 小結70
第5章 使用 Hadoop 進行數據再加工 71
5.1 為什麼選擇Hadoop做數據再加工72
5.2 數據質量72
5.2.1 什麼是數據質量72
5.2.2 處理數據質量問題73
5.2.3 使用Hadoop進行數據質量控制76
5.3 特徵矩陣78
5.3.1 選擇“正確”的特徵78
5.3.2 抽樣:選擇實例79
5.3.3 生成特徵80
5.3.4 文本特徵81
5.3.5 時間序列特徵84
5.3.6 來自複雜數據類型的特徵84
5.3.7 特徵操作85
5.3.8 降維86
5.4 小結88
第6章 探索和可視化數據89
6.1 為什麼要可視化數據89
6.1.1 示例:可視化網絡吞吐量89
6.1.2 想像未曾發生的突破92
6.2 創建可視化93
6.2.1 對比圖94
6.2.2 組成圖96
6.2.3 分佈圖98
6.2.4 關係圖99
6.3 針對數據科學使用可視化101
6.4 流行的可視化工具101
6.4.1 R101
6.4.2 Python:Matplotlib、Seaborn和其他102
6.4.3 SAS102
6.4.4 Matlab103
6.4.5 Julia103
6.4.6 其他可視化工具103
6.5 使用Hadoop可視化大數據103
6.6 小結104
第三部分 使用Hadoop進行數據建模
第7章 Hadoop與機器學習106
7.1 機器學習概述106
7.2 術語107
7.3 機器學習中的任務類型107
7.4 大數據和機器學習108
7.5 機器學習工具109
7.6 機器學習和人工智能的未來110
7.7 小結110
第8章 預測建模111
8.1 預測建模概述111
8.2 分類與回歸112
8.3 評估預測模型113
8.3.1 評估分類器114
8.3.2 評估回歸模型116
8.3.3 交叉驗證117
8.4 有監督學習算法117
8.5 構建大數據預測模型的解決方案118
8.5.1 模型訓練118
8.5.2 批量預測120
8.5.3 實時預測120
8.6 示例:情感分析121
8.6.1 推文數據集121
8.6.2 數據準備122
8.6.3 特徵生成122
8.6.4 建立一個分類器125
8.7 小結126
第9章 聚類127
9.1 聚類概述127
9.2 聚類的使用128
9.3 設計相似性度量128
9.3.1 距離函數129
9.3.2 相似函數129
9.4 聚類算法130
9.5 示例:聚類算法131
9.5.1 k均值聚類131
9.5.2 LDA131
9.6 評估聚類和選擇集群數量132
9.7 構建大數據集群解決方案133
9.8 示例:使用LDA進行主題建模134
9.8.1 特徵生成135
9.8.2 運行 LDA136
9.9 小結137
譯者序
序
前言
致謝
關於作者
第一部分 Hadoop中的數據科學概覽
第1章 數據科學概述2
1.1 數據科學究竟是什麼2
1.2 示例:搜索廣告3
1.3 數據科學史一瞥4
1.3.1 統計學與機器學習4
1.3.2 互聯網巨頭的創新5
1.3.3 現代企業中的數據科學6
1.4 數據科學家的成長之路6
1.4.1 數據工程師7
1.4.2 應用科學家7
1.4.3 過渡到數據科學家角色8
1.4.4 數據科學家的軟技能9
1.5 數據科學團隊的組建10
1.6 數據科學項目的生命週期11
1.6.1 問正確的問題11
1.6.2 數據攝取12
1.6.3 數據清洗:注重數據質量12
1.6.4 探索數據和設計模型特徵13
1.6.5 構建和調整模型13
1.6.6 部署到生產環境14
1.7 數據科學項目的管理14
1.8 小結15
第2章 數據科學用例16
2.1 大數據―變革的驅動力16
2.1.1 容量:更多可用數據17
2.1.2 多樣性:更多數據類型17
2.1.3 速度:快速數據攝取18
2.2 商業用例18
2.2.1 產品推薦18
2.2.2 客戶流失分析19
2.2.3 客戶細分19
2.2.4 銷售線索的優先級20
2.2.5 情感分析20
2.2.6 欺詐檢測21
2.2.7 預測維護22
2.2.8 購物籃分析22
2.2.9 預測醫學診斷23
2.2.10 預測患者再入院23
2.2.11 檢測異常訪問24
2.2.12 保險風險分析24
2.2.13 預測油氣井生產水平24
2.3 小結25
第3章 Hadoop與數據科學26
3.1 Hadoop 究竟為何物26
3.1.1 分布式文件系統27
3.1.2 資源管理器和調度程序28
3.1.3 分布式數據處理框架29
3.2 Hadoop的演進歷史31
3.3 數據科學的Hadoop工具32
3.3.1 Apache Sqoop33
3.3.2 Apache Flume33
3.3.3 Apache Hive34
3.3.4 Apache Pig35
3.3.5 Apache Spark36
3.3.6 R37
3.3.7 Python38
3.3.8 Java機器學習軟件包39
3.4 Hadoop為何對數據科學家有用39
3.4.1 成本有效的存儲39
3.4.2 讀取模式40
3.4.3 非結構化和半結構化數據40
3.4.4 多語言工具41
3.4.5 強大的調度和資源管理功能41
3.4.6 分布式系統抽象分層42
3.4.7 可擴展的模型創建42
3.4.8 模型的可擴展應用43
3.5 小結43
第二部分 用Hadoop準備和可視化數據
第4章 將數據導入Hadoop46
4.1 Hadoop數據湖46
4.2 Hadoop分布式文件系統47
4.3 直接傳輸文件到 HDFS48
4.4 將數據從文件導入Hive表49
4.5 使用Spark將數據導入Hive表52
4.5.1 使用Spark將CSV文件導入Hive52
4.5.2 使用Spark將JSON文件導入Hive54
4.6 使用Apache Sqoop獲取關係數據55
4.6.1 使用Sqoop導入和導出數據55
4.6.2 Apache Sqoop版本更改56
4.6.3 使用Sqoop版本2:基本示例57
4.7 使用Apache Flume獲取數據流63
4.8 使用Apache Oozie管理Hadoop工作和數據流67
4.9 Apache Falcon68
4.10 數據攝取的下一步是什麼69
4.11 小結70
第5章 使用 Hadoop 進行數據再加工 71
5.1 為什麼選擇Hadoop做數據再加工72
5.2 數據質量72
5.2.1 什麼是數據質量72
5.2.2 處理數據質量問題73
5.2.3 使用Hadoop進行數據質量控制76
5.3 特徵矩陣78
5.3.1 選擇“正確”的特徵78
5.3.2 抽樣:選擇實例79
5.3.3 生成特徵80
5.3.4 文本特徵81
5.3.5 時間序列特徵84
5.3.6 來自複雜數據類型的特徵84
5.3.7 特徵操作85
5.3.8 降維86
5.4 小結88
第6章 探索和可視化數據89
6.1 為什麼要可視化數據89
6.1.1 示例:可視化網絡吞吐量89
6.1.2 想像未曾發生的突破92
6.2 創建可視化93
6.2.1 對比圖94
6.2.2 組成圖96
6.2.3 分佈圖98
6.2.4 關係圖99
6.3 針對數據科學使用可視化101
6.4 流行的可視化工具101
6.4.1 R101
6.4.2 Python:Matplotlib、Seaborn和其他102
6.4.3 SAS102
6.4.4 Matlab103
6.4.5 Julia103
6.4.6 其他可視化工具103
6.5 使用Hadoop可視化大數據103
6.6 小結104
第三部分 使用Hadoop進行數據建模
第7章 Hadoop與機器學習106
7.1 機器學習概述106
7.2 術語107
7.3 機器學習中的任務類型107
7.4 大數據和機器學習108
7.5 機器學習工具109
7.6 機器學習和人工智能的未來110
7.7 小結110
第8章 預測建模111
8.1 預測建模概述111
8.2 分類與回歸112
8.3 評估預測模型113
8.3.1 評估分類器114
8.3.2 評估回歸模型116
8.3.3 交叉驗證117
8.4 有監督學習算法117
8.5 構建大數據預測模型的解決方案118
8.5.1 模型訓練118
8.5.2 批量預測120
8.5.3 實時預測120
8.6 示例:情感分析121
8.6.1 推文數據集121
8.6.2 數據準備122
8.6.3 特徵生成122
8.6.4 建立一個分類器125
8.7 小結126
第9章 聚類127
9.1 聚類概述127
9.2 聚類的使用128
9.3 設計相似性度量128
9.3.1 距離函數129
9.3.2 相似函數129
9.4 聚類算法130
9.5 示例:聚類算法131
9.5.1 k均值聚類131
9.5.2 LDA131
9.6 評估聚類和選擇集群數量132
9.7 構建大數據集群解決方案133
9.8 示例:使用LDA進行主題建模134
9.8.1 特徵生成135
9.8.2 運行 LDA136
9.9 小結137
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。