TOP
0
0
【簡體曬書節】 單本79折,5本7折,優惠只到5/31,點擊此處看更多!
大數據離線分析(簡體書)
滿額折

大數據離線分析(簡體書)

商品資訊

人民幣定價:35 元
定價
:NT$ 210 元
優惠價
87183
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:5 點
相關商品
商品簡介
目次
書摘/試閱

商品簡介

本書基于開源Hadoop大數據生態圈的主流離線分析工具Hive和Pig,通過技術講解和案例實戰相結合的方式,介紹了海量數據離線分析的技術方法。本書內容主要包括Hive數據庫表、基于HiveQL的常規操作、視圖、索引和Pig等數據處理分析和基礎工具知識,Hive函數、Pig Latin編程、ETL工具Sqoop和工作流引擎Oozie等相關高級技術,以及實際項目案例。本書既可供學習大數據離線分析技術的本科和高職高專學生作為教材,也可供從事數據分析相關工作的技術人員作為參考資料。

??大數據離線處理目前技術上已經成熟。Hadoop框架是主流技術,使用 HDFS存儲數據,使用 MapReduce做批量計算;需要數據倉庫的存入 Hive,然后從Hive進行分析和展現;涉及復雜業務場景時,使用Sqoop、Pig、Oozie等工具會更靈活方便。本書綜合了大數據離線分析所需的主流技術,并配以案例和豐富的輔助學習資源,足以滿足廣大學習者入門的需要。

目次

??

目錄

緒論001

章走進Hive003

1.1Hive簡介003

1.1.1Hive發展史003

1.1.2體系結構004

1.2Hive的安裝部署005

1.2.1安裝配置Hive005

1.2.2啟動Hive008

1.3Hive命令009

1.3.1Hive命令行選項009

1.3.2CLI命令行界面010

1.3.3Hive中CLI命令的快速編輯011

1.3.4Hive中的腳本011

1.3.5dfs命令的執行013

1.4數據類型和文件格式014

1.4.1基本數據類型014

1.4.2集合數據類型015

1.4.3文本文件數據編碼016

本章小結018

習題018

第2章HiveQL數據定義020

2.1數據庫的創建與查詢020

2.2數據庫的修改與刪除021

2.3創建表022

2.3.1管理表023

2.3.2外部表023

2.3.3查看表結構024

2.4修改表025

2.5刪除表026大數據

離線分析

目錄

2.6分區表027

2.6.1外部分區表028

2.6.2自定義表的存儲格式030

2.6.3增加、修改和刪除分區表031

2.7桶表031

本章小結032

習題033

第3章HiveQL數據操作034

3.1數據加載與導出034

3.1.1數據加載034

3.1.2數據導出036

3.2數據查詢037

3.2.1SELECT ... FROM語句037

3.2.2WHERE語句040

3.2.3GROUP BY語句與HAVING語句042

3.2.4JOIN語句043

3.2.5ORDER BY語句和SORT BY語句046

3.2.6CLUSTER BY語句047

3.2.7UNION ALL語句048

3.3抽樣查詢048

3.3.1數據塊抽樣049

3.3.2分桶表的輸入裁剪049

本章小結051

習題051

第4章HiveQL視圖和索引052

4.1視圖052

4.1.1創建視圖052

4.1.2顯示視圖053

4.1.3刪除視圖054

4.2索引054

4.2.1創建索引055

4.2.2重建索引055

4.2.3顯示索引056

4.2.4刪除索引056

本章小結057

習題057

第5章Hive的函數058

5.1函數簡介058

5.1.1發現和描述函數058

5.1.2調用函數059

5.1.3標準函數059

5.1.4聚合函數061

5.1.5表生成函數067

5.2用戶自定義函數UDF068

5.3用戶自定義聚合函數UDAF072

5.4用戶自定義表生成函數UDTF074

5.5UDF的標注075

5.5.1定數性標注(deterministic)076

5.5.2狀態性標注(stateful)076

5.5.3性標注(distinctLike)076

本章小結076

習題077

第6章認識Pig078

6.1初識Pig078

6.1.1Pig是什么078

6.1.2Pig的應用場景078

6.1.3Pig的設計思想079

6.1.4Pig的發展簡史080

6.2安裝、運行Pig080

6.2.1安裝Pig080

6.2.2運行Pig081

本章小結082

習題082

第7章Pig基礎084

7.1命令行工具Grunt084

7.1.1輸入Pig Latin腳本084

7.1.2使用HDFS命令085

7.1.3控制Pig087

7.2Pig數據類型088

7.2.1基本類型088

7.2.2復雜類型089

7.2.3NULL值089

7.2.4類型轉換090

本章小結092

習題092

第8章Pig Latin編程093

8.1Pig Latin介紹093

8.1.1基礎知識093

8.1.2輸入和輸出094

8.2關系操作095

8.2.1foreach語句096

8.2.2filter語句096

8.2.3group語句097

8.2.4order語句097

8.2.5distinct語句098

8.2.6join語句098

8.2.7limit語句098

8.2.8sample語句099

8.2.9parallel語句099

8.3用戶自定義函數UDF101

8.3.1注冊UDF102

8.3.2define命令和UDF103

8.3.3調用Java函數104

8.4開發工具104

8.4.1describe104

8.4.2explain105

8.4.3illustrate107

8.4.4Pig統計信息109

8.4.5M/R作業狀態信息111

8.4.6調試技巧112

本章小結113

習題113

第9章數據ETL工具Sqoop115

9.1安裝Sqoop115

9.2數據導入117

9.2.1導入實例118

9.2.2導入數據的使用119

9.2.3數據導入代碼生成120

9.3數據導出121

9.3.1導出實例121

9.3.2導出和SequenceFile123

本章小結123

習題124

0章Hadoop工作流引擎Oozie125

10.1Oozie是什么125

10.2Oozie的安裝125

10.3Oozie的編寫與運行131

10.3.1Workflow組件131

10.3.2Coordinator組件133

10.3.3Bundle組件134

10.3.4作業的部署與執行134

10.3.5向作業傳遞參數136

10.4Oozie控制臺136

10.4.1控制臺界面136

10.4.2獲取作業信息137

10.5Oozie的高級特性139

10.5.1自定義Oozie Workflow139

10.5.2使用Oozie JavaAPI141

本章小結143

習題143

1章離線計算實例145

11.1微博歷史數據分析145

11.1.1數據結構145

11.1.2需求分析146

11.1.3需求實現146

11.2電商銷售數據分析160

11.2.1數據結構160

11.2.2需求分析161

11.2.3需求實現161

本章小結169

參考文獻

書摘/試閱

??大數據離線處理目前技術上已經成熟。Hadoop框架是主流技術,使用 HDFS存儲數據,使用 MapReduce做批量計算;需要數據倉庫的存入 Hive,然后從Hive進行分析和展現;涉及復雜業務場景時,使用Sqoop、Pig、Oozie等工具會更靈活方便。本書綜合了大數據離線分析所需的主流技術,并配以案例和豐富的輔助學習資源,足以滿足廣大學習者入門的需要。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 183
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區