TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
Hadoop權威指南(第2版)(簡體書)
滿額折

Hadoop權威指南(第2版)(簡體書)

人民幣定價:89 元
定  價:NT$ 534 元
優惠價:87465
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:13 點
相關商品
商品簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。全書共16章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統;Hadoop的I/O、MapReduce應用程序開發;MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何構建Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;Hive簡介;ZooKeeper簡介;開源工具Sqoop,最后還提供了豐富的案例分析。
本書是Hadoop權威參考,程序員可從中探索如何分析海量數據集,管理員可以從中了解如何安裝與運行Hadoop集群。

名人/編輯推薦



Google帝國的基石是什么?MapReduce算法!開源項目Hadoop作為它的一個具體實現,可以輕松用于構建和維護一個可靠性高、伸縮性強的分布式系統。
作 者Tom White作為Hadoop的項目負責人,通過自己對Hadoop和Hadoop社區的理解,化繁為簡,用淺顯易懂的語言介紹了Hadoop能做什么,怎 么做才能充分發揮Hadoop的優勢,Hadoop能夠和哪些開源工具結合使用。《Hadoop權威指南(第2版)》是一本主題豐富、講解透徹的權威參考 書,可幫助程序員了解分析海量數據集的細枝末節,幫助管理員掌握搭建和運行Hadoop集群的具體過程。
經過修訂和更新的第2版概述了 Hadoop的最新動態,例如Hive、sqoop和Avro等。書中還提供了案例分析來幫助讀者了解如何用Hadoop來解決具體的問題。如果想充分利 用數據,從中挖掘出有價值的見解或者觀點,毫無疑問,《Hadoop權威指南(第2版)(修訂升級版)》將是您不可或缺的重要參考。
“誰說大象不能跳舞?Hadoop-輕松應對海量數據存儲與分析所帶來的挑戰!”
使用Hadoop分布式文件系統(HDFS)來存儲大型數據集,然后用MapReduce對這些數據II執行分布式計算。Hadoop的數據和I/O構建塊(用于壓縮、數據完整性、序列化和持久處理)。
探究MapReduce應用開發中常見的陷阱和高級特性。設計,構建和管理Hadoop專用集群或在云上運行Hadoop。使用Pig這種高級的查詢語言來進行大規模數據處理。使用Hive(Hadoop的數據倉庫系統)來分析數據集。
使用HBase(Hadoop的數據庫)來處理結構化數據和半結構化數據。
深入介紹Zookeeper,一個用于構建分布式系統的協作類型工具箱。
Cloudera 是一家行業領先的Hadoop軟件和服務供應商。Clouderas Distribution forHadoop (CDH)是一個基于Apache Hadoop的綜合性數據管理平臺,Cloudera Enterprise則包括一些工具、平臺和支持,供生產環境中使用Hadoop時使用。



Google帝國的基石是什么?MapReduce算法!開源項目Hadoop作為它的一個具體實現,可以輕松用于構建和維護一個可靠性高、伸縮性強的分布式系統。
作 者Tom White作為Hadoop的項目負責人,通過自己對Hadoop和Hadoop社區的理解,化繁為簡,用淺顯易懂的語言介紹了Hadoop能做什么,怎 么做才能充分發揮Hadoop的優勢,Hadoop能夠和哪些開源工具結合使用。《Hadoop權威指南(第2版)》是一本主題豐富、講解透徹的權威參考 書,可幫助程序員了解分析海量數據集的細枝末節,幫助管理員掌握搭建和運行Hadoop集群的具體過程。
經過修訂和更新的第2版概述了 Hadoop的最新動態,例如Hive、sqoop和Avro等。書中還提供了案例分析來幫助讀者了解如何用Hadoop來解決具體的問題。如果想充分利 用數據,從中挖掘出有價值的見解或者觀點,毫無疑問,《Hadoop權威指南(第2版)(修訂升級版)》將是您不可或缺的重要參考。
“誰說大象不能跳舞?Hadoop-輕松應對海量數據存儲與分析所帶來的挑戰!”
使用Hadoop分布式文件系統(HDFS)來存儲大型數據集,然后用MapReduce對這些數據II執行分布式計算。Hadoop的數據和I/O構建塊(用于壓縮、數據完整性、序列化和持久處理)。
探究MapReduce應用開發中常見的陷阱和高級特性。設計,構建和管理Hadoop專用集群或在云上運行Hadoop。使用Pig這種高級的查詢語言來進行大規模數據處理。使用Hive(Hadoop的數據倉庫系統)來分析數據集。
使用HBase(Hadoop的數據庫)來處理結構化數據和半結構化數據。
深入介紹Zookeeper,一個用于構建分布式系統的協作類型工具箱。
Cloudera 是一家行業領先的Hadoop軟件和服務供應商。Clouderas Distribution forHadoop (CDH)是一個基于Apache Hadoop的綜合性數據管理平臺,Cloudera Enterprise則包括一些工具、平臺和支持,供生產環境中使用Hadoop時使用。


顯示全部信息

目次

第1章 初識Hadoop 1
數據!數據! 1
數據存儲與分析 3
與其他系統相比 4
關系型數據庫管理系統 4
網格計算 6
志愿計算 8
1.3.4 Hadoop 發展簡史 9
Apache Hadoop和Hadoop生態圈 12

第2章 關于MapReduce 15
一個氣象數據集 15
數據的格式 15
使用Unix工具進行數據分析 17
使用Hadoop分析數據 18
map階段和reduce階段 18
橫向擴展 27
合并函數 30
運行一個分布式的MapReduce作業 33
Hadoop的Streaming 33
Ruby版本 33
Python版本 36
Hadoop Pipes 37
編譯運行 38

第3章 Hadoop分布式文件系統 41
HDFS的設計 41
HDFS的概念 43
數據塊 43
namenode和datanode 44
命令行接口 45
基本文件系統操作 46
Hadoop文件系統 47
接口 49
Java接口 51
從Hadoop URL中讀取數據 51
通過FileSystem API讀取數據 52
寫入數據 55
目錄 57
查詢文件系統 57
刪除數據 62
數據流 62
文件讀取剖析 62
文件寫入剖析 65
一致模型 68
通過 distcp并行拷貝 70
保持 HDFS 集群的均衡 71
Hadoop的歸檔文件 71
使用Hadoop歸檔文件 72
不足 73

第4章 Hadoop I/O 75
數據完整性 75
HDFS的數據完整性 75
LocalFileSystem 76
ChecksumFileSystem 77
壓縮 77
codec 78
壓縮和輸入切分 83
在MapReduce中使用壓縮 84
序列化 86
Writable接口 87
Writable類 89
實現定制的Writable類型 96
序列化框架 101
Avro 103
依據文件的數據結構 116
寫入SequenceFile 117
MapFile 123

第5章 MapReduce應用開發 129
配置API 130
合并多個源文件 131
可變的擴展 132
配置開發環境 132
配置管理 132
輔助類GenericOptionsParser,Tool和ToolRunner 135
編寫單元測試 138
mapper 138
reducer 140
本地運行測試數據 141
在本地作業運行器上運行作業 141
測試驅動程序 145
在集群上運行 146
打包 146
啟動作業 146
MapReduce的Web界面 148
獲取結果 151
作業調試 153
使用遠程調試器 158
作業調優 160
分析任務 160
MapReduce的工作流 163
將問題分解成MapReduce作業 163
運行獨立的作業 165

第6章 MapReduce的工作機制 167
剖析MapReduce作業運行機制 167
作業的提交 167
作業的初始化 169
任務的分配 169
任務的執行 170
進度和狀態的更新 170
作業的完成 172
失敗 173
任務失敗 173
tasktracker失敗 175
jobtracker失敗 175
作業的調度 175
Fair Scheduler 176
Capacity Scheduler 177
shuffle和排序 177
map端 177
reduce端 179
配置的調優 180
任務的執行 183
推測式執行 183
重用JVM 184
跳過壞記錄 185
任務執行環境 186

第7章 MapReduce的類型與格式 189
MapReduce的類型 189
默認的MapReduce作業 192
輸入格式 198
輸入分片與記錄 198
文本輸入 209
二進制輸入 213
多種輸入 214
數據庫輸入(和輸出) 215
輸出格式 215
文本輸出 216
二進制輸出 216
多個輸出 217
延遲輸出 224
數據庫輸出 224

第8章 MapReduce的特性 225
計數器 225
內置計數器 225
用戶定義的Java計數器 227
用戶定義的Streaming計數器 232
排序 232
準備 232
部分排序 233
總排序 237
二次排序 241
聯接 247
map端聯接 247
reduce端聯接 249
邊數據分布 252
利用JobConf來配置作業 252
分布式緩存 253
MapReduce庫類 257

第9章 構建Hadoop集群 259
集群規范 259
網絡拓撲 261
集群的構建和安裝 263
安裝Java 264
創建Hadoop用戶 264
安裝Hadoop 264
測試安裝 265
SSH配置 265
Hadoop配置 266
配置管理 267
環境設置 269
Hadoop守護進程的關鍵屬性 273
Hadoop守護進程的地址和端口 278
Hadoop的其他屬性 279
創建用戶帳號 280
安全性 281
Kerberos和Hadoop 282
委托令牌 284
其他安全性改進 285
利用基準測試程序測試Hadoop集群 286
Hadoop基準測試程序 287
用戶的作業 289
云上的Hadoop 289
Amazon EC2上的Hadoop 290

第10章 管理Hadoop 293
HDFS 293
永久性數據結構 293
安全模式 298
日志審計 300
工具 300
監控 305
日志 305
度量 306
Java管理擴展(JMX) 309
維護 312
日常管理過程 312
委任節點和解除節點 313
升級 316

第11章 Pig簡介 321
安裝與運行Pig 322
執行類型 322
運行Pig程序 324
Grunt 324
Pig Latin編輯器 325
示例 325
生成示例 327
與數據庫比較 328
PigLatin 330
結構 330
語句 331
表達式 335
1.4.4 類型 336
模式 338
函數 342
用戶自定義函數 343
過濾UDF 343
計算UDF 347
加載UDF 348
數據處理操作 351
加載和存儲數據 351
過濾數據 352
分組與連接數據 354
對數據進行排序 359
組合和分割數據 360
Pig實戰 361
并行處理 361
參數代換 362

第12章 Hive 365
1.1 安裝Hive 366
1.1.1 Hive外殼環境 367
1.2 示例 368
1.3 運行Hive 369
1.3.1 配置Hive 369
1.3.2 Hive服務 371
1.3.3 Metastore 373
1.4 和傳統數據庫進行比較 375
1.4.1 讀時模式(Schema on Read)vs.寫時模式(Schema on Write) 376
1.4.2 更新、事務和索引 376
1.5 HiveQL 377
1.5.1 數據類型 378
1.5.2 操作和函數 380
1.6 表 381
1.6.1 托管表(Managed Tables)和外部表(External Tables) 381
1.6.2 分區(Partitions)和桶(Buckets) 383
1.6.3 存儲格式 387
1.6.4 導入數據 392
1.6.5 表的修改 394
1.6.6 表的丟棄 395
1.7 查詢數據 395
1.7.1 排序(Sorting)和聚集(Aggregating) 395
1.7.2 MapReduce腳本 396
1.7.3 連接 397
1.7.4 子查詢 400
1.7.5 視圖(view) 401
1.8 用戶定義函數(User-Defined Functions) 402
1.8.1 編寫UDF 403
1.8.2 編寫UDAF 405

第13章 HBase 411
2.1 HBasics 411
2.1.1 背景 412
2.2 概念 412
2.2.1 數據模型的“旋風之旅” 412
2.2.2 實現 413
2.3 安裝 416

序言

據2011年4月圣地亞哥大學公布的報告,2008年全球兩千七百萬臺服務器處理的數據量已達9.57ZB。如何有效管理和高效處理這些海量數據已成為當前亟待解決的問題。另外,三大類海量數據——商業數據、科學數據、網頁數據——的異構性(結構化數據、半結構化數據以及非結構化數據)又進一步加劇了海量數據處理的難度。2011年2月出版的《科學》雜志刊登專題“Special Online Collection: Dealing with Data”,圍繞著目前各類數據量的激增展開討論,認為海量數據的收集、維護和使用已成為科學研究的主要工作。對許多學科而言,海量數據處理意味著更嚴峻的挑戰,然而更好地管理和處理這些數據也將會獲得意想不到的收獲。關系型數據庫系統的研究在數據管理方面積累較多經驗。20世紀70年代,關系模型的提出以及IBM System R 和伯克利Ingres的成功開發,證明了關系型數據庫系統處理商業數據的優越性。20世紀80年代,由此模型派生出的IBM DB2,Sybase SQL Server、Oracle Database等以聯機事務處理(OLTP)為主的數據庫系統的蓬勃發展,使數據庫系統得以充分的商業化。20世紀90年代,W. H. Inmon提出的整合歷史數據,通過在線分析(OLAP)和數據挖掘等方法實現商業規劃、決策支持等商業智能服務的數據倉庫系統,為數據庫系統的應用翻開了嶄新的篇章。然而,面對當下的海量數據,這一近40年歷史、一體適用(one size fits all)的數據庫系統架構顯得老態龍鐘,力不從心,逐漸無法應對當前的需求。自從2003年以來,谷歌陸續發布GFS和MapReduce等高可擴展、高性能的分布式海量數據處理框架,并證明了該框架在處理海量網頁數據時的優越性。該框架實現了更高應用層次的抽象,使用戶無需關注復雜的內部工作機制,無需具備豐富的分布式系統知識及開發經驗,即可實現大規模分布式系統的部署與海量數據的并行處理。Apache Hadoop開源項目克隆了這一框架,推出了Hadoop系統。該系統已受到學術界和工業界的廣泛認可和采納,并孵化出眾多子項目(如Pig,Zookeeper和Hive等),日益形成一個易部署、易開發、功能齊全、性能優良的系統。華東師范大學海量計算研究所從2006年開始從事海量數據方面的研究,且在集群(288核,40TB存儲)上部署了Hadoop系統,并成功完成多項研究。多年來從事海量數據學術研究和項目實施的相關經歷,使得我們對Hadoop系統及其開發有了較深入的理解和認識,并在Hadoop部署、調優和優化等方面積累了豐富的經驗。2010年,Hadoop項目負責人Tom White的《Hadoop權威指南》出版第2版。這本書內容組織得很好,思路清晰,緊密結合了實際問題。于是,我們翻譯了本書,希望能為廣大的Hadoop管理者和使用者提供部分幫助。全書主要包括16章和3個附錄。本書的翻譯和審校由周傲英教授組織完成。參加翻譯工作的有周敏奇(第1~4章)、王曉玲(第5~7章)、金澈清(第8~10章及附錄A~C)、錢衛寧(第11~13章)、宮學慶(第14章&第15章)和張蓉(第16章)。

書摘/試閱

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 465
海外經銷商無庫存,到貨日平均30天至45天