商品簡介
作者簡介
目次
相關商品
商品簡介
本書旨在幫助讀者瞭解和掌握不同虛擬化Hadoop選擇的優缺點、虛擬化Hadoop的配置及其注意事項。本書共分15章,主要內容包括Hadoop平臺在企業轉型中扮演的重要角色、Hadoop基礎概念、YARN與HDFS、現代數據平臺、數據采集、Hadoop SQL引擎、Hadoop中的多租戶、虛擬化基礎、虛擬化Hadoop實踐、虛擬化Hadoop、虛擬化Hadoop主服務器、虛擬化Hadoop工作節點、私有雲中的Hadoop即服務、Hadoop安裝以及Hadoop Linux配置。
作者簡介
[美]喬治·特魯希略(George Trujillo), 是一名經驗豐富且具有高溝通能力的企業高管。他是變革管理專家,具備強大的領導力、批判性思維且善於用數據驅動決策。George在大數據和雲解決方案領域是國際公認的數據架構師和講師。他涉足的領域包括大數據架構、Hadoop(Hortonworks、Cloudera)、數據治理、數據庫模式設計、元數據管理、安全、NoSQL和商業智能(BI)。他擁有眾多的行業認證,其中包括Oracle雙ACE認證、Sun 微系統應用中間平臺Sun大使、VMware認可vExpert、VMware認證講師、MySQL蘇格拉底獎獲得者和MySQL認證數據庫管理員(DBA)。同時,他在用戶社區中的領導地位包括Independent Oracle Users Group(IOUG)董事會成員、IOUG Cloud SIG主席、RMOUG Big Data SIG主席、OracleFusion Council和Oracle BetaOracle Beta Leadership Council委員,並被IOUG推選加入“Oracles of Oracle”圈子,同時也是IOUG's Master Series演講大師。George的工作職位包含金融服務行業大數據架構副總裁、Hortonworks大數據專家、VMware Center of Excellence以及專業服務和培訓組織的CEO。
Charles Kim是Viscosity North America公司總裁,該公司是一家專門從事大數據、Oracle Exadata/RAC和虛擬化的利基諮詢機構。Charles是Hadoop大數據、Linux基礎架構、雲計算、虛擬化、工程化系統和Oracle集群技術方面的架構師。同時,Charles也是Oracle出版社、培生出版集團和Apress出版社Oracle、Hadoop和Linux技術領域的作者。他有Oracle、VMware、Red Hat Linux和Microsoft認證,在關鍵任務和關鍵業務系統上有超過23年的IT從業經歷。
Charles Kim是Viscosity North America公司總裁,該公司是一家專門從事大數據、Oracle Exadata/RAC和虛擬化的利基諮詢機構。Charles是Hadoop大數據、Linux基礎架構、雲計算、虛擬化、工程化系統和Oracle集群技術方面的架構師。同時,Charles也是Oracle出版社、培生出版集團和Apress出版社Oracle、Hadoop和Linux技術領域的作者。他有Oracle、VMware、Red Hat Linux和Microsoft認證,在關鍵任務和關鍵業務系統上有超過23年的IT從業經歷。
目次
第 1章 瞭解大數據的世界 1
1.1 數據革命 1
1.2 傳統數據系統 3
1.2.1 半結構化和非結構化數據 4
1.2.2 因果關係 6
1.2.3 數據挑戰 6
1.3 現代數據架構 14
1.4 組織轉型 15
1.5 行業轉型 17
1.6 小結 17
第 2章 Hadoop基礎概念 18
2.1 Hadoop中的數據類型 18
2.2 使用案例 19
2.3 什麼是Hadoop 20
2.4 Hadoop發行版本 25
2.5 Hadoop框架 25
2.6 NoSQL數據庫 29
2.7 Hadoop集群 33
2.8 Hadoop軟件進程 36
2.9 Hadoop生態中的角色 45
2.10 小結 48
第3章 YARN和HDFS 49
3.1 Hadoop分布式集群 49
3.2 Hadoop目錄結構 53
3.3 Hadoop分布式文件系統 54
3.3.1 YARN日誌 56
3.3.2 NameNode 57
3.3.3 DataNode 58
3.3.4 塊分佈 60
3.3.5 NameNode配置和元數據管理 62
3.4 機架感知 67
3.4.1 塊管理 67
3.4.2 均衡器 68
3.4.3 群集中的數據完整性維護 68
3.4.4 配額和垃圾桶 76
3.5 YARN和YARN處理模型 76
3.5.1 在YARN上運行應用 83
3.5.2 資源調度器 88
3.5.3 基準測試 92
3.5.4 TeraSort基準測試組件 94
3.6 小結 96
第4章 現代數據平臺 98
4.1 設計一個Hadoop集群 98
4.2 小結 115
第5章 數據提取 117
5.1 提取、加載和轉化 117
5.1.1 Sqoop:數據移動和SQL源 118
5.1.2 Flume:流數據 123
5.1.3 Oozie:計劃和工作流 140
5.1.4 Falcon:數據生命週期管理 145
5.1.5 Kafka:實時數據流 148
5.2 小結 156
第6章 Hadoop SQL引擎 157
6.1 SQL的起源 157
6.2 Hadoop中的SQL 158
6.3 Hadoop SQL引擎 159
6.4 感受Hive和Pig的樂趣 166
6.4.1 Hive 166
6.4.2 HCatalog 180
6.5 小結 187
第7章 Hadoop多租戶 188
7.1 保障訪問 189
7.1.1 認證 189
7.1.2 審計 194
7.1.3 授權 194
7.1.4 數據保護 196
7.1.5 數據隔離 203
7.1.6 進程隔離 211
7.2 小結 214
第8章 虛擬化基礎 215
8.1 Hadoop虛擬化的原因 216
8.2 小結 231
參考文獻 231
第9章 Hadoop虛擬化最佳實踐 232
9.1 有目的、有調理地進行Hadoop虛擬化 232
9.1.1 目的始於明確的目標 234
9.1.2 Hadoop不同層次虛擬化 234
9.1.3 行業最佳實踐 236
9.2 小結 249
第 10章 Hadoop虛擬化 250
10.1 如何管理Hadoop生態 251
10.1.1 構建敏捷和彈性的企業Hadoop平臺 252
10.1.2 澄清條款 252
10.1.3 從裸機到虛擬化的歷程 253
10.2 為何考慮Hadoop虛擬化 254
10.2.1 Hadoop虛擬化的好處 255
10.2.2 虛擬化可以跟本地運行一樣快甚至更快 256
10.2.3 協調和交叉目的專業化是未來 258
10.2.4 障礙可以是在企業之前 259
10.2.5 虛擬化不是全部或不是一個選項 259
10.2.6 快速配置並提高開發和測試環境質量 259
10.2.7 使用虛擬化提升高可用性 261
10.2.8 使用虛擬化處理Hadoop工作負載 261
10.2.9 基於雲的Hadoop 262
10.2.10 大數據擴展 262
10.2.11 虛擬化的途徑 263
10.2.12 軟件定義數據中心 264
10.2.13 虛擬化網絡 265
10.2.14 vRealize Suite 266
10.3 小結 267
參考文獻 268
第 11章 Hadoop虛擬化主服務器 269
11.1 Hadoop虛擬化集群服務器 269
11.1.1 Hadoop周邊環境虛擬化 270
11.1.2 Hadoop主服務器虛擬化 271
11.1.3 無SAN虛擬化 274
11.2 小結 275
第 12章 虛擬化工作節點 276
12.1 Hadoop中的工作節點 276
12.2 Hadoop集群的部署模式 277
12.2.1 組合模式 278
12.2.2 分離模式 281
12.2.3 數據-計算分離的網絡影響 283
12.2.4 數據-計算分離模式下的共享存儲方式 284
12.2.5 用於應用臨時數據的本地磁盤 286
12.2.6 使用網絡附加存儲(NAS)的共享存儲架構模型 286
12.2.7 部署模式總結 288
12.3 Hadoop虛擬化工作節點的最佳實踐 289
12.4 Hadoop虛擬化擴展 293
12.5 小結 296
參考文獻 296
資源 297
第 13章 私有雲中部署Hadoop即服務 298
13.1 雲概念 298
13.1.1 Hadoop的受益者 299
13.1.2 解決方案架構概述 303
13.2 小結 305
參考文獻 305
第 14章 掌握Hadoop的安裝 306
14.1 為正確的場景使用正確的解決方案 306
14.2 配置倉庫 308
14.2.1 安裝HDP2.2 310
14.2.2 環境準備 310
14.3 設置Hadoop配置 320
14.4 啟動HDFS和YARN 325
14.4.1 啟動YARN 327
14.4.2 驗證MapReduce功能 329
14.5 安裝和配置Hive 331
14.6 安裝和配置MySQL數據庫 331
14.7 安裝和配置Hive和HCatalog 331
14.8 小結 334
第 15章 為Hadoop配置Linux 336
15.1 支持的Linux平臺 337
15.2 不同部署模式 337
15.3 Linux黃金模板 337
15.3.1 構建企業級Linux Hadoop平臺 338
15.3.2 Linux版本選擇 341
15.4 最優Linux內核參數和系統設置 341
15.4.1 epoll 341
15.4.2 禁用交換空間 342
15.4.3 安裝過程中的安全性禁用 342
15.4.4 IO調度器調優 344
15.4.5 檢查透明大內存頁面配置 344
15.4.6 Limits.conf 344
15.4.7 RDM分區對齊 345
15.4.8 文件系統注意事項 345
15.4.9 XFS惰性計算參數 347
15.4.10 Mount選項 347
15.4.11 I/O調度器 348
15.4.12 磁盤讀寫選項 350
15.4.13 存儲基準測試 350
15.4.14 Java版本 351
15.4.15 設置NTP 351
15.4.16 啟用巨型幀 352
15.4.17 其他網絡方面的考慮 353
15.5 小結 355
附錄 Hadoop集群創建:先決條件檢查表 356
1.1 數據革命 1
1.2 傳統數據系統 3
1.2.1 半結構化和非結構化數據 4
1.2.2 因果關係 6
1.2.3 數據挑戰 6
1.3 現代數據架構 14
1.4 組織轉型 15
1.5 行業轉型 17
1.6 小結 17
第 2章 Hadoop基礎概念 18
2.1 Hadoop中的數據類型 18
2.2 使用案例 19
2.3 什麼是Hadoop 20
2.4 Hadoop發行版本 25
2.5 Hadoop框架 25
2.6 NoSQL數據庫 29
2.7 Hadoop集群 33
2.8 Hadoop軟件進程 36
2.9 Hadoop生態中的角色 45
2.10 小結 48
第3章 YARN和HDFS 49
3.1 Hadoop分布式集群 49
3.2 Hadoop目錄結構 53
3.3 Hadoop分布式文件系統 54
3.3.1 YARN日誌 56
3.3.2 NameNode 57
3.3.3 DataNode 58
3.3.4 塊分佈 60
3.3.5 NameNode配置和元數據管理 62
3.4 機架感知 67
3.4.1 塊管理 67
3.4.2 均衡器 68
3.4.3 群集中的數據完整性維護 68
3.4.4 配額和垃圾桶 76
3.5 YARN和YARN處理模型 76
3.5.1 在YARN上運行應用 83
3.5.2 資源調度器 88
3.5.3 基準測試 92
3.5.4 TeraSort基準測試組件 94
3.6 小結 96
第4章 現代數據平臺 98
4.1 設計一個Hadoop集群 98
4.2 小結 115
第5章 數據提取 117
5.1 提取、加載和轉化 117
5.1.1 Sqoop:數據移動和SQL源 118
5.1.2 Flume:流數據 123
5.1.3 Oozie:計劃和工作流 140
5.1.4 Falcon:數據生命週期管理 145
5.1.5 Kafka:實時數據流 148
5.2 小結 156
第6章 Hadoop SQL引擎 157
6.1 SQL的起源 157
6.2 Hadoop中的SQL 158
6.3 Hadoop SQL引擎 159
6.4 感受Hive和Pig的樂趣 166
6.4.1 Hive 166
6.4.2 HCatalog 180
6.5 小結 187
第7章 Hadoop多租戶 188
7.1 保障訪問 189
7.1.1 認證 189
7.1.2 審計 194
7.1.3 授權 194
7.1.4 數據保護 196
7.1.5 數據隔離 203
7.1.6 進程隔離 211
7.2 小結 214
第8章 虛擬化基礎 215
8.1 Hadoop虛擬化的原因 216
8.2 小結 231
參考文獻 231
第9章 Hadoop虛擬化最佳實踐 232
9.1 有目的、有調理地進行Hadoop虛擬化 232
9.1.1 目的始於明確的目標 234
9.1.2 Hadoop不同層次虛擬化 234
9.1.3 行業最佳實踐 236
9.2 小結 249
第 10章 Hadoop虛擬化 250
10.1 如何管理Hadoop生態 251
10.1.1 構建敏捷和彈性的企業Hadoop平臺 252
10.1.2 澄清條款 252
10.1.3 從裸機到虛擬化的歷程 253
10.2 為何考慮Hadoop虛擬化 254
10.2.1 Hadoop虛擬化的好處 255
10.2.2 虛擬化可以跟本地運行一樣快甚至更快 256
10.2.3 協調和交叉目的專業化是未來 258
10.2.4 障礙可以是在企業之前 259
10.2.5 虛擬化不是全部或不是一個選項 259
10.2.6 快速配置並提高開發和測試環境質量 259
10.2.7 使用虛擬化提升高可用性 261
10.2.8 使用虛擬化處理Hadoop工作負載 261
10.2.9 基於雲的Hadoop 262
10.2.10 大數據擴展 262
10.2.11 虛擬化的途徑 263
10.2.12 軟件定義數據中心 264
10.2.13 虛擬化網絡 265
10.2.14 vRealize Suite 266
10.3 小結 267
參考文獻 268
第 11章 Hadoop虛擬化主服務器 269
11.1 Hadoop虛擬化集群服務器 269
11.1.1 Hadoop周邊環境虛擬化 270
11.1.2 Hadoop主服務器虛擬化 271
11.1.3 無SAN虛擬化 274
11.2 小結 275
第 12章 虛擬化工作節點 276
12.1 Hadoop中的工作節點 276
12.2 Hadoop集群的部署模式 277
12.2.1 組合模式 278
12.2.2 分離模式 281
12.2.3 數據-計算分離的網絡影響 283
12.2.4 數據-計算分離模式下的共享存儲方式 284
12.2.5 用於應用臨時數據的本地磁盤 286
12.2.6 使用網絡附加存儲(NAS)的共享存儲架構模型 286
12.2.7 部署模式總結 288
12.3 Hadoop虛擬化工作節點的最佳實踐 289
12.4 Hadoop虛擬化擴展 293
12.5 小結 296
參考文獻 296
資源 297
第 13章 私有雲中部署Hadoop即服務 298
13.1 雲概念 298
13.1.1 Hadoop的受益者 299
13.1.2 解決方案架構概述 303
13.2 小結 305
參考文獻 305
第 14章 掌握Hadoop的安裝 306
14.1 為正確的場景使用正確的解決方案 306
14.2 配置倉庫 308
14.2.1 安裝HDP2.2 310
14.2.2 環境準備 310
14.3 設置Hadoop配置 320
14.4 啟動HDFS和YARN 325
14.4.1 啟動YARN 327
14.4.2 驗證MapReduce功能 329
14.5 安裝和配置Hive 331
14.6 安裝和配置MySQL數據庫 331
14.7 安裝和配置Hive和HCatalog 331
14.8 小結 334
第 15章 為Hadoop配置Linux 336
15.1 支持的Linux平臺 337
15.2 不同部署模式 337
15.3 Linux黃金模板 337
15.3.1 構建企業級Linux Hadoop平臺 338
15.3.2 Linux版本選擇 341
15.4 最優Linux內核參數和系統設置 341
15.4.1 epoll 341
15.4.2 禁用交換空間 342
15.4.3 安裝過程中的安全性禁用 342
15.4.4 IO調度器調優 344
15.4.5 檢查透明大內存頁面配置 344
15.4.6 Limits.conf 344
15.4.7 RDM分區對齊 345
15.4.8 文件系統注意事項 345
15.4.9 XFS惰性計算參數 347
15.4.10 Mount選項 347
15.4.11 I/O調度器 348
15.4.12 磁盤讀寫選項 350
15.4.13 存儲基準測試 350
15.4.14 Java版本 351
15.4.15 設置NTP 351
15.4.16 啟用巨型幀 352
15.4.17 其他網絡方面的考慮 353
15.5 小結 355
附錄 Hadoop集群創建:先決條件檢查表 356
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。