TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
實戰Hadoop:開啟通向雲計算的捷徑(簡體書)
滿額折

實戰Hadoop:開啟通向雲計算的捷徑(簡體書)

人民幣定價:59 元
定價
:NT$ 354 元
優惠價
87308
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:9 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

《實戰Hadoop:開啟通向云計算的捷徑》講述了:作為谷歌云計算基礎架構的模仿實現,Hadoop堪稱業界最經典的開源云計算平臺軟件。《實戰Hadoop:開啟通向云計算的捷徑》是原著的Hadoop編程技術書籍,是云計算專家劉鵬教授繼《云計算》教材取得成功後,再次組織團隊精心編寫的又一力作,其作者均來自擁有豐富實踐經驗的云計算技術研發和教學團隊。
該書強調動手、強調實戰,以風趣幽默的語言和一系列生動的實戰應用案例,系統地講授了Hadoop的核心技術和擴展技術,包括: HDFS、MapReduce、HBase、Hive、Pig、Cassandra、Chukwa和ZooKeeper等,并給出了3個完整的Hadoop云計算綜合應用實例,最後介紹了保障Hadoop平臺可靠性的方法。
《實戰Hadoop:開啟通向云計算的捷徑》讀者對象為各類云計算相關企業、高校和科研機構的研發人員,亦適合作為高校研究生和本科生教材。

作者簡介

劉鵬,清華大學博士,解放軍理工大學教授、學科帶頭人,中國云計算專家委員會委員。主要研究方向為信息網格和云計算,完成科研課題18項,發表論文70余篇,獲部級科技進步獎6項。曾奪得國際計算機排序比賽冠軍,并兩次奪得全國高校科技比賽最高獎,獲“全軍十大學習成才標兵”、“南京十大杰出青年”和“清華大學學術新秀”等稱號。2002年首倡的“網格計算池”和2003年研發的“反垃圾郵件網格”分別為云計算和云安全的前身。創辦了知名的中國網格(chinagrid.net)和中國云計算(chinacloud.cn)網站。

名人/編輯推薦

《實戰Hadoop:開啟通向云計算的捷徑》:云計算核心研發團隊剖析Hadoop:怎么裝?怎么編程?怎么解決實際問題?

目次

第1章 神奇的大象——Hadoop
1.1 初識神象
1.2 Hadoop初體驗
1.2.1 了解Hadoop的構架
1.2.2 查看Hadoop活動
1.3 Hadoop族群
1.4 Hadoop安裝
1.4.1 在Linux系統中安裝Hadoop
1.4.2 在Windows系統中安裝Hadoop
1.4.3 站在象背上說“hello”
1.4.4 Eclipse下的Hadoop應用開發
參考文獻

第2章 HDFS——不怕故障的海量存儲
2.1 開源的GFS——HDFS
2.1.1 設計前提與目標
2.1.2 HDFS體系結構
2.1.3 保障HDFS可靠性措施
2.2 HDFS常用操作
2.2.1 HDFS下的文件操作
2.2.2 管理與更新
2.3 HDFS API之旅
2.4 實戰:用HDFS存儲海量視頻數據
2.4.1 應用場景
2.4.2 設計實現
參考文獻

第3章 分久必合——MapReduce
3.1 MapReduce基礎
3.1.1 MapReduce編程模型
3.1.2 MapReduce的集群行為
3.2 樣例分析:單詞計數
3.2.1 WordCount源碼分析
3.2.2 WordCount處理過程
3.3 MapReduce,你夠了解嗎
3.3.1 沒有map、reduce的MapReduce
3.3.2 多少個Reducers最佳
3.4 實戰:倒排索引
3.4.1 倒排索引簡介
3.4.2 分析與設計
3.4.3 倒排索引完整源碼
參考文獻

第4章 一張無限大的表——HBase
4.1 HBase簡介
4.1.1 邏輯模型
4.1.2 物理模型
4.1.3 Region服務器
4.1.4 主服務器
4.1.5 元數據表
4.2 HBase入門
4.2.1 HBase的安裝配置
4.2.2 HBase用戶界面
4.3 HBase操作演練
4.3.1 基本shell操作
4.3.2 基本API使用
4.4 實戰:使用MapReduce構建HBase索引
4.4.1 索引表藍圖
4.4.2 HBase和MapReduce
4.4.3 實現索引
參考文獻

第5章 更上一層樓——MapReduce進階
5.1 簡介
5.2 復合鍵值對的使用
5.2.1 把小的鍵值對合并成大的鍵值對
5.2.2 巧用復合鍵讓系統完成排序
5.3 用戶定制數據類型
5.3.1 Hadoop內置的數據類型
5.3.2 用戶自定義數據類型的實現
5.4 用戶定制輸入/輸出格式
5.4.1 Hadoop內置的數據輸入格式和RecordReader
5.4.2 用戶定制數據輸入格式與RecordReader
5.4.3 Hadoop內置的數據輸出格式與RecordWriter
5.4.4 用戶定制數據輸出格式與RecordWriter
5.4.5 通過定制數據輸出格式實現多集合文件輸出
5.5 用戶定制Partitioner和Combiner
5.5.1 用戶定制Partitioner
5.5.2 用戶定制Combiner
5.6 組合式MapReduce計算作業
5.6.1 迭代MapReduce計算任務
5.6.2 順序組合式MapReduce作業的執行
5.6.3 具有復雜依賴關系的組合式MapReduce作業的執行
5.6.4 MapReduce前處理和後處理步驟的鏈式執行
5.7 多數據源的連接
5.7.1 基本問題數據示例
5.7.2 用DataJoin類實現Reduce端連接
5.7.3 用全局文件復制方法實現Map端連接
5.7.4 帶Map端過濾的Reduce端連接
5.7.5 多數據源連接解決方法的限制
5.8 全局參數/數據文件的傳遞與使用
5.8.1 全局作業參數的傳遞
5.8.2 查詢全局MapReduce作業屬性
5.8.3 全局數據文件的傳遞
5.9 關系數據庫的連接與訪問
5.9.1 從數據庫中輸入數據
5.9.2 向數據庫中輸出計算結果
參考文獻

第6章 Hive——飛進數據倉庫的小蜜蜂
6.1 Hive的組成
6.2 搭建蜂房——Hive安裝
6.3 Hive的服務
6.3.1 Hive shell
6.3.2 JDBC/ODBC支持
6.3.3 Thrift服務
6.3.4 Web接口
6.3.5 元數據服務
6.4 HiveQL的使用
6.4.1 HiveQL的數據類型
6.4.2 HiveQL常用操作
6.5 Hive示例
6.5.1 UDF編程示例
6.5.2 UDAF編程示例
6.6 實戰:基于Hive的Hadoop日志分析
參考文獻

第7章 Pig——一頭什么都能吃的豬
7.1 Pig的基本框架
7.2 Pig的安裝
7.2.1 開始安裝Pig
7.2.2 驗證安裝
7.3 Pig的使用
7.3.1 Pig的MapReduce模式
7.3.2 使用Pig
7.3.3 Pig的調試
7.4 Pig Latin編程語言
7.4.1 數據模型
7.4.2 數據類型
7.4.3 運算符
7.4.4 常用操作
7.4.5 用戶自定義函數
7.5 實戰:基于Pig的通話記錄查詢
7.5.1 應用場景
7.5.2 設計實現
參考文獻

第8章 Facebook的女神——Cassandra
8.1 洞察Cassandra的全貌
8.1.1 目標及特點
8.1.2 體系結構
8.1.3 存儲機制
8.1.4 數據操作過程
8.2 讓Cassandra飛
8.2.1 Windows 7下單機安裝
8.2.2 Linux下分布式安裝
8.3 Cassandra操作示例
8.3.1 客戶端命令代碼跟蹤
8.3.2 增刪Cassandra節點
8.3.3 Jconsole監控Cassandra
8.4 Cassandra與MapReduce結合
8.4.1 需求分析
8.4.2 編碼流程分析
8.4.3 MapReduce的核心代碼
參考文獻

第9章 Chukwa——收集數據的大烏龜
9.1 初識Chukwa
9.1.1 為什么需要Chukwa
9.1.2 什么是Chukwa
9.2 Chukwa架構與設計
9.2.1 代理與適配器
9.2.2 元數據
9.2.3 收集器
9.2.4 MapReduce作業
9.2.5 HICC
9.2.6 數據接口與支持
9.3 Chukwa安裝與配置
9.3.1 Chukwa安裝
9.3.2 源節點代理配置
9.3.3 收集器
9.3.4 Demux作業與HICC配置
9.4 Chukwa小試
9.4.1 數據生成
9.4.2 數據收集
9.4.3 數據處理
9.4.4 數據析取
9.4.5 數據稀釋
9.4.6 數據顯示
參考文獻

第10章 一統天下——ZooKeeper
10.1 Zookeeper是個謎
10.1.1 ZooKeeper工作原理
10.1.2 ZooKeeper的特性
10.2 ZooKeeper安裝和編程
10.2.1 ZooKeeper的安裝和配置
10.2.2 ZooKeeper的編程實現
10.3 ZooKeeper演練:進程調度系統
10.3.1 設計方案
10.3.2 設計實現
10.4 實戰演練:ZooKeeper實現NameNode自動切換
10.4.1 設計思想
10.4.2 詳細設計
10.4.3 編碼
10.4.4 實戰總結
參考文獻

第11章 綜合實戰1——打造一個搜索引擎
11.1 系統工作原理
11.2 網頁搜集與信息提取
11.2.1 網頁搜集
11.2.2 網頁信息的提取與存儲
11.3 基于MapReduce的預處理
11.3.1 元數據過濾
11.3.2 生成倒排文件
11.3.3 建立二級索引
11.3.4 小節
11.4 建立Web信息查詢服務
11.4.1 建立前臺查詢接口
11.4.2 後臺信息查詢與合并
11.4.3 返回顯示結果
11.5 系統優化
11.5.1 存儲方面的優化
11.5.2 計算方面的優化
11.6 本章總結
參考文獻

第12章 綜合實戰2——生物信息學應用
12.1 背景
12.2 總體框架
12.3 系統實現
12.3.1 序列數據庫的切分和存儲
12.3.2 構造單詞列表和掃描器
12.3.3 Map:掃描和擴展
12.3.4 主控程序
12.4 擴展性能測試
12.5 本章總結
參考文獻

第13章 綜合實戰3——移動通信信令監測與查詢
13.1 分析與設計
13.1.1 CDR數據文件的檢測與索引創建任務調度
13.1.2 從HDFS讀取數據并創建索引
13.1.3 查詢CDR信息
13.2 實現代碼
13.2.1 CDR文件檢測和索引創建任務調度程序
13.2.2 讀取CDR數據和索引創建處理
13.2.3 CDR查詢
13.3 本章總結
參考文獻

第14章 高枕無憂——Hadoop容錯
14.1 Hadoop的可靠性
14.1.1 HDFS中NameNode單點問題
14.1.2 HDFS數據塊副本機制
14.1.3 HDFS心跳機制
14.1.4 HDFS負載均衡
14.1.5 MapReduce容錯
14.2 Hadoop的SecondaryNameNode機制
14.2.1 磁盤鏡像與日志文件
14.2.2 SecondaryNameNode更新鏡像的流程
14.3 Avatar機制
14.3.1 系統架構
14.3.2 Avatar元數據同步機制
14.3.3 故障切換過程
14.3.4 Avatar運行流程
14.3.5 Avatar故障切換流程
14.4 Avatar實戰
14.4.1 實驗環境
14.4.2 編譯Avatar
14.4.3 Avatar安裝和配置
14.4.4 Avatar啟動運行與宕機切換
參考文獻

書摘/試閱

在對源文件進行功能性處理之前,有必要對11.2.2節生成的源文件進行一次預分析和過濾。主要原因有以下幾個。
(1)在遇到故障并恢復爬行後,爬蟲會從日志文件的最近一頁(一頁包含20個帖子)重新繼續爬取工作。從最近一頁爬取保證了帖子不被遺漏,但是會導致有些帖子被重復爬取(一般不會超過2次)。為保證索引時指定文件的唯一性,有必要過濾相同帖子的記錄,保證帖子的唯一性。
(2)爬取過程中,從遇到的帖子中抽取出的信息可能并不符合我們的要求,比如,源文件中可能會有之類的記錄。這樣的空信息記錄也必須過濾掉。
對源文件進行一次預分析和過濾以確保數據的完整性和正確性,可以避免後續步驟中由于數據不正確而引發的一些問題。對元數據進行預分析是海量數據處理過程中很必要也是很自然的一步。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 308
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區