商品簡介
序
前言
麥肯錫全球研究所列出的大數據定義是:一種規模大到在取得、儲存、管理、分析方面大幅超出了傳統資料庫軟體工具能力範圍的資料集合,具有巨量的資料規模、快速的資料流程、多樣的資料型態和價值密度低四大特徵。
大數據技術的戰略意義不在於獲得了龐大的資料,而在於對這些特定領域的資料進行處理分析。換而言之,關鍵是把這些極大的資料實現盈利式的加工,提供效率,具有加值的處理模式。
本書背景
大數據像颶風一樣席捲而來,改變著資訊時代的資料處理方式。產業經營方式經歷著革命性的變革,大數據與雲端運算的融合改變著資料處理流程和模式,對網際網路、資訊經濟發展提出了新的方向和擴充空間。應用驅動技術發展產生的資料越多,可供分析的資料越多,越能推動研發和出現更先進的用來分析資料的工具和方法。
本書內容
本書圍繞網際網路重大的技術革命:雲端運算、大數據(未來世界新一代資訊技術的關鍵和核心)進行說明。雲端運算環境下大數據處理建置是國民經濟發展的資訊基礎設施,發展自主的雲端運算核心技術,擁有自己的資訊基礎設施,目前正處於重要的發展機遇期。本書重點在大數據與雲端運算的融合,列出了大數據與雲端運算的一些基本概念的同時,以Spark 為開發工具,全面說明雲環境下的大數據技術部署與典型案例演算法實現,最後介紹了經典Spark 大數據與雲端運算融合的架構與演算法。
本書目的
3 年前就開始著手準備寫大數據和雲端運算融合的相關技術方面的書,由於書中的演算法需要模擬驗證,所以交稿拖延了很長時間。目前還沒有全面融合兩者技術的書出現,這也是筆者想寫本書的初衷。隨著歲月侵蝕,白髮雜生,大數據技術發展也日新月異。
得益於國內IT 企業的後發制人戰略,目前IT 公司在大數據應用方面已經迎頭趕上國際巨頭,在雲端大數據技術方面的研發和技術突破經歷了大幅的跨越發展。當今世界迎來大數據時代,工欲善其事,必先利其器,在大數據和雲端運算的規則制定和新技術研發上還需努力,這方面還需要加強研發與突破。
致謝
感謝家人給我的全身心的支援與關愛,沒有你們的寬容與支援即使是10 年也無法完成這本書。由於撰寫時間緊迫,夜晚孤燈,每晚多想陪著妻子月夜樹影婆娑,多想在女兒的校門口等待她背著書包顛顛地跑來。最後感謝公司給予的大力支持與幫助。
目次
01 大數據處理概述 ►
1.1 大數據處理技術概述
1.2 資料採擷及其相關領域應用
1.3 大數據應用
1.4 平行計算簡介
1.5 Hadoop 介紹
1.6 本章小結
02 雲端運算時代 ►
2.1 雲端運算概述
2.2 雲端運算發展動力源泉
2.3 雲端運算技術分析
2.4 平行計算與雲端運算關係
2.5 雲端運算發展優勢
2.6 實雲端現遷移
2.7 本章小結
03 大數據與雲端運算關係 ►
3.1 雲端運算與大數據關係
3.2 大數據與雲端運算的融合是認識世界的新工具
3.3 大數據隱私保護是大數據雲端快速發展和運用的重要前提
3.4 大數據成就雲端運算價值
3.5 資料向雲端運算移轉
3.6 大數據清洗
3.7 雲端運算時代的資料整合技術
3.8 雲端推薦
3.9 本章小結
04 Spark 大數據處理基礎 ►
4.1 Spark 大數據處理技術
4.2 Spark 2.0.0 安裝設定
4.3 Spark 設定
4.4 Spark 模式部署概述
4.5 Spark Streaming 即時計算架構
4.6 Spark SQL 查詢、DataFrames 分散式資料集和Datasets API
4.7 Spark 起始點
4.8 Spark 資料來源
4.9 Spark 效能最佳化
4.10 分散式SQL 引擎
4.11 本章小結
05 Spark MLlib 機器學習演算法實現 ►
5.1 Spark MLlib 基礎
5.2 Spark MLlib 矩陣向量
5.3 Spark MLlib 線性回歸演算法
5.4 Spark MLlib 邏輯回歸演算法
5.5 Spark MLlib 單純貝氏分類演算法
5.6 Spark MLlib 決策樹演算法
5.7 Spark MLlib KMeans 分群演算法
5.8 Spark MLlib FPGrowth 連結規則演算法
5.9 Spark MLlib 協作過濾推薦演算法
5.10 Spark MLlib 神經網路演算法
5.11 本章小結
06 Spark 大數據架構系統部署 ►
6.1 大數據架構介紹
6.2 典型的商務使用場景
6.3 Spark 三種分散式部署模式
6.4 建立大數據架構
6.5 Spark 單一機器叢集部署
6.6 本章小結
07 Spark 大數據處理案例分析
7.1 Spark on Amazon EMR
7.2 Spark 在AWSKrux 的應用
7.3 Spark 在商業網站中的應用
7.4 Spark 在Yahoo! 的應用
7.5 Spark 在Amazon EC2 上執行
7.6 淘寶應用Spark on YARN 架構
7.7 騰訊雲大數據解決方案
7.8 雅虎開放原始碼TensorFlowOnSpark
7.9 阿里雲E-MapReduce
7.10 SequoiaDB+Spark 打造一體化大數據平台
7.11 本章小結
08 大數據發展展望 ►
8.1 大數據未來發展趨勢
8.2 大數據給人類帶來的認知衝擊
8.3 未來大數據研究突破的技術問題
8.4 本章小結
A Spark MLlib 神經網路演算法
B 參考文獻
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。