評論

滿額折

Spark編程基礎(Scala版)（簡體書）

系列名：大數據創新人才培養系列
ISBN13：9787115488169
出版社：人民郵電出版社
作者：林子雨; 賴永炫; 陶繼平
出版日：2022/06/01
裝訂／頁數：平裝／246頁
規格：26cm*19cm (高/寬)
版次：一版
關鍵字： Spark編程基礎(Scala版)（簡體書）、 Spark、編程、基礎、 Scala、簡體、人民郵電出版社、林子雨、賴永炫、陶繼平、簡體書、工業技術、自動化技術、計算技術、數據處理、數據處理系統、

中國圖書館分類

：

數據處理、數據處理系統

人民幣定價：49.8 元

定價

：NT$ 299 元

優惠價

：87 折 260 元

領券後再享88折起

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：7 點

相關商品

商品簡介

作者簡介

商品簡介

本書以Scala作為開發Spark應用程序的編程語言，系統介紹了Spark編程的基礎知識。全書共8章，內容包括大數據技術概述、Scala語言基礎、Spark的設計與運行原理、Spark環境搭建和使用方法、RDD編程、Spark SQL、Spark Streaming、Spark MLlib等。

作者簡介

林子雨
廈門大學計算機科學系教師。2013年度和2017年度廈門大學教學類獎教金獲得者。中國計算機學會數據庫專業委員會委員，中國計算機學會信息系統專業委員會委員，廈門大學數據庫實驗室負責人，數據中國“百校工程”教育部專家組成員。國內高校“數字教師”的提出者和建設者，編著出版了國內高校系統介紹大數據知識的專業教材《大數據技術原理與應用》，成為國內眾多高校開課教材，同時建設了國內高校大數據課程公共服務平臺，為教師教學和學生學習大數據課程免費提供全方位、一站式服務，平臺每年訪問量超過100萬次，成為國內高校大數據教學知名品牌。
"

第1章　大數據技術概述　1
　1.1 大數據的概念與關鍵技術　2
1.1.1　大數據的概念　2
1.1.2　大數據關鍵技術　2
　1.2 代表性大數據技術　4
1.2.1　Hadoop　4
1.2.2　Spark　8
1.2.3　Flink　10
1.2.4　Beam　11
　1.3 編程語言的選擇　12
　1.4 在線資源　13
　1.5 本章小結　14
　1.6 習題　14
　實驗1 Linux系統的安裝和常用命令　15
一、實驗目的　15
二、實驗平臺　15
三、實驗內容和要求　15
四、實驗報告　16
第2章　Scala語言基礎　17
　2.1 Scala語言概述　18
2.1.1　計算機的緣起　18
2.1.2　編程範式　19
2.1.3　Scala簡介　20
2.1.4　Scala的安裝　21
2.1.5　HelloWorld　21
　2.2 Scala基礎知識　23
2.2.1　基本數據類型和變量　23
2.2.2　輸入/輸出　26
2.2.3　控制結構　28
2.2.4　數據結構　31
　2.3 面向對象編程基礎　37
2.3.1　類　37
2.3.2　對象　42
2.3.3　繼承　47
2.3.4　參數化類型　50
2.3.5　特質　52
2.3.6　模式匹配　55
2.3.7　包　58
　2.4 函數式編程基礎　59
2.4.1　函數的定義與使用　60
2.4.2　高階函數　61
2.4.3　閉包　62
2.4.4　偏應用函數和Curry化　62
2.4.5　針對容器的操作　64
2.4.6　函數式編程實例　69
　2.5 本章小結　70
　2.6 習題　70
　實驗2 Scala編程初級實踐　71
一、實驗目的　71
二、實驗平臺　71
三、實驗內容和要求　72
四、實驗報告　75
第3章　Spark的設計與運行原理　76
　3.1 概述　77
　3.2 Spark生態系統　78
　3.3 Spark運行架構　79
3.3.1　基本概念　79
3.3.2　架構設計　80
3.3.3　Spark運行基本流程　81
3.3.4　RDD的設計與運行原理　82
　3.4 Spark的部署方式　91
　3.5 本章小結　92
　3.6 習題　93
第4章　Spark環境搭建和使用方法　94
　4.1 安裝Spark　95
4.1.1　基礎環境　95
4.1.2　下載安裝文件　95
4.1.3　配置相關文件　96
4.1.4　Spark和Hadoop的交互　97
　4.2 在spark-shell中運行代碼　97
4.2.1　spark-shell命令　98
4.2.2　啟動spark-shell　99
　4.3 開發Spark獨立應用程序　99
4.3.1　安裝編譯打包工具　100
4.3.2　編寫Spark應用程序代碼　101
4.3.3　編譯打包　101
4.3.4　通過spark-submit運行程序　104
　4.4 Spark集群環境搭建　104
4.4.1　集群概況　105
4.4.2　搭建Hadoop集群　105
4.4.3　在集群中安裝Spark　106
4.4.4　配置環境變量　106
4.4.5　Spark的配置　106
4.4.6　啟動Spark集群　107
4.4.7　關閉Spark集群　107
　4.5 在集群上運行Spark應用程序　108
4.5.1　啟動Spark集群　108
4.5.2　採用獨立集群管理器　108
4.5.3　採用Hadoop YARN管理器　109
　4.6 本章小結　110
　4.7 習題　111
　實驗3 Spark和Hadoop的安裝　111
一、實驗目的　111
二、實驗平臺　111
三、實驗內容和要求　111
四、實驗報告　112
第5章　RDD編程　113
　5.1 RDD編程基礎　114
5.1.1　RDD創建　114
5.1.2　RDD操作　115
5.1.3　持久化　121
5.1.4　分區　122
5.1.5　一個綜合實例　126
　5.2 鍵值對RDD　128
5.2.1　鍵值對RDD的創建　128
5.2.2　常用的鍵值對轉換操作　129
5.2.3　一個綜合實例　133
　5.3 數據讀寫　134
5.3.1　文件數據讀寫　135
5.3.2　讀寫HBase數據　137
　5.4 綜合實例　141
5.4.1　求TOP值　141
5.4.2　文件排序　143
5.4.3　二次排序　144
　5.5 本章小結　146
　實驗4 RDD編程初級實踐　146
一、實驗目的　146
二、實驗平臺　146
三、實驗內容和要求　146
四、實驗報告　148
第6章　Spark SQL　149
　6.1 Spark SQL簡介　150
6.1.1　從Shark說起　150
6.1.2　Spark SQL架構　151
6.1.3　為什麼推出Spark SQL　152
　6.2 DataFrame概述　152
　6.3 DataFrame的創建　153
　6.4 DataFrame的保存　154
　6.5 DataFrame的常用操作　155
　6.6 從RDD轉換得到DataFrame　156
6.6.1　利用反射機制推斷RDD模式　157
6.6.2　使用編程方式定義RDD模式　158
　6.7 使用Spark SQL讀寫數據庫　160
6.7.1　通過JDBC連接數據庫　160
6.7.2　連接Hive讀寫數據　162
　6.8 本章小結　166
　6.9 習題　166
　實驗5 Spark SQL編程初級實踐　167
一、實驗目的　167
二、實驗平臺　167
三、實驗內容和要求　167
四、實驗報告　168
第7章　Spark Streaming　169
　7.1 流計算概述　170
7.1.1　靜態數據和流數據　170
7.1.2　批量計算和實時計算　171
7.1.3　流計算概念　171
7.1.4　流計算框架　172
7.1.5　流計算處理流程　173
　7.2 Spark Streaming　174
7.2.1　Spark Streaming設計　174
7.2.2　Spark Streaming與Storm的對比　175
7.2.3　從“Hadoop+Storm”架構轉向Spark架構　176
　7.3 DStream操作概述　177
7.3.1　Spark Streaming工作機制　177
7.3.2　編寫Spark Streaming程序的基本步驟　178
7.3.3　創建StreamingContext對象　178
　7.4 基本輸入源　179
7.4.1　文件流　179
7.4.2　套接字流　181
7.4.3　RDD隊列流　186
　7.5 高級數據源　187
7.5.1　Kafka簡介　188
7.5.2　Kafka準備工作　188
7.5.3　Spark準備工作　189
7.5.4　編寫Spark Streaming程序使用Kafka數據源　190
　7.6 轉換操作　194
7.6.1　DStream無狀態轉換操作　194
7.6.2　DStream有狀態轉換操作　195
　7.7 輸出操作　199
7.7.1　把DStream輸出到文本文件中　199
7.7.2　把DStream寫入到關系數據庫中　200
　7.8 本章小結　202
　7.9 習題　202
實驗6　Spark Streaming編程初級實踐　203
一、實驗目的　203
二、實驗平臺　203
三、實驗內容和要求　203
四、實驗報告　204
第8章　Spark MLlib　205
　8.1 基於大數據的機器學習　206
　8.2 機器學習庫MLlib概述　207
　8.3 基本數據類型　208
8.3.1　本地向量　208
8.3.2　標注點　208
8.3.3　本地矩陣　209
　8.4 機器學習流水線　210
8.4.1　流水線的概念　210
8.4.2　流水線工作過程　211
　8.5 特徵提取、轉換和選擇　212
8.5.1　特徵提取　213
8.5.2　特徵轉換　215
8.5.3　特徵選擇　220
8.5.4　局部敏感哈希　221
　8.6 分類算法　222
8.6.1　邏輯斯蒂回歸分類器　222
8.6.2　決策樹分類器　226
　8.7 聚類算法　229
8.7.1　K-Means聚類算法　230
8.7.2　GMM聚類算法　232
　8.8 協同過濾算法　234
8.8.1　推薦算法的原理　235
8.8.2　ALS算法　235
　8.9 模型選擇和超參數調整　239
8.9.1　模型選擇工具　239
8.9.2　用交叉驗證選擇模型　240
　8.10 本章小結　242
　8.11 習題　242
實驗7　Spark機器學習庫MLlib編程實踐　243
一、實驗目的　243
二、實驗平臺　243
三、實驗內容和要求　243
四、實驗報告　244
參考文獻　245

主題書展

主題書展

更多書展

本週66折

印度教宗教文化

情緒化是種成長力：青春期負面情緒≠負面影響，學會面對與掌控才是提升心理健康的關鍵！

古典到現代－三民叢刊128

英文玖訣

托福命題總監教你征服新托福寫作

伊壁鳩魯(精)

誰家有女初養成─三民叢刊211

獅子勇士：錫克教史話

馬克斯‧謝勒(精)

王室英國：國王、海盜與大不列顛的崛起

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

熱搜：

Spark編程基礎(Scala版)（簡體書）

商品資訊

系列名：大數據創新人才培養系列

ISBN13：9787115488169

出版社：人民郵電出版社

作者：林子雨; 賴永炫; 陶繼平

出版日：2022/06/01

裝訂／頁數：平裝／246頁

規格：26cm*19cm (高/寬)

版次：一版

商品簡介

作者簡介

目次

主題書展

簡體書新到貨

魅力．花火特展

悅讀紀特展

簡體新書搶先報

簡體新生代華文原創小說特展

領券專區

文具禮品大賞

2024暑期閱讀書展

泰戈爾經典詩集與小說戲劇集

香港出版作家書展

本週66折

印度教宗教文化

情緒化是種成長力：青春期負面情緒≠負面影響，學會面對與掌控才是提升心理健康的關鍵！

古典到現代－三民叢刊128

英文玖訣

托福命題總監教你征服新托福寫作

伊壁鳩魯(精)

誰家有女初養成─三民叢刊211

獅子勇士：錫克教史話

馬克斯‧謝勒(精)

王室英國：國王、海盜與大不列顛的崛起

您曾經瀏覽過的商品

購物須知