TOP
0
0
三民出版.新書搶先報|最速、最優惠的新鮮貨報給你知!
Spark全棧數據分析(簡體書)
滿額折
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)
Spark全棧數據分析(簡體書)

Spark全棧數據分析(簡體書)

商品資訊

人民幣定價:99 元
定價
:NT$ 594 元
優惠價
87517
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點:15 點
商品簡介
目次
相關商品

商品簡介

本書介紹了作者提出的敏捷數據科學的方法論,結合作者在行業中多年的實際工作經驗,為數據科學團隊提供了一套以類似敏捷開發的方法開展數據科學研究的實踐經驗。全書基於Spark做全棧數據分析,書中展示了工業界一些常見工具的使用,包括從前端顯示到後端處理的各個環節,手把手幫助數據科學家快速將理論轉化為真正面向用戶的應用程序,從而讓讀者在利用數據創造真正價值的同時,也能不斷完善自己的研究。本書適合初學者閱讀,數據科學家、工程師、分析師都能在本書中有所收穫。

譯者序
這幾年,大數據、人工智能都是計算機學科中非常熱門的話題,數據科學也越來越受到各公司的關注。我接觸到的很多不同行業的公司都對大數據與人工智能的應用躍躍欲試,甚至部分公司早已嘗到其中的甜頭。不過還有很多公司並沒有真正用上它們那些本應蘊含著無窮價值的數據,也有很多公司已經學會從數據中挖掘信息,但得到的信息無法及時轉化為真正的價值。畢竟大數據還是比較新的技術,大多數公司還在探索中前進。很多公司早就擁有了自己的應用開發團隊,雇傭一些數據科學的專家也並不難,難的是如何讓開發工程師和數據科學家理解對方的工作,把他們整合到一個團隊中,從而真正創造出價值。
本書作者對數據有天生的熱情,且通過在各種行業的工作經歷形成了對不同角色的理解,更擁有多年的實際數據分析應用開發經驗。在他的職業生涯中,也曾遇到過很多公司在嘗試運用數據分析時會遇到的各種問題。如今,他在諮詢公司工作,專門幫助各種公司進行大數據方面的數據分析。本書正是作者多年經驗的總結與昇華,涵蓋了從團隊建設、工作制度到工具選擇、任務劃分與執行的方方面面。本書還以一個完整的項目為例,貫穿全書,展示了敏捷數據科學的整個流程,這也是我最喜歡本書的地方。從具體案例出發,讓有需求的讀者能夠更快地依葫蘆畫瓢,也讓初學者能夠從做中學,讓讀者能根據自己的感受,更好地領會作者提出的“敏捷數據科學”的精髓。
Spark 是當前大數據領域最為主流的項目,有著遠超Hadoop MapReduce 的性能,可以說是大數據領域的事實標準。能有今天的地位,Spark 的易用性功不可沒。正因此,作者在本書中選擇了Spark 作為大數據處理框架。易於上手的Spark 確實是敏捷項目的不二選擇。
不過,Spark 雖然兼具易用與高性能的特點,但不代表Spark 的性能不會在實際應用中出現問題。事實上,隨著業務日趨複雜,Spark 應用也會遇到各種不能通過擴展集群規模來解決的問題,並不是用上Spark 就代表算法能夠適用于海量數據的場景了,這也是本書缺失的部分。不過不用過於擔心,高性能的算法與集群架構也都是慢慢演進出來的,不妨讓我們在下一個敏捷衝刺中不斷完善我們的應用吧!
翻譯本書的時候我還在英特爾工作,英特爾是我工作的第一家公司,在這裡我有幸從2012年起接觸大數據,並從2014 年起就接觸到Spark。雖然我已經離開,但我會始終感激和懷念在英特爾成長的時光。本書的翻譯主要在週末和假期完成,感謝家人和朋友們對我的關心和理解。感謝博文視點的劉恩惠老師和顧慧芳老師在本書審校工作中的辛勤付出,感謝張玲老師引薦我翻譯本書,也感謝劉恩惠老師和張玲老師在我拖稿時對我的寬容和鼓勵。
這是一個發展迅猛的領域,本書出版時,書中的許多工具(比如Spark)可能已經又有了很多更新;本書所涉及的遠遠不止大數據和數據分析,還包括前端開發、團隊管理等內容。由於我水平有限,難免有紕漏之處,希望讀者能不吝指正,有疑惑之處,不妨也與我探討。我的郵箱是me@daoyuan.wang。
王道遠
2018 年夏


前言
寫作本書第1 版的那段日子裡,我剛好因為一次車禍而殘疾,每天忍受疼痛折磨,雙手也有些不聽使喚。當時,一個叫作“職業瀏覽器”的項目的失敗經歷正困擾著我,為了從陰影中走出來,我用iPad 在床上和沙發上寫完了本書,儘管那時我的手都沒辦法切菜了。我在那個項目發佈前幾周受了傷,還想著堅持把項目做上線,日夜奮戰,非常痛苦。在做項目的過程中,我們犯了許多低級錯誤,讓我一直垂頭喪氣。最終產品糟透了。項目失敗的挫折感不時讓我難受,而我背部的慢性疼痛更是很少放過我。我的心臟也出了一些問題,心率下降了三分之一,記憶力也出現了衰退。我仿佛進入了一個幽暗的空間,難以找到出路。我要恢復起來,與失敗抗爭。說來有些奇怪,為了讓自己恢復,我寫了第1 版書。我要把我能給團隊同事的指導寫下來,確保下一個項目成功。我想讓自己擺脫這段經歷。更重要的是,我想通過幫助別人,讓我的人生重新獲得意義,不讓自己被殘疾擊垮。這樣一件為大眾服務以確保其他人不會重複我的錯誤的好事,我認為是值得去做的。那個失敗項目暴露出了一個比我自身的處境更嚴重的問題,那就是大多數研究都停留在紙面上,從未讓能夠獲益的人實際使用到。這本書就是一劑良方,是應用性研究的方法論,讓研究成果能以產品的形式真正面世。
雖然聽起來有些戲劇性,但我還是想在介紹第2 版之前提一提寫第1 版時的個人情況。儘管那一版書對我來說有特殊的意義,但對於數據科學這個欣欣向榮的領域而言只做出了很小的貢獻。但是我為它而自豪。我在那本書中獲得了救贖,它讓我重新找回了感覺,讓我及時從病痛中恢復,讓我擺脫失敗的痛苦而獲得了成就的喜悅,這就是第1版的情況。
在第2 版中,我希望能做到更多。簡單地說,我希望能引導初出茅廬的數據科學家,讓其快速成長為數據分析應用開發者。我把自己在三個Hadoop 團隊與一個Spark 團隊中獲得的構建分析應用的經驗進行了總結和提煉。這次改版中,編程語言使用的是數據科學的通用語言Python,而選擇的大數據平臺是Spark。希望本書能成為讀者的必備指南,讓讀者快速學會如何構建足以應對各種數據規模的分析應用。
Spark 取代Hadoop/MapReduce 成為了處理大規模數據的主流方式,因此我們在這一版中使用Spark 來講解。不僅如此,根據我們團隊在工作中對敏捷數據科學的進一步理解,本書對敏捷數據科學方法論的理論和發展也做了進一步完善。希望第1版的讀者還可以從第2版中獲得提高,也希望比起相對更適合Hadoop 用戶閱讀的第1 版,這一版能更好地服務於Spark 用戶。
敏捷數據科學有兩大目標:一是為了使用Python 和Spark 搭建出任意規模的數據分析應用,二是幫助產品團隊學會使用敏捷的方式協作開發分析應用來保障工作成效。

敏捷數據科學的郵件列表

你可以在郵件列表(agile-data-science@googlegroups.com)或網頁(https://groups.google.com/d/forum/agile-data-science)中學到最新的敏捷數據科學知識。
我為本書維護了一個網頁(http://datasyndrome.com/book),裡面有最新的更新,以及為讀者準備的相關資料。

產品分析諮詢公司Data Syndrome

我創辦了一家叫作Data Syndrome 的諮詢機構來推廣本書中的方法論和技術棧。如果你要在你的公司裡實踐敏捷數據科學並且需要這方面的幫助,或者是需要構建數據產品方面的幫助,又或者需要“大數據”方面的培訓,你可以通過我的郵箱(rjurney@datasyndrome.com)或網站(http://llc.datasyndrome.com/)來聯繫我。
Data Syndrome 提供視頻課程《使用Kafka、PySpark、Spark MLlib 和Spark Streaming 進行實時預測分析》(Realtime Predictive Analytics with Kafka,PySpark, Spark MLlib and Spark Streaming. http://datasyndrome.com/video),使用了第7章和第8章的材料,教觀看者如何用Kafka、Spark Streaming 及網絡應用的前端頁面構建出整套的實時預測系統。
如果想進一步瞭解,請訪問http://datasyndrome.com/video 或聯繫rjurney@datasyndrome.com。

在線培訓

Data Syndrome 正在研製針對數據科學團隊和數據工程團隊的全套在線大數據培訓課程。
目前提供的課程可以根據需求進行自定義,包括以下幾個主題。
敏捷數據科學
持續三天的課程,涵蓋了全棧分析應用的構建。在內容上與本書相近,可以將數據科學家訓練為全棧應用開發者。
實時預測分析
一天即可完成,時長總共6 小時。包括如何使用Kafka 和Spark Streaming 及網絡應用前端頁面構建整套的實時預測系統。
PySpark 介紹
一天即可完成,時長3 小時。向參與者介紹如何使用Spark 的Python 接口進行基本的數據處理。最終教會參與者如何使用Spark MLlib 構建一個分類器模型來預測航班延誤。
詳情請訪問http://datasyndrome.com/training 或聯繫rjurney@datasyndrome.com。
本書目標讀者
本書的目的是幫助初學者和初出茅廬的數據科學家成長為數據科學與數據分析團隊的主力成員。本書想要幫助工程師、分析師、數據科學家以敏捷的方式來使用Hadoop 在大數據上進行工作。本書介紹的敏捷方法論很適合大數據領域。
本書是為需要開發軟件來分析數據的程序員而寫的。設計師和產品經理可能更適合第1 章、第2 章和第5 章,這些章節主要作為敏捷過程的導論,沒有專注於編碼運行。
本書假設你在類UNIX 環境中工作,沒有為Windows 用戶提供示例,不過Windows 用戶可以使用Cygwin 嘗試。
本書主要結構
本書分為兩個部分。第Ⅰ部分介紹的是我們在第Ⅱ部分中需要用到的數據集和工具集。第Ⅰ部分故意寫得簡明扼要,只是為了盡可能快地介紹這些工具。第Ⅱ部分會更深入地探討這些工具的使用,所以如果在讀第Ⅰ部分時感覺有些不知所措也不用擔心。第Ⅰ部分的章節如下。
第1 章 理論
介紹敏捷數據科學的方法論。
第2 章 敏捷工具
介紹要用的工具集,並且講解工具如何上手與安裝。
第3 章 數據
描述本書中使用的數據集。
第Ⅱ部分是我們使用敏捷數據科學來構建一個分析應用的教程。這是一份筆記本式的分析應用構建指南。我們逐層攀登數據價值金字塔,始終應用敏捷的原則。這一部分會展示在敏捷迭代進程中一步一步發掘數據價值的方法。第Ⅱ部分由以下所列章節組成。

目次

目錄
前言 .................................................................................................. xiv
第Ⅰ部分 準備工作
第1章 理論 ..........................................................................................3
導論 .............................................................................................................................3
定義 .............................................................................................................................5
方法學 ................................................................................................................5
敏捷數據科學宣言 ............................................................................................6
瀑布模型的問題 .......................................................................................................10
研究與應用開發 ..............................................................................................11
敏捷軟件開發的問題 ...............................................................................................14
最終質量:償還技術債 ....................................................................................14
瀑布模型的拉力 ..............................................................................................15
數據科學過程 ...........................................................................................................16
設置預期 ..........................................................................................................17
數據科學團隊的角色 ......................................................................................18
認清機遇與挑戰 ..............................................................................................19
適應變化 ..........................................................................................................21
過程中的注意事項 ...................................................................................................23
代碼審核與結對編程 ......................................................................................25
敏捷開發的環境:提高生產效率 ....................................................................25
用大幅打印實現想法 ......................................................................................27
第2章 敏捷工具 ................................................................................29
可伸縮性=易用性 ...................................................................................................30
敏捷數據科學之數據處理 .......................................................................................30
搭建本地環境 ...........................................................................................................32
配置要求 ..........................................................................................................33
配置Vagrant .....................................................................................................33
下載數據 ..........................................................................................................33
搭建EC2環境 ............................................................................................................34
下載數據 ..........................................................................................................38
下載並運行代碼 .......................................................................................................38
下載代碼 ..........................................................................................................38
運行代碼 ..........................................................................................................38
Jupyter筆記本 ...................................................................................................39
工具集概覽 ...............................................................................................................39
敏捷開發工具棧的要求 ..................................................................................39
Python 3 ...........................................................................................................39
使用JSON行和Parquet序列化事件 .................................................................42
收集數據 ..........................................

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 517
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區