深入大型數據集:並行與分佈化Python代碼(簡體書)
商品資訊
ISBN13:9787121403682
出版社:電子工業出版社
作者:張若飛; (美)J.T.沃勒翰
出版日:2021/02/01
裝訂/頁數:平裝/300頁
規格:24cm*17cm (高/寬)
版次:一版
商品簡介
相關商品
商品簡介
本書共分3部分,主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格,以及Python中基礎的map和reduce函數,並介紹如何將對象持久化,通過惰性函數和並行函數來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫來編寫Hadoop作業,如何實現PageRank算法,如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹雲計算和雲存儲的基礎知識,包括如何通過boto3的Python庫將文件上傳到AWS S3服務,以及如何在AWS的EMR集群中運行分布式的Hadoop和Spark作業。本書適合有一定Python編程基礎,且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。