TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
蟲術:Python絕技(簡體書)
滿額折

蟲術:Python絕技(簡體書)

商品資訊

人民幣定價:99 元
定價
:NT$ 594 元
優惠價
87517
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:15 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次

商品簡介

本書以大數據應用方面常用的語言Python為基礎,從網絡爬蟲的實現原理入手,逐步引領讀者進入網絡爬蟲的世界。在各類爬蟲框架中,將Scrapy作為軸心,從多個維度揭開爬蟲技術的面紗。例如,爬取規則的制定技巧,設計高速爬蟲,如何讓爬蟲更“聰明”地獲取數據,將海量數據進行分布式存儲的技術,設計具有高隱匿性的爬蟲,大規模、高併發的分布式爬蟲技術。

作者簡介

近二十年軟件開發、項目管理、團隊建設和管理經驗。致力於互聯網技術應用與大數據應用方面的研究與開發工作。曾任多家軟件公司的高級軟件工程師、項目經理、首席架構師和技術總監等職務。
現任廣州市增增智能科技有限公司CEO,從事視覺智能、語音智能及IoT等技術的產品研發與企業經營方面的工作。

名人/編輯推薦

本書基於Python這門靈活且簡潔的語言,結合作者在網絡數據爬取和大數據方面的實際工程經驗,使得本書更具實用性。本書旨在讓更多數據工作者或編程愛好者在大數據時代從海量的信息中通過掌握“蟲術”來獲取對自已或企業有價值的信息。

很久以前我就接觸了網絡爬蟲這門技術,從當時接觸的範疇來說,稱之為“小玩意”或者“小助手”可能更為貼切。我使用爬蟲只是為了收集一些樣本數據做測試,或者對上線的項目進行高強度的併發性壓力測試,又或者獲取感興趣的圖片、新聞。
爬蟲涉及的技術比較多,用各種語言都可以快速地寫出一個爬蟲,所以一直以來並沒有被看作一門綜合性的技術,直到2015年我負責的開發部門接到公司安排的三項重點開發任務:
(1)從微信和微博上搜集哪些言論正變得熱門,哪些公眾號或者微博賬號的關注度正在持續地上升。
(2)要與一家技術很落後的電商公司的業務系統在沒有提供數據接口的情況下進行大規模的數據同步。
(3)開發一個數據可視化平臺,並導入公司內部多年來的銷售數據(都是一些Excel和CSV文件),然後將當前每月在京東、淘寶等電商平臺上的統計數據合併起來進行統一的查詢與統計。
在接到這三個任務時,可以說是沒有任何頭緒的,這些任務簡單看都是一些數據整合的工作。在深入分析與研究之後發現,要完成這三大任務都必須依賴爬蟲技術。
這是一個坑坑窪窪,而且充滿挑戰的過程。例如,如何能從號稱封閉獨立的微信中挖出數據,又不被屏蔽;如何能將每天過億條的數據存儲下來而不會“塞爆”服務器;如何能將每天一大堆的CSV或者Excel文件下載到服務器,然後自動整理入庫而不會出現數據錯誤,等等。在完成這三個項目之後,我和我的團隊都對爬蟲有了非常深刻的理解與認識,很多方面的知識與經驗都得到了極大的提高。在綜合過往的開發經驗和這幾年的實際入坑經驗之後,我決定將其編撰成書,將這些看似零散的技術融合起來。
內容介紹
“蟲術”是一門綜合性的技術,涉及的知識面很廣,為了不讓你在一大堆的技術面前感到茫然,我將這門“術”分成了三個運用階段,一步步由淺入深地進行敘述。
本書共5章,前3章為初階部分,第4章為中階部分,第5章為高階部分。
第1章 爬蟲初步
本章首先介紹爬蟲在目前大數據生態下的地位,還提供了一份關於學習蟲術的詳盡的技術線路圖,最後講述爬蟲基本的實現方法與實際運用示例,目的在於讓讀者對蟲術建立一個基本的概念並能從示例中引起對這門技術的興趣。
第2章 Scrapy基礎
蟲術以Scrapy架構為核心基礎,本章對Scrapy的架構和各個模塊的作用進行了詳細的介紹。
第3章 Scrapy工程管理與部署
本章介紹如何在Scrapy工程中運用Scrapyd將本地工程部署到實際運行環境中,詳細地講述Scrapyd安裝配置及其附帶的scrapyd-client和scrapyd-deploy工具的使用方法。
第4章 中階蟲術
本章包含的內容非常豐富,是針對將蟲術運用於實際項目展開的。從Scrapy的蜘蛛內部實現開始,深入HTTP底層,實現對Scrapy中間件的支持,運用Selenium或Splash處理棘手的JavaScript網頁,最後詳細講述如何處理採集到的數據。
第5章 高階蟲術
本章是對中階蟲術的深化,聚焦於爬蟲系統的性能,講解如何讓爬蟲變得更加隱蔽,如何讓爬蟲看懂圖片,如何訓練它們使之變得更加聰明,最後講解如何掌握蟲術的大招“分布式爬蟲”來應對大規模的數據集采工作與數據存儲任務。
勘誤
本書如有勘誤,會在https://github.com/DotNetAge/上發佈。由於筆者能力有限,時間倉促,書中難免有錯漏,歡迎讀者批評指正。
梁睿坤

目次

第1章 爬蟲初步
1.1 爬蟲與大數據
1.1.1 大數據架構
1.1.2 爬蟲的作用與地位
1.1.3 Python與爬蟲
1.1.4 Python的網絡爬蟲框架
1.1.5 蟲術技術路線圖
1.2 實例:簡單的爬蟲
1.3 內容分析進階
1.3.1 選擇器
1.3.2 深入BeautifulSoup
1.3.3 元素的搜尋
1.3.4 亂碼與中文編碼
1.4 新聞供稿的爬取實例
1.5 小結
第2章 Scrapy基礎知識
2.1 Scrapy架構
2.2 Scrapy快速入手
2.3 數據模型Item
2.4 蜘蛛―Spiders
2.5 管道―Item Pipeline
2.6 Scrapy的運行與配置
2.7 新聞供稿爬蟲的Scrapy實現
2.8 小結
第3章 Scrapy的工程管理
3.1 Scrapyd
3.2 scrapyd-client及部署
3.3 搭建爬蟲服務器
第4章 中階蟲術
4.1 蜘蛛的演化
4.1.1 蜘蛛的本質―深入Spider
4.1.2 通用蜘蛛
4.1.3 蜘蛛中間件
4.2 爬蟲系統的測試與調試
4.2.1 開發期調試
4.2.2 蜘蛛的測試
4.2.3 蜘蛛的運行期調試
4.2.4 調試內存溢出
4.3 處理HTTP請求
4.3.1 HTTP請求
4.3.2 Scrapy的Request對象
4.3.3 表單處理
4.3.4 下載器中間件
4.4 處理HTTP響應
4.4.1 HTTP響應
4.4.2 Scrapy的響應對象
4.4.3 深入選擇器
4.4.4 非結構化數據的提取
4.4.5 黑夜中的眼睛
4.5 處理JavaScript
4.5.1 示例:電商產品爬蟲
4.5.2 Selenium和PhantomJS
4.5.3 Scrapy與Splash
4.6 數據存儲與後處理
4.6.1 圖片的下載與存儲
4.6.2 示例:產品圖片採集
4.6.3 導出到數據文件
4.6.4 導出到數據庫
4.6.5 示例:基於阿裡雲的存儲後端
第5章 高階蟲術
5.1 增量式爬網
5.1.1 推演路由
5.1.2 時機的重要性
5.1.3 去重處理
5.1.4 布隆過濾器
5.1.5 基於Redis的布隆過濾器
5.2 突破封印
5.2.1 封禁淺析
5.2.2 客戶端仿真
5.2.3 化身萬千―蜘蛛世界的易容術
5.2.4 反跟蹤
5.2.5 繞開蜜罐
5.3 蟲海
5.3.1 分布式爬蟲架構
5.3.2 認識scrapy-redis
5.3.3 示例:分布式電商爬蟲
5.4 可視化爬蟲
5.4.1 示例:某點評網爬蟲
5.4.2 解讀Portia爬蟲代碼
5.4.3 數據項加載器―Item Loaders
5.4.4 最後的工作

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 517
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區