TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
零基礎學Python網絡爬蟲案例實戰全流程詳解:高級進階篇(簡體書)
滿額折

零基礎學Python網絡爬蟲案例實戰全流程詳解:高級進階篇(簡體書)

人民幣定價:89.8 元
定  價:NT$ 539 元
優惠價:87469
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:14 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次

商品簡介

網絡爬蟲是當今獲取數據不可或缺的重要手段。本書講解了Python爬蟲的進階理論與技術,幫助讀者提升實戰水平。

全書共7章。第1~3章為常見反爬機制的應對手段,主要內容包括Cookie模擬登錄、多種類型的驗證碼

識別、Ajax動態請求破解。第4章為手機App內容爬取。第5章和第6章為Scrapy爬蟲框架應用。第7章為爬蟲云服務器部署。

本書適合有一定Python網絡爬蟲編程基礎的學生或相關從業人員,以及想要在Python網絡爬蟲開發、不同類型的反爬機制應對、爬蟲框架開發、爬蟲云端部署等方面進階提高的讀者。


作者簡介

王宇韜

(CFA、FRM、AQF)

華能貴誠信托金融科技實驗室發起人,賓夕法尼亞大學碩士,上海交通大學學士,曾在劍橋大學交流學習,兩年內通過CFA 3級、FRM 2級、AQF。在華能貴誠信托自主研發了輿情監控系統、資金雷達、流程自動化AI系統、機器視頻面試系統等;專注於科技在金融領域的應用,編著有《Python金融大數據挖掘與分析全流程詳解》和《Python大數據分析與機器學習商業案例實戰》。

吳子湛

畢業於合肥工業大學計算機學院,就職於南京市秦淮區大數據中心,擁有多年IT

研發經驗,擅長大數據分析與挖掘。

史靖涵

北京郵電大學計算機專業學士,帝國理工大學和加州大學伯克利分校計算機專業碩士,擅長分布式爬蟲與數據挖掘。


名人/編輯推薦

Cookie模擬登錄+驗證碼識別+Ajax動態請求破解寶突破反爬機制,Scrapy+Flask搭建商業項目

筆者編寫的《Python金融大數據挖掘與分析全流程詳解》於2019年出版面市後,陸續有不少讀者表示對該書的爬蟲部分非常感興趣,想做進一步的學習。筆者由此萌生了一個想法:專門針對Python爬蟲技術編寫一套書籍,在保留之前核心內容的基礎上,新增更多實戰案例,方便讀者在練中學,並體會Python爬蟲在實戰中的應用。

書稿編寫完成後,為了更好地滿足不同水平讀者的需求,方便他們根據自身情況更靈活地學習,筆者決定將書稿分為兩冊出版:第一冊為《零基礎學Python網絡爬蟲案例實戰全流程詳解(入門與提高篇)》,主要針對編程零基礎的讀者;第二冊為《零基礎學Python網絡爬蟲案例實戰全流程詳解(高級進階篇)》,主要針對有一定Python爬蟲編程基礎並且需要進階提高的讀者。

本書為《零基礎學Python網絡爬蟲案例實戰全流程詳解(高級進階篇)》,分7章講解了Python爬蟲的進階理論與技術,包括常見反爬機制的應對手段、手機App內容爬取、Scrapy爬蟲框架應用、爬蟲云服務器部署等。

第1章主要講解如何通過Cookie模擬登錄網站並爬取數據。首先介紹Cookie模擬登錄的原理,然後通過模擬登錄淘寶爬取商品數據、模擬登錄新浪微博爬取熱搜榜信息這兩個實戰案例來鞏固所學。

第2章主要講解如何應對驗證碼這種常見的反爬手段,分別介紹了圖像驗證碼、計算題驗證碼、滑塊驗證碼、滑動拼圖驗證碼、點選驗證碼等類型的驗證碼的識別,最後以bilibili的登錄驗證碼識別作為實戰案例來鞏固所學。

第3章主要講解如何破解Ajax動態請求。首先介紹Ajax的工作原理,然後通過爬取開源中國博客頻道、爬取新浪微博這兩個實戰案例來鞏固所學。

第4章主要講解如何爬取手機App的內容。首先介紹相關軟件的安裝,然後講解手機模擬操作和Appium操作,最後通過爬取微信朋友圈來鞏固所學。

第5章主要講解Scrapy爬蟲框架。首先介紹Scrapy框架的整體架構和常用指令,然後通過3個實戰案例來鞏固所學:百度新聞爬取(涉及設置文件的修改)、新浪新聞爬取(涉及實體文件的修改)、豆瓣電影海報圖片爬取(涉及管道文件的修改)。

第6章主要講解在Scrapy框架中如何應對反爬機制。首先介紹Scrapy框架的中間件技術,然後通過3個實戰案例來講解具體應用:爬取搜狗圖片(Scrapy+IP代理)、模擬登錄淘寶(Scrapy+Cookie)、爬取第一財經新聞(Scrapy+Selenium庫)。

第7章主要講解如何將爬蟲項目部署到云服務器上,實現24小時不間斷運行,並通過Flask Web編程搭建網站,將爬蟲數據渲染成可動態更新的網頁,從而完成一個綜合性的商業級爬蟲項目。

本書適合有一定Python網絡爬蟲編程基礎的學生或相關從業人員,以及想要在Python網絡爬蟲開發、不同類型的反爬機制應對、爬蟲框架開發、爬蟲云端部署等方面進階提高的讀者。覺得本書理解起來有難度的讀者建議先學習《零基礎學Python網絡爬蟲案例實戰全流程詳解(入門與提高篇)》,再來學習本書。

由於筆者水平有限,書中難免有不足之處,懇請廣大讀者批評指正。讀者除了可掃描封底上的二維碼關注公眾號獲取信息以外,也可通過“本書學習資源”中列出的方法與我們交流。


目次

前言
本書學習資源
第1章 Cookie模擬登錄
1.1 Cookie模擬登錄的原理 11
1.1.1 客戶端與服務端 11
1.1.2 HTTP的無狀態性 12
1.1.3 Cookie的含義與作用 13
1.1.4 Session的含義與作用 16
1.1.5 Cookie與Session的交互 17
1.2 案例實戰1:模擬登錄淘寶並爬取數據 20
1.2.1 獲取Cookie模擬登錄淘寶 20
1.2.2 爬取淘寶商品數據 25
1.3 案例實戰2:模擬登錄新浪微博並爬取數據 29
1.3.1 獲取Cookie模擬登錄新浪微博 30
1.3.2 爬取新浪微博熱搜榜信息 34
★ 課後習題 38
第2章 驗證碼反爬的應對
2.1 圖像驗證碼 39
2.1.1 超級鷹平臺註冊 40
2.1.2 超級鷹Python接口的使用 41
2.1.3 案例實戰:英文驗證碼和中文驗證碼識別 46
2.2 計算題驗證碼 51
2.3 滑塊驗證碼 54
2.4 滑動拼圖驗證碼 57
2.4.1 初級版滑動拼圖驗證碼 59
2.4.2 高級版滑動拼圖驗證碼 63
2.5 點選驗證碼 68
2.5.1 本地網頁識別 69
2.5.2 bilibili點選驗證碼識別初探 75
2.5.3 bilibili點選驗證碼識別升級:無限嘗試版 80
★ 課後習題 85
第3章 Ajax動態請求破解
3.1 Ajax簡介 86
3.1.1 不同的網頁翻頁方式的對比 86
3.1.2 Ajax的基本概念與工作原理 88
3.2 案例實戰1:爬取開源中國博客頻道 89
3.2.1 分析Ajax請求 89
3.2.2 爬取單頁博客 92
3.2.3 爬取多頁博客 96
3.3 案例實戰2:爬取新浪微博 98
3.3.1 模擬登錄新浪微博 100
3.3.2 分析單個微博頁面 101
3.3.3 破解Ajax請求爬取多頁 103
★ 課後習題 108
第4章 手機App內容爬取
4.1 相關軟件安裝 109
4.1.1 安裝夜神模擬器 110
4.1.2 安裝Node.js 111
4.1.3 安裝JDK 113
4.1.4 安裝Android Studio 117
4.1.5 安裝Appium 118
4.1.6 安裝Appium-Python-Client庫 118
4.2 手機模擬操作初步嘗試 119
4.2.1 用Android Studio連接夜神模擬器 119
4.2.2 用Python連接微信App 121
4.3 Appium基本操作與進階操作 123
4.3.1 Appium基本操作 123
4.3.2 Appium進階操作 126
4.4 案例實戰:爬取微信朋友圈內容 132
4.4.1 獲取微信朋友圈頁面源代碼 133
4.4.2 提取微信朋友圈內容 135
4.5 多開模擬器打開多個微信 138
4.5.1 多開模擬器 138
4.5.2 用Appium連接多個模擬器 139
★ 課後習題 143
第5章 Scrapy爬蟲框架
5.1 Scrapy框架基礎 144
5.1.1 Scrapy的安裝方法 144
5.1.2 Scrapy的整體架構 146
5.1.3 Scrapy的常用指令 148
5.2 案例實戰1:百度新聞爬取 156
5.2.1 Robots協議破解 157
5.2.2 User-Agent設置 158
5.2.3 百度新聞標題爬取 159
5.3 案例實戰2:新浪新聞爬取 160
5.3.1 實體文件設置 161
5.3.2 新浪新聞爬取:爬取一條新聞 162
5.3.3 新浪新聞爬取:爬取多條新聞 166
5.3.4 新浪新聞爬取:生成文本文件報告 167
5.4 案例實戰3:豆瓣電影海報圖片爬取 170
5.4.1 用常規方法爬取 170
5.4.2 用Scrapy爬取 171
5.5 知識拓展:Python類的相關知識 176
5.5.1 類和對象的概念 176
5.5.2 類名、屬性和方法 176
5.5.3 類的進階知識 179
★ 課後習題 182
第6章 Scrapy應對反爬
6.1 中間件技術概述 183
6.1.1 下載器中間件 184
6.1.2 爬蟲中間件 184
6.2 Scrapy+IP代理:爬取搜狗圖片 185
6.2.1 用Requests庫批量下載圖片 186
6.2.2 用Scrapy框架批量下載圖片 198
6.3 Scrapy+Cookie:模擬登錄淘寶 202
6.3.1 在中間件文件中添加Cookie 202
6.3.2 編寫並運行爬蟲文件:爬取淘寶網頁 204
6.4 Scrapy+Selenium庫:爬取第一財經新聞 206
6.4.1 在中間件文件中添加Selenium庫 207
6.4.2 編寫並運行爬蟲文件:爬取新聞信息 209
★ 課後習題 214
第7章 爬蟲雲服務器部署
7.1 HTML網頁製作進階 215
7.1.1 表格 217
7.1.2 列表 218
7.1.3 樣式設計 220
7.1.4 背景設置 228
7.2 Flask Web編程基礎 232
7.2.1 Flask入門 232
7.2.2 用render_template()函數渲染頁面 237
7.2.3 用Flask連接數據庫 242
7.3 Flask Web編程實戰 247
7.3.1 展示單家公司的數據 247
7.3.2 展示多家公司的數據 252
7.3.3 展示輿情評分 255
7.3.4 只展示當天新聞 257
7.3.5 只展示負面新聞 258
7.4 雲服務器的購買和登錄 261
7.5 程序雲端部署及網站搭建 265
7.5.1 搭建程序的運行環境 265
7.5.2 程序24小時運行及Flask項目部署 266
7.5.3 域名申請和使用 267
★ 課後習題 270

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 469
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區