TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
Python 3.7網絡爬蟲快速入門(簡體書)
滿額折

Python 3.7網絡爬蟲快速入門(簡體書)

人民幣定價:49 元
定  價:NT$ 294 元
優惠價:87256
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:7 點
相關商品
商品簡介
目次

商品簡介

Python 3.7正在成為目前流行的編程語言,而網絡爬蟲又是Python網絡應用中的重要技術,二者的碰撞產生了巨大的火花。本書在這個背景下編寫而成,詳細介紹Python 3.7網絡爬蟲技術。 本書分為11章,分別介紹Python 3.7爬蟲開發相關的基礎知識、lxml模塊、BeautifulSoup模塊、正則表達式、文件處理、多線程爬蟲、圖形識別、Scrapy框架、PyQuery模塊等。基本上每一章都配有眾多小範例程序與一個大實戰案例。作者還為每一章分別錄製教學視頻供讀者自學參考。 本書內容詳盡、示例豐富,是有志於學習Python網絡爬蟲技術初學者必備的參考書,同時也可作為Python愛好者拓寬知識領域、提升編程技術的參考書。

目次

目 錄







第1章 簡識Python 1

1.1 瞭解Python 1

1.1.1 Python的概念 1

1.1.2 有趣的Python程序 2

1.2 集成開發環境 4

1.2.1 安裝Python 3.7 4

1.2.2 從IDLE啟動Python 6

1.3 編寫自己的第一個Python程序:一個簡單的問候 8

1.4 小結 11

第2章 Python語法速覽 12

2.1 數據類型與變量 12

2.1.1 數據類型 12

2.1.2 變量 14

2.2 運算符 15

2.2.1 算術運算符 16

2.2.2 比較運算符 17

2.2.3 賦值運算符 17

2.2.4 邏輯運算符 18

2.2.5 位運算符 19

2.2.6 成員運算符 20

2.2.7 身份運算符 21

2.2.8 運算符的優先級 21

2.3 使用複合類型 21

2.3.1 列表 22

2.3.2 元組 26

2.3.3 字典 26

2.3.4 集合 27

2.4 流程控制結構 29

2.4.1 選擇結構 29

2.4.2 重複結構(循環結構) 30

2.5 小結 33

第3章 函 數 34

3.1 認識函數 34

3.1.1 什麼是函數 34

3.1.2 創建函數 35

3.2 使用函數 35

3.2.1 參數 36

3.2.2 返回值 38

3.2.3 函數的遞歸 39

3.3 實踐一下 40

3.3.1 實踐一:編寫一個函數 40

3.3.2 實踐二:遍歷與計數 41

3.4 小結 42

第4章 lxml模塊和XPath語法 43

4.1 lxml模塊 43

4.1.1 什麼是模塊 43

4.1.2 關於lxml模塊 44

4.1.3 lxml模塊的安裝 44

4.1.4 lxml庫的用法 46

4.2 XPath語法 46

4.2.1 基本語法 46

4.2.2 基本操作 47

4.2.3 lxml庫的用法 49

4.2.4 XPath範例程序測試 50

4.3 爬蟲lxml解析實戰 53

4.3.1 爬取豆瓣網站 53

4.3.2 爬取電影天堂 55

4.3.3 爬取貓眼電影 58

4.3.4 爬取騰訊招聘網 61

4.3.5 關於HTML 63

4.4 小結 63

第5章 BeautifulSoup庫 64

5.1 簡識BeautifulSoup 4 64

5.1.1 安裝與配置 64

5.1.2 基本用法 66

5.2 BeautifulSoup 對象 67

5.2.1 創建BeautifulSoup對象 67

5.2.2 4類對象 70

5.2.3 遍歷文檔樹 74

5.2.4 搜索文檔樹 78

5.3 方法和CSS選擇器 81

5.3.1 find類方法 81

5.3.2 CSS選擇器 82

5.4 爬取示範:使用BeautifulSoup爬取電影天堂 85

5.4.1 基本思路 85

5.4.2 實際爬取 85

5.5 小結 87

第6章 正則表達式 88

6.1 瞭解正則表達式 88

6.1.1 基本概念 88

6.1.2 re模塊 89

6.1.3 compile()方法 89

6.1.4 match()方法 90

6.1.5 group()和groups()方法 90

6.1.6 search()方法 90

6.1.7 findall()方法 92

6.1.8 finditer()方法 93

6.1.9 split()方法 94

6.1.10 sub()方法 94

6.2 抓取 95

6.2.1 抓取標簽間的內容 95

6.2.2 抓取trd標簽間的內容 98

6.2.3 抓取標簽中的參數 99

6.2.4 字符串處理及替換 101

6.3 爬取實戰 102

6.3.1 獲取數據 103

6.3.2 篩選數據 104

6.3.3 保存數據 107

6.3.4 顯示數據 107

6.4 總結 108

第7章 JSON文件處理、CSV文件處理和MySQL數據庫操作 109

7.1 簡識JSON 109

7.1.1 什麼是JSON 109

7.1.2 字典和列表轉JSON 110

7.1.3 將JSON數據轉儲到文件中 111

7.1.4 將一個JSON字符串加載為Python對象 111

7.1.5 從文件中讀取JSON 112

7.2 CSV文件處理 113

7.2.1 讀取CSV文件 113

7.2.2 把數據寫入CSV文件 114

7.2.3 練習 115

7.3 MySQL數據庫 117

7.3.1 MySQL數據庫的安裝 117

7.3.2 安裝MySQL模塊 127

7.3.3 連接MySQL 127

7.3.4 執行SQL語句 128

7.3.5 創建表 129

7.3.6 插入數據 130

7.3.7 查看數據 132

7.3.8 修改數據 133

7.3.9 刪除數據 135

7.3.10 實踐操作 136

7.4 小結 139

第8章 多線程爬蟲 140

8.1 關於多線程 140

8.1.1 基本知識 140

8.1.2 多線程的適用範圍 141

8.2 多線程的實現 142

8.2.1 使用_thread模塊創建多線程 142

8.2.2 關於Threading模塊 145

8.2.3 使用函數方式創建線程 146

8.2.4 傳遞可調用的類的實例來創建線程 148

8.2.5 派生子類並創建子類的實例 149

8.3 使用多進程 150

8.3.1 創建子進程 150

8.3.2 將進程定義為類 151

8.3.3 創建多個進程 152

8.4 爬取示範:多線程爬取豆瓣電影 153

8.4.1 使用多進程進行爬取 154

8.4.2 使用多線程進行爬取 156

8.5 小結 158

第9章 圖形驗證識別技術 159

9.1 圖像識別開源庫:Tesseract 159

9.1.1 安裝Tesseract 159

9.1.2 設置環境變量 164

9.1.3 驗證安裝 166

9.2 對網絡驗證碼的識別 168

9.2.1 讀取網絡驗證碼並識別 168

9.2.2 對驗證碼進行轉化 169

9.3 小結 170

第10章 Scrapy框架 171

10.1 瞭解Scrapy 171

10.1.1 Scrapy框架概述 171

10.1.2 安裝 173

10.2 開發Scrapy的過程 176

10.2.1 Scrapy開發步驟 176

10.2.2 Scrapy保存信息的格式 177

10.2.3 項目中各個文件的作用 178

10.3 爬蟲範例 179

10.3.1 Scrapy爬取美劇天堂 179

10.3.2 Scrapy爬取豆瓣網 182

10.3.3 Scrapy爬取豆瓣網II 186

10.4 總結 189

第11章 PyQuery模塊 190

11.1 PyQuery模塊 190

11.1.1 什麼是PyQuery模塊 190

11.1.2 PyQuery模塊的安裝 190

11.2 PyQuery模塊用法 191

11.2.1 使用字符串初始化PyQuery對象 191

11.2.2 使用文件初始化PyQuery對象 192

11.2.3 使用URL初始化PyQuery對象 193

11.3 CSS篩選器的使用 194

11.3.1 基本CSS選擇器 194

11.3.2 查找節點 195

11.3.3 遍歷結果並輸出 197

11.3.4 獲取文本信息 198

11.4 爬蟲PyQuery解析實戰 200

11.4.1 爬取貓眼票房 200

11.4.2 爬取微博熱搜 201

11.5 小結 202

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 256
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區