商品簡介
名人/編輯推薦
目次
相關商品
商品簡介
本書是一本系統、全面地介紹Python網絡爬蟲的實戰寶典。作者融合自己豐富的工程實踐經驗,緊密結合演示應用案例,內容覆蓋了幾乎所有網絡爬蟲涉及的核心技術。在內容編排上,一步步地剖析算法背後的概念與原理,提供大量簡潔的代碼實現,助你從零基礎開始編程實現深度學習算法。
全書按照學習爬蟲所涉及的核心技術從易到難,再到應用的順序分為14章。第1章介紹Python的安裝配置和基礎語法。 第2章介紹爬蟲類型、抓取策略以及網絡基礎知識。第3章介紹Python常用庫。第4章介紹正則表達式的語法、匹配規則。第5章講解PIL庫、Tesseract庫和TensorFlow庫的語法、類型和識別方法。第6章介紹抓包利器Fiddler。第7章介紹數據存儲。第8章介紹Scrapy爬蟲框架。第9章介紹多線程爬蟲。第10章介紹動態網頁爬蟲。第11章介紹分布式爬蟲。第12章介紹電商網站商品信息爬蟲項目。第13章介紹生活娛樂點評類信息爬蟲。第14章介紹圖片信息類爬蟲項目。
全書按照學習爬蟲所涉及的核心技術從易到難,再到應用的順序分為14章。第1章介紹Python的安裝配置和基礎語法。 第2章介紹爬蟲類型、抓取策略以及網絡基礎知識。第3章介紹Python常用庫。第4章介紹正則表達式的語法、匹配規則。第5章講解PIL庫、Tesseract庫和TensorFlow庫的語法、類型和識別方法。第6章介紹抓包利器Fiddler。第7章介紹數據存儲。第8章介紹Scrapy爬蟲框架。第9章介紹多線程爬蟲。第10章介紹動態網頁爬蟲。第11章介紹分布式爬蟲。第12章介紹電商網站商品信息爬蟲項目。第13章介紹生活娛樂點評類信息爬蟲。第14章介紹圖片信息類爬蟲項目。
名人/編輯推薦
涵蓋網絡爬蟲的核心概念、算法和技術實現,內容系統,案例豐富
目次
前言
第1章 Python環境搭建及基礎學習1
1.1 Python 3.6的安裝與配置1
1.1.1 Windows下的安裝1
1.1.2 Linux下的安裝5
1.1.3 macOS下的安裝6
1.2 IDE工具:PyCharm的安裝7
1.3 基礎語法11
1.3.1 第一個Python程序11
1.3.2 Python命名規範13
1.3.3 行和縮進15
1.3.4 注釋和續行15
1.3.5 Python輸出16
1.4 字符串18
1.4.1 字符串運算符18
1.4.2 字符串內置函數19
1.5 數據結構22
1.5.1 列表22
1.5.2 元組25
1.5.3 集合27
1.5.4 字典29
1.6 控制語句31
1.6.1 條件表達式31
1.6.2 選擇結構32
1.6.3 循環結構33
1.7 函數、模塊和包36
1.7.1 函數36
1.7.2 模塊40
1.7.3 包42
1.8 文件的讀寫操作 45
1.8.1 文件讀寫步驟與打開模式46
1.8.2 文件的基本操作48
1.8.3 文件寫入操作52
1.9 面向對象53
1.9.1 類和對象54
1.9.2 封裝性58
1.9.3 繼承性59
1.9.4 多態性60
1.10 本章小結61
練習題61
第2章 爬蟲原理和網絡基礎62
2.1 爬蟲是什麼62
2.2 爬蟲的意義62
2.3 爬蟲的原理64
2.4 爬蟲技術的類型66
2.4.1 聚焦爬蟲技術66
2.4.2 通用爬蟲技術67
2.4.3 增量爬蟲技術69
2.4.4 深層網絡爬蟲技術70
2.5 爬蟲抓取策略71
2.5.1 深度優先遍歷策略 71
2.5.2 廣度優先遍歷策略71
2.5.3 Partial PageRank策略72
2.5.4 大站優先策略72
2.5.5 反向鏈接數策略73
2.5.6 OPIC策略 73
2.6 反爬蟲和反反爬蟲73
2.6.1 反爬蟲73
2.6.2 反反爬蟲77
2.7 網絡基礎79
2.7.1 網絡體系結構79
2.7.2 網絡協議79
2.7.3 Socket編程86
2.8 本章小結88
練習題88
第3章 Python常用庫89
3.1 Python庫的介紹89
3.1.1 常用標準庫89
3.1.2 安裝使用第三方庫91
3.2 urllib庫92
3.2.1 urlopen()函數用法93
3.2.2 urlretrieve()函數用法95
3.2.3 URL編碼和URL解碼96
3.2.4 urlparse()和urlsplit()函數用法97
3.3 request庫99
3.3.1 request庫的基本使用99
3.3.2 request庫的高級用法109
3.4 lxml庫113
3.4.1 lxml庫的安裝和使用113
3.4.2 XPath介紹114
3.4.3 XPath語法116
3.4.4 lxml和XPath的結合使用119
3.5 Beautiful Soup庫122
3.5.1 Beautiful Soup庫的安裝和使用123
3.5.2 提取數據125
3.5.3 CSS選擇器131
3.6 實戰案例134
3.6.1 使用Beautiful Soup解析網頁134
3.6.2 微信公眾號爬蟲135
3.6.3 爬取豆瓣讀書TOP500136
3.6.4 使用urllib庫爬取百度貼吧137
3.7 本章小結139
練習題139
第4章 正則表達式140
4.1 概念介紹140
4.2 正則表達式語法141
4.2.1 正則模式的字符141
4.2.2 運算符優先級142
4.3 匹配規則143
4.3.1 單字符匹配規則143
4.3.2 多字符匹配規則144
4.3.3 邊界匹配146
4.3.4 分組匹配147
4.4 re模塊常用函數150
4.4.1 re.match函數150
4.4.2 re.search函數152
4.4.3 re.compile函數153
4.4.4 re.sub函數155
4.4.5 re.findall函數156
4.4.6 re.finditer函數157
4.4.7 re.split函數157
4.5 本章小結158
練習題158
第5章 驗證碼159
5.1 PIL庫159
5.1.1 PIL庫的安裝159
5.1.2 PIL庫的常用函數160
5.1.3 PIL庫的應用163
5.1.4 應用PIL到實際開發169
5.2 Tesseract庫172
5.2.1 Tesseract庫的安裝172
5.2.2 Tesseract庫的使用174
5.2.3 Tesseract庫的識別訓練174
5.3 TensorFlow庫180
5.3.1 TensorFlow庫的安裝180
5.3.2 TensorFlow基本操作184
5.3.3 TensorFlow基礎架構186
5.3.4 TensorFlow創建線性回歸模型189
5.3.5 TensorFlow識別知乎驗證碼190
5.4 4種驗證碼的解決思路191
5.5 OCR處理驗證碼194
5.6 實戰案例195
5.7 本章小結199
練習題199
第6章 抓包利器Fiddler200
6.1 Fiddler簡介200
6.2 Fiddler的安裝和配置200
6.2.1 Fiddler的安裝201
6.2.2 Fiddler的配置202
6.3 Fiddler捕獲會話205
6.4 QuickExec命令行的使用207
6.5 Fiddler斷點功能209
6.6 Fiddler的實用工具210
6.7 實戰案例212
6.7.1 使用Fiddler抓取數據並分析212
6.7.2 使用Fiddler抓取HTTPS流量214
6.7.3 使用Fiddler抓取手機應用215
6.8 本章小結219
練習題219
第7章 數據存儲220
7.1 數據的基本存儲220
7.1.1 數據存儲至TXT220
7.1.2 數據存儲至CSV222
7.1.3 數據存儲至JSON223
7.2 數據存儲至MySQL數據庫227
7.2.1 配置MySQL服務227
7.2.
第1章 Python環境搭建及基礎學習1
1.1 Python 3.6的安裝與配置1
1.1.1 Windows下的安裝1
1.1.2 Linux下的安裝5
1.1.3 macOS下的安裝6
1.2 IDE工具:PyCharm的安裝7
1.3 基礎語法11
1.3.1 第一個Python程序11
1.3.2 Python命名規範13
1.3.3 行和縮進15
1.3.4 注釋和續行15
1.3.5 Python輸出16
1.4 字符串18
1.4.1 字符串運算符18
1.4.2 字符串內置函數19
1.5 數據結構22
1.5.1 列表22
1.5.2 元組25
1.5.3 集合27
1.5.4 字典29
1.6 控制語句31
1.6.1 條件表達式31
1.6.2 選擇結構32
1.6.3 循環結構33
1.7 函數、模塊和包36
1.7.1 函數36
1.7.2 模塊40
1.7.3 包42
1.8 文件的讀寫操作 45
1.8.1 文件讀寫步驟與打開模式46
1.8.2 文件的基本操作48
1.8.3 文件寫入操作52
1.9 面向對象53
1.9.1 類和對象54
1.9.2 封裝性58
1.9.3 繼承性59
1.9.4 多態性60
1.10 本章小結61
練習題61
第2章 爬蟲原理和網絡基礎62
2.1 爬蟲是什麼62
2.2 爬蟲的意義62
2.3 爬蟲的原理64
2.4 爬蟲技術的類型66
2.4.1 聚焦爬蟲技術66
2.4.2 通用爬蟲技術67
2.4.3 增量爬蟲技術69
2.4.4 深層網絡爬蟲技術70
2.5 爬蟲抓取策略71
2.5.1 深度優先遍歷策略 71
2.5.2 廣度優先遍歷策略71
2.5.3 Partial PageRank策略72
2.5.4 大站優先策略72
2.5.5 反向鏈接數策略73
2.5.6 OPIC策略 73
2.6 反爬蟲和反反爬蟲73
2.6.1 反爬蟲73
2.6.2 反反爬蟲77
2.7 網絡基礎79
2.7.1 網絡體系結構79
2.7.2 網絡協議79
2.7.3 Socket編程86
2.8 本章小結88
練習題88
第3章 Python常用庫89
3.1 Python庫的介紹89
3.1.1 常用標準庫89
3.1.2 安裝使用第三方庫91
3.2 urllib庫92
3.2.1 urlopen()函數用法93
3.2.2 urlretrieve()函數用法95
3.2.3 URL編碼和URL解碼96
3.2.4 urlparse()和urlsplit()函數用法97
3.3 request庫99
3.3.1 request庫的基本使用99
3.3.2 request庫的高級用法109
3.4 lxml庫113
3.4.1 lxml庫的安裝和使用113
3.4.2 XPath介紹114
3.4.3 XPath語法116
3.4.4 lxml和XPath的結合使用119
3.5 Beautiful Soup庫122
3.5.1 Beautiful Soup庫的安裝和使用123
3.5.2 提取數據125
3.5.3 CSS選擇器131
3.6 實戰案例134
3.6.1 使用Beautiful Soup解析網頁134
3.6.2 微信公眾號爬蟲135
3.6.3 爬取豆瓣讀書TOP500136
3.6.4 使用urllib庫爬取百度貼吧137
3.7 本章小結139
練習題139
第4章 正則表達式140
4.1 概念介紹140
4.2 正則表達式語法141
4.2.1 正則模式的字符141
4.2.2 運算符優先級142
4.3 匹配規則143
4.3.1 單字符匹配規則143
4.3.2 多字符匹配規則144
4.3.3 邊界匹配146
4.3.4 分組匹配147
4.4 re模塊常用函數150
4.4.1 re.match函數150
4.4.2 re.search函數152
4.4.3 re.compile函數153
4.4.4 re.sub函數155
4.4.5 re.findall函數156
4.4.6 re.finditer函數157
4.4.7 re.split函數157
4.5 本章小結158
練習題158
第5章 驗證碼159
5.1 PIL庫159
5.1.1 PIL庫的安裝159
5.1.2 PIL庫的常用函數160
5.1.3 PIL庫的應用163
5.1.4 應用PIL到實際開發169
5.2 Tesseract庫172
5.2.1 Tesseract庫的安裝172
5.2.2 Tesseract庫的使用174
5.2.3 Tesseract庫的識別訓練174
5.3 TensorFlow庫180
5.3.1 TensorFlow庫的安裝180
5.3.2 TensorFlow基本操作184
5.3.3 TensorFlow基礎架構186
5.3.4 TensorFlow創建線性回歸模型189
5.3.5 TensorFlow識別知乎驗證碼190
5.4 4種驗證碼的解決思路191
5.5 OCR處理驗證碼194
5.6 實戰案例195
5.7 本章小結199
練習題199
第6章 抓包利器Fiddler200
6.1 Fiddler簡介200
6.2 Fiddler的安裝和配置200
6.2.1 Fiddler的安裝201
6.2.2 Fiddler的配置202
6.3 Fiddler捕獲會話205
6.4 QuickExec命令行的使用207
6.5 Fiddler斷點功能209
6.6 Fiddler的實用工具210
6.7 實戰案例212
6.7.1 使用Fiddler抓取數據並分析212
6.7.2 使用Fiddler抓取HTTPS流量214
6.7.3 使用Fiddler抓取手機應用215
6.8 本章小結219
練習題219
第7章 數據存儲220
7.1 數據的基本存儲220
7.1.1 數據存儲至TXT220
7.1.2 數據存儲至CSV222
7.1.3 數據存儲至JSON223
7.2 數據存儲至MySQL數據庫227
7.2.1 配置MySQL服務227
7.2.
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。