商品簡介
網絡爬蟲是當今獲取數據不可或缺的重要手段。本書講解了Python 爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門並熟練使用爬蟲。
全書共8 章。第1 章講解Python 開發環境的安裝與配置以及Python 的基礎語法知識。第2 章講解如何運用Requests 庫和Selenium 庫獲取網頁源代碼。第3 章講解如何運用正則表達式和BeautifulSoup 庫解析和提取數據。第4 章深入講解Selenium 庫在商業實戰中的進階應用。第5 章講解爬蟲數據的處理與可視化。第6 章講解爬蟲數據結構化神器pandas 庫,以及如何通過Python 在MySQL 數據庫中讀寫數據。第7 章講解如何運用多線程和多進程技術提高爬蟲效率。第8 章講解如何運用IP 代理應對網站的反爬機制。
本書對於編程新手來說非常友好,從Python 基礎到爬蟲原理再到實戰應用,循序漸進地幫助讀者打好基礎。對於有一定Python 爬蟲基礎的讀者,本書也針對實戰中常見的疑點和難點提供了解決技巧。
作者簡介
王宇韜
華能貴誠信托金融科技實驗室發起人,賓夕法尼亞大學碩士,上海交通大學學士,曾在劍橋大學交流學習,兩年內通過CFA 3 級、FRM 2 級、AQF。在華能貴誠信托自主研發了輿情監控系統、資金雷達、流程自動化AI 系統、機器視頻面試系統等;專注於科技在金融領域的應用,編著有《Python 金融大數據挖掘與分析全流程詳解》和《Python 大數據分析與機器學習商業案例實戰》。
吳子湛
畢業於合肥工業大學計算機學院,就職於南京市秦淮區大數據中心;擁有多年IT 研發經驗,擅長大數據分析與挖掘。
名人/編輯推薦
本書講解了Python 爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門並熟練使用爬蟲。本書囊括了媒體熱點采集、金融數據爬取、網絡文件下載、電商數據研究等四大類42個爬蟲實戰案例,共計3000餘行代碼,涉及17個網站的數據與文件獲取,詳解了Requests 庫、Selenium 庫、正則表達式、BeautifulSoup 庫、多線程多進程爬蟲、IP 反爬機制應對等知識。
序
筆者編寫的《Python金融大數據挖掘與分析全流程詳解》於2019年出版面市後,陸續有不少讀者表示對該書的爬蟲部分非常感興趣,想做進一步的學習。筆者由此萌生了一個想法:專門針對Python爬蟲技術編寫一套書籍,在保留之前核心內容的基礎上,新增更多實戰案例,方便讀者在練中學,並體會Python爬蟲在實戰中的應用。
書稿編寫完成後,為了更好地滿足不同水平讀者的需求,方便他們根據自身情況更靈活地學習,筆者決定將書稿分為兩冊出版:第一冊為《零基礎學Python網絡爬蟲案例實戰全流程詳解(入門與提高篇)》,主要針對編程零基礎的讀者;第二冊為《零基礎學Python網絡爬蟲案例實戰全流程詳解(高級進階篇)》,主要針對有一定Python爬蟲編程基礎並且需要進階提高的讀者。
本書為《零基礎學Python網絡爬蟲案例實戰全流程詳解(入門與提高篇)》,分8章講解了Python爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門並熟練使用爬蟲。
第1章從Python開發環境的安裝與配置講起,循序漸進地過渡到Python的基礎語法知識,包括變量、數據類型、語句、函數與庫等,讓新手讀者能夠自己輸入簡單的代碼並使其運行起來。
任何爬蟲任務的起點都是獲取網頁源代碼。第2章講解了Python爬蟲中用於獲取網頁源代碼的兩個核心庫—Requests庫和Selenium庫,並簡單介紹了網頁結構和HTML標簽的知識,為第3章學習數據的解析與提取做好鋪墊。
獲取網頁源代碼後,接著需要從中解析與提取數據。第3章講解了Python爬蟲中解析與提取數據的兩種核心方法—正則表達式和BeautifulSoup庫,並通過豐富的案例進行實戰演練,包括百度新聞、證券日報網、中證網、新浪微博的數據爬取,以及上海證券交易所PDF文件和豆瓣電影海報圖片的下載等。
講解完Python爬蟲的基礎知識和基本技能,第4章進一步深入講解爬蟲神器Selenium庫,並通過案例講解了商業實戰中常用的大量進階爬蟲技術,案例包括新浪財經股票行情數據爬取、東方財富網(股吧、新聞、研報)相關數據爬取、上海證券交易所問詢函信息爬取及PDF文件下載、銀行間拆借利率爬取、雪球股票評論信息爬取、京東商品評價信息爬取、淘寶天貓商品銷量數據爬取、網頁自動投票等。
第5章講解爬蟲數據的處理與可視化,包括數據清洗、文本內容過濾、亂碼問題處理、輿情評分、中文分詞、詞云圖繪制等,讓讀者可以對獲取的數據進行深入的整理與挖掘。
第6章講解爬蟲數據結構化與數據存儲。首先介紹了爬蟲數據結構化神器pandas庫,並通過多個案例進行實戰演練,包括新浪財經資產負債表獲取、百度新聞文本數據結構化、百度愛企查股權穿透研究、天天基金網股票型基金信息爬取、集思錄可轉債信息爬取、東方財富網券商研報信息爬取等。然後介紹了用於存儲和管理數據的MySQL數據庫,以及如何通過Python在MySQL數據庫中讀寫數據。
第7章講解如何運用多線程和多進程技術提高爬蟲效率,重點分析了線程和進程的概念、多線程和多進程的邏輯,並通過百度新聞的多線程和多進程爬取進行實戰演練。
在爬蟲任務中最讓人煩惱的就是遇到網站的反爬機制,因此,第8章講解了應對反爬機制的常用手段—IP代理的原理和使用方法,並以爬取微信公眾號文章為例對IP代理進行了實戰演練。
本書對於編程零基礎的讀者來說非常友好,從Python基礎到爬蟲原理再到實戰應用,循序漸進地幫助讀者打好基礎。對於有一定Python爬蟲基礎的讀者,本書也針對實戰中常見的疑點和難點提供了解決技巧。
讀者如果想進一步學習反爬機制應對、手機App內容爬取、爬蟲框架、爬蟲云服務器部署等技術,可以閱讀《零基礎學Python網絡爬蟲案例實戰全流程詳解(高級進階篇)》。
由於筆者水平有限,書中難免有不足之處,懇請廣大讀者批評指正。讀者除了可掃描封底上的二維碼關注公眾號獲取信息以外,也可通過“本書學習資源”中列出的方法與我們交流。
目次
第1章 Python基礎
1.1 Python快速上手
1.1.1 安裝Python
1.1.2 編寫第一個Python程序
1.1.3 PyCharm的安裝與使用
1.1.4 Jupyter Notebook的使用
1.2 Python語法基礎知識
1.2.1 變量、行、縮進與注釋
1.2.2 數據類型:數字與字符串
1.2.3 數據類型:列表與字典、元組與集合
1.2.4 運算符
1.3 Python語句
1.3.1 if條件語句
1.3.2 for循環語句
1.3.3 while循環語句
1.3.4 try/except異常處理語句
1.4 函數與庫
1.4.1 函數的定義與調用
1.4.2 函數的返回值與變量的作用域
1.4.3 常用內置函數介紹
1.4.4 庫的導入與安裝
★ 課後習題
第2章 爬蟲第一步:獲取網頁源代碼
2.1 爬蟲核心庫1:Requests庫
2.1.1 如何查看網頁源代碼
2.1.2 用Requests庫獲取網頁源代碼:百度新聞
2.1.3 Requests庫的“軟肋”
2.2 爬蟲核心庫2:Selenium庫
2.2.1 模擬瀏覽器及Selenium庫的安裝
2.2.2 用Selenium庫獲取網頁源代碼:新浪財經股票信息
2.3 網頁結構分析
2.3.1 網頁結構基礎
2.3.2 網頁結構進階
★ 課後習題
第3章 爬蟲第二步:數據解析與提取
3.1 用正則表達式解析和提取數據
3.1.1 正則表達式基礎1:findall()函數
3.1.2 正則表達式基礎2:非貪婪匹配之“(.*?)”
3.1.3 正則表達式基礎3:非貪婪匹配之“.*?”
3.1.4 正則表達式基礎4:自動考慮換行的修飾符re.S
3.1.5 正則表達式基礎5:知識點補充
3.1.6 案例實戰:提取百度新聞的標題、網址、日期和來源
3.2 用BeautifulSoup庫解析和提取數據
3.2.1 解析特定標簽的網頁元素
3.2.2 解析特定屬性的網頁元素
3.2.3 提取標簽中的網址
3.2.4 案例實戰:新浪新聞標題和網址爬取
3.3 百度新聞爬取進階探索
3.3.1 批量爬取多家公司的新聞
3.3.2 將爬取結果保存為文本文件
3.3.3 異常處理及24小時不間斷爬取
3.3.4 批量爬取多頁內容
3.4 證券日報網爬取實戰
3.4.1 用正則表達式爬取
3.4.2 用BeautifulSoup庫爬取
3.5 中證網爬取實戰
3.6 新浪微博爬取實戰
3.7 上海證券交易所上市公司PDF文件下載
3.7.1 用Requests庫下載文件的基本方法
3.7.2 初步嘗試下載上海證券交易所上市公司PDF文件
3.8 豆瓣電影Top 250排行榜海報圖片下載
3.8.1 爬取單頁
3.8.2 爬取多頁
★ 課後習題
第4章 爬蟲神器Selenium庫深度講解
4.1 Selenium庫進階知識
4.2 新浪財經股票行情數據爬取
4.2.1 用Selenium庫爬取股票行情數據
4.2.2 用新浪財經API爬取股票行情數據
4.3 東方財富網數據爬取
4.3.1 上市公司股吧帖子爬取
4.3.2 上市公司新聞爬取
4.3.3 上市公司研報PDF文件下載
4.4 上海證券交易所問詢函信息爬取及PDF文件下載
4.4.1 批量下載單個頁面上的PDF文件
4.4.2 批量下載多個頁面上的PDF文件
4.4.3 匯總問詢函信息並導出為Excel工作簿
4.5 銀行間拆借利率爬取
4.6 雪球股票評論信息爬取
4.7 京東商品評價信息爬取
4.7.1 用Selenium庫爬取
4.7.2 用Requests庫爬取
4.8 淘寶天貓商品銷量數據爬取
4.9 Selenium庫趣味案例:網頁自動投票
★ 課後習題
第5章 數據處理與可視化
5.1 數據清洗與優化技巧
5.1.1 常用的數據清洗手段及日期格式的統一
5.1.2 文本內容過濾—剔除噪聲數據
5.1.3 數據亂碼問題處理
5.1.4 數據爬後處理之輿情評分
5.2 數據可視化分析—詞云圖繪制
5.2.1 用jieba庫實現中文分詞
5.2.2 用wordcloud庫繪制詞云圖
5.2.3 案例實戰:新浪微博詞云圖繪制
★ 課後習題
第6章 數據結構化與數據存儲
6.1 數據結構化神器—pandas庫
6.1.1 用read_html()函數快速爬取網頁表格數據
6.1.2 pandas庫在爬蟲領域的核心代碼知識
6.2 新浪財經—資產負債表獲取
6.3 百度新聞—文本數據結構化
6.3.1 將單家公司的新聞導出為Excel工作簿
6.3.2 將多家公司的新聞導出為Excel工作簿
6.4 百度愛企查—股權穿透研究
6.4.1 單層股權結構爬取
6.4.2 多層股權結構爬取
6.5 天天基金網—股票型基金信息爬取
6.5.1 爬取基金信息表格
6.5.2 爬取基金的詳情頁面網址
6.6 集思錄—可轉債信息爬取
6.7 東方財富網—券商研報信息爬取
6.7.1 爬取券商研報信息表格
6.7.2 爬取研報的詳情頁面網址
6.8 數據存儲—MySQL快速入門
6.8.1 MySQL的安裝
6.8.2 MySQL的基本操作
6.9 用Python操控數據庫
6.9.1 用PyMySQL庫操控數據庫
6.9.2 案例實戰:百度新聞數據爬取與存儲
6.9.3 用pandas庫操控數據庫
★ 課後習題
第7章 Python多線程和多進程爬蟲
7.1 理解線程與進程
7.1.1 計算機硬件結構基礎知識
7.1.2 線程與進程
7.1.3 單線程、多線程與多進程
7.1.4 爬蟲任務中的多線程與多進程
7.2 Python多線程爬蟲編程實戰
7.2.1 Python多線程編程基礎知識
7.2.2 Python多線程編程進階知識
7.2.3 案例實戰:多線程爬取百度新聞
7.3 Python多進程爬蟲編程實戰
7.3.1 Python多進程編程基礎知識
7.3.2 Python多進程編程進階知識
7.3.3 案例實戰:多進程爬取百度新聞
★ 課後習題
第8章 IP代理使用技巧與實戰
8.1 結合Requests庫使用IP代理
8.1.1 IP代理基礎知識
8.1.2 IP代理的使用
8.2 IP代理實戰1:用Requests庫爬取公眾號文章
8.2.1 直接用Requests庫爬取
8.2.2 添加IP代理進行爬取
8.2.3 添加智能IP切換系統
8.3 結合Selenium庫使用IP代理
8.4 IP代理實戰2:用Selenium庫爬取公眾號文章
8.4.1 直接用Selenium庫爬取
8.4.2 添加IP代理進行爬取
8.4.3 添加智能IP切換系統
★ 課後習題
後記
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。