TOP
0
0
【簡體曬書節】 單本79折,5本7折,優惠只到5/31,點擊此處看更多!
數據分析原理與實踐:基於經典算法及Python編程實現(簡體書)
滿額折

數據分析原理與實踐:基於經典算法及Python編程實現(簡體書)

商品資訊

人民幣定價:89.9 元
定價
:NT$ 539 元
優惠價
87469
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:14 點
相關商品
商品簡介
作者簡介
目次

商品簡介

本書主要採用理論學習與實踐操作並重、上層應用與底層原理相結合的方式講解數據分析師需要掌握的數據分析基礎知識,包括基礎理論、關聯規則分析、回歸分析、分類分析、聚類分析、集成學習、自然語言處理、圖像處理和深度學習。每章內容從7個方面展開講解:包括應用場景、算法原理、核心術語、Python編程實踐、重點與難點解讀、習題和主要參考文獻及推薦閱讀書目。
本書在編寫過程中不僅充分借鑒了國內外著名大學設立的相關課程、專家學者的代表性成果,以及近幾年的熱門暢銷書,而且也考慮到了國內相關課程的教學以及相關從業人員自學的需求。
本書可以滿足數據科學與大數據技術、大數據管理與應用、計算機科學與技術、管理工程、工商管理、數據統計、數據分析、信息管理與信息系統、商業分析等多個專業的教師、學生的教學和學習需要,也適合廣大從事數據分析工作的人員學習參考。

作者簡介

朝樂門,一流本科課程“數據科學導論”負責人,數據科學50人,中國人民大學青年杰出學者;中國計算機學會信息系統專委員會執行委員、全國高校人工智能與大數據創新聯盟專家委員會副主任;核心期刊《計算機科學》執行編委、英文期刊Data Scienceand Informatics副主編;榮獲教育部高等學校科學研究優秀成果獎、IBM全球卓越教師獎、留學基金委-IBM中國優秀教師獎教金等多種獎勵30余項;曾出版我國早期系統闡述數據科學的重要專著之一《數據科學》。



數據分析已成為現代人才必備的能力之一。然而,數據分析能力是一種綜合素質,不僅需要扎實的理論功底,而且還需要豐富的實踐經驗。在理論學習方面,數據分析師必須具備機器學習、統計學、數據分析、高等數學、線性代數、運籌學、離散數學、人工智能、數據庫、數據倉庫、數據挖掘等基礎知識;在實踐操作方面,數據分析師需要積累大量的實際動手操作經驗,尤其是基於Python語言的開源工具的數據分析實戰經驗。因此,如何有效學習數據分析理論和進行實踐已成為多數初學者所面臨的挑戰。
破解這一難題的關鍵在於師資和教材。遇到一位好老師或一本好書,對於初學者而言是機遇也是幸運。我認為,一本好的數據分析圖書需要同時滿足以下條件:不僅能讀懂,而且能讀下去;能激發深入學習的興趣,增強讀者繼續學習的信心;不僅有理論知識,而且有實踐操作;融會貫通數據分析的多種基礎理論,不受限於單一理論;探討更好的學習思路,提供更豐富的實踐技巧;有特色,有智能。但是,很多同學和朋友曾多次跟我反映,“很難找到這樣的好書”。對此,我都會回答:“那麼,等我寫一本吧!”這就是我寫本書的初心和使命。
本書的編寫過程是一個反復打磨的過程,融入了我和我的團隊長期從事數據科學與大數據分析相關的教學一線、科學研究和數據分析的實踐經驗,以及我應邀擔任多個企事業單位數據科學家或大數據顧問的經驗。同時,本書不僅吸收了國際一流大學及國外相關領域的標志性成果及最新進展,而且充分體現了我國數據分析人才培養的需要及未來社會人才需求的基本要求。
本書由朝樂門主編,完成了頂層設計、內容選擇、知識講解和注解點評,張晨(第2章和第7章)、余欣(第3章)、劉璇(第3章、第6章)、王銳(第3章、第4章)、孫智中(第4章)、尹顯龍(第4章)、斳慶文(第4章、第5章)、肖紀文(第6章)、熊雷(第9章)、任安興(第8章)參與部分內容的編寫工作,鄧寧遠參與了校對工作,在此一並感謝。同時,本書出版得到了機械工業出版社的王斌編輯、中國人民大學、啟迪數字學院、教育部阿裡云計算有限公司產學合作協同育人項目以及本書編委會的指導與幫助,在此感謝他們的鼎力支持。
本書在編寫過程中參考和引用了大量國內外文獻資料,雖盡可能地標注了出處,但也難免有遺漏。因此,也向有關作者表示衷心的感謝。由於我們的水平有限,疏漏、不足乃至錯誤之處在所難免,敬請各位專家批評指正。
朝樂門
2022年6月18日
於中國人民大學中關村校區


目次


第1章數據分析概述
1.1數據分析的基本類型
1.2數據分析與機器學習
1.2.1統計學與機器學習
1.2.2機器學習算法的類型
1.2.3機器學習中的算法、模型、
參數和超參數
1.2.4數據分析中的基礎算法
1.2.5數據分析中的高級算法
1.3數據分析的主要流程
1.4數據分析中的算法選擇
1.5數據分析中常用的Python包
1.5.1NumPy
1.5.2Pandas
1.5.3Matplotlib
1.5.4Seaborn
1.5.5statsmodels
1.5.6scikitlearn
1.5.7jieba
1.5.8OpenCV
1.5.9TensorFlow和PyTorch
1.6數據分析的注意事項
1.7數據分析的現狀與趨勢
1.8習題
1.9主要參考文獻及推薦閱讀書目
第2章關聯規則分析
2.1應用場景
2.2算法原理
2.2.1Apriori算法的假設
2.2.2Apriori算法的流程
2.3核心術語
2.3.1事務型數據
2.3.2項集
2.3.3支持度
2.3.4置信度
2.3.5提升度
2.3.6關聯規則
2.4Python編程實踐——購物車分析
2.4.1業務理解
2.4.2數據讀入
2.4.3數據理解
2.4.4數據預處理
2.4.5生成頻繁項集
2.4.6計算關聯度
2.4.7可視化
2.5重點與難點解讀
2.6習題
2.7主要參考文獻及推薦閱讀書目
第3章回歸分析
3.1應用場景
3.2算法原理
3.2.1基本思路
3.2.2評價方法
3.3核心術語
3.3.1回歸分析中常用的統計量
3.3.2特徵矩陣與目標向量
3.3.3過擬合與欠擬合
3.3.4高杠桿點、離群點和強影響點
3.4Python編程實踐
3.4.1線性回歸——女性身高與體重
數據分析
3.4.2多元回歸——廣告收入數據分析
3.4.3泊松回歸——航班數據分析
3.5重點與難點解讀
3.5.1參數解讀——線性回歸算法
3.5.2ZScore標準化
3.5.3方差
3.5.4相關係數
3.5.5泊松分布
3.5.6L1和L2正則化
3.5.7閔氏距離、歐氏距離、曼哈頓距離
和切比雪夫距離
3.6習題
3.7主要參考文獻及推薦閱讀書目
第4章分類分析
4.1應用場景
4.2算法原理
4.1.1KNN
4.1.2貝葉斯分類
4.1.3支持向量機
4.1.4邏輯回歸
4.3核心術語
4.3.1偏差和方差之間的權衡
4.3.2學習曲線
4.3.3混淆矩陣
4.3.4ROC曲線與AUC面積
4.3.5貝葉斯理論
4.3.6核函數及核技巧
4.4Python編程實踐——病例自動診斷
分析
4.4.1使用KNN算法實現
4.4.2使用貝葉斯分類算法實現
4.4.3使用SVM算法實現
4.4.4使用邏輯回歸算法實現
4.5重點與難點解讀
4.5.1參數解讀——KNN、貝葉斯分類、
SVM和邏輯回歸算法
4.5.2數據標準化處理
4.5.3混淆矩陣及分類算法的評價指標
4.5.4最大似然估計
4.5.5判別模型與生成模型
4.5.6類別不平衡問題
4.5.7KD Tree與Ball Tree
4.5.8GridSearchCV及其原理
4.5.9GaussianNB、MultinomialNB和
BernoulliNB的區別
4.5.10LabelEncoder及其原理
4.6習題
4.7主要參考文獻及推薦閱讀書目
第5章聚類分析
5.1應用場景
5.2算法原理
5.2.1kmeans算法
5.2.2聚類效果的評價
5.3核心術語
5.4Python編程實踐——蛋白質消費特徵
分析
5.4.1業務理解
5.4.2數據讀入
5.4.3數據理解
5.4.4數據準備
5.4.5模型訓練
5.4.6模型評價
5.4.7模型調參
5.4.8模型預測
5.5重點與難點解讀
5.5.1參數解讀——kmeans算法
5.5.2kmeans++方法
5.5.3elkan方法
5.6習題
5.7主要參考文獻及推薦閱讀書目
第6章集成學習
6.1應用場景
6.2算法原理
6.2.1隨機森林
6.2.2XGBoost
6.3核心術語
6.4Python編程實踐——房屋價格預測
分析
6.4.1使用隨機森林算法實現
6.4.2使用XGBoost實現
6.5重點與難點解讀
6.5.1參數解讀——隨機森林和
XGBoost
6.5.2純度最大化
6.5.3數據標準化
6.5.4泰勒展開式
6.5.5集成學習中幾個注意事項
6.6習題
6.7主要參考文獻及推薦閱讀書目
第7章自然語言處理
7.1應用場景
7.2算法原理
7.2.1中文分詞
7.2.2詞袋模型
7.2.3Ngrams模型
7.2.4TFIDF算法
7.2.5文本規範化
7.2.6詞性標注
7.3核心術語
7.4Python編程實踐——2021年政府工作
報告分析
7.4.1業務理解
7.4.2數據讀入
7.4.3分詞處理
7.4.4添加自定義詞匯
7.4.5詞性標注
7.4.6停用詞處理
7.4.7詞性分布分析
7.4.8高頻詞分析
7.4.9關鍵詞抽取
7.4.10繪製詞云圖
7.5重點與難點解讀
7.5.1NLTK的詞性標注
7.5.2NLTK的功能模塊
7.6習題
7.7主要參考文獻及推薦閱讀書目
第8章圖像處理
8.1應用場景
8.2算法原理
8.2.1建模階段
8.2.2檢測階段
8.3核心術語
8.4Python編程實踐——人臉檢測分析
8.4.1安裝並導入OpenCVpython包
8.4.2讀取圖像文件
8.4.3將RGB圖像轉換為灰度圖
8.4.4人臉檢測與矩陣標識
8.4.5圖像顯示
8.4.6圖像保存
8.5重點與難點解讀
8.5.1參數解讀——OpenCV
8.5.2AdaBoost算法
8.5.3基於OpenCV和CNN的圖像處理
的對比
8.5.4Haar特徵和LBP特徵的
對比分析
8.5.5AdaBoost算法和XGboost算法的
主要區別
8.6習題
8.7主要參考文獻及推薦閱讀書目
第9章深度學習
9.1應用場景
9.2算法原理
9.2.1全連接神經網絡及其缺點
9.2.2全連接神經網絡的改進及卷積
神經網絡的提出
9.2.3卷積神經網絡的基本思路
9.2.4CNN的整體流程
9.3核心術語
9.4Python編程實踐——手寫數字識別
分析
9.4.1業務理解
9.4.2數據讀入及理解
9.4.3數據準備
9.4.4數據理解
9.4.5定義CNN的學習框架
9.4.6執行CNN學習及模型訓練
9.4.7模型評價
9.4.8模型預測
9.5重點與難點解讀
9.5.1參數解讀——CNN算法
9.5.2機器學習中的性能與可解釋性
的矛盾
9.5.3隨機梯度下降及學習率
9.5.4Onehot encoding
9.5.5端到端的學習
9.5.6CNN與其他深度學習方法的區別
及聯繫
9.5.7CNN算法設置超參數的
經驗法則
9.6習題
9.7主要參考文獻及推薦閱讀書目
附錄習題參考答案


您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 469
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區