TOP
0
0
即日起~6/30,暑期閱讀書展,好書7折起
數據科學理論與實踐(第2版)(簡體書)
滿額折

數據科學理論與實踐(第2版)(簡體書)

商品資訊

人民幣定價:69.8 元
定價
:NT$ 419 元
優惠價
87365
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:10 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

重點介紹數據科學中的新理論和代表性實踐,填補數據科學與大數據技術專業的核心教材的空白。主要內容包括:基礎理論(術語定義、研究目的、發展簡史、理論體系、基本原則、數據科學家)、理論基礎(數據科學的學科地位、統計學、機器學習、數據可視化)、流程與方法(基本歷程、數據加工、數據審計、數據分析、數據可視化、數據故事化、項目管理)、技術與工具(技術體系、MapReduce、Hadoop、Spark、NoSQL與NewSQL、R與Python)、數據產品及開發(主要特征、關鍵活動、數據柔術、數據能力、數據戰略、數據治理)、典型案例及實踐等

作者簡介

中國人民大學副教授,博士生導師;國家精品在線開放課程《數據科學導論》負責人;中國計算機學會信息系統專委員會委員、中國軟件行業協會中國軟件專業人才培養工程專家委員、全國高校人工智能與大數據創新聯盟專家委員會副主任、全國高校大數據教育聯盟大數據教材專家指導委員會委員;

名人/編輯推薦

(1)國家精品開放在線課程《數據科學導論》的配套教材(2)一本系統講解全球范圍內的數據科學的新理論與代表性實踐的教材; 

目次

目錄


第1章基礎理論

 如何開始學習

1.1術語定義

1.2研究目的

1.3研究視角

1.4發展簡史

1.5理論體系

1.6基本原則

1.7相關理論

1.8人才類型

如何繼續學習

習題

參考文獻

第2章理論基礎

 如何開始學習

2.1數據科學的學科地位

2.2統計學

2.3機器學習

2.4數據可視化

如何繼續學習

習題

參考文獻

第3章流程與方法

 如何開始學習

3.1基本流程

3.2數據加工

3.3數據審計

3.4數據分析

3.5數據可視化

3.6數據故事化

3.7數據科學項目管理

3.8數據科學中的常見錯誤

如何繼續學習

習題

參考文獻

第4章技術與工具

 如何開始學習

4.1數據科學的技術體系

4.2MapReduce

4.3Hadoop 

4.4Spark

4.5NoSQL與NewSQL

4.6R與Python

4.7發展趨勢

如何繼續學習

習題

參考文獻

第5章數據產品及開發

 如何開始學習

5.1定義

5.2主要特征

5.3關鍵活動

5.4數據柔術

5.5數據能力

5.6數據戰略

5.7數據治理

5.8數據安全、隱私、道德與倫理

如何繼續學習

習題

參考文獻

第6章典型案例及實踐

 如何開始學習

6.1統計分析

6.2機器學習

6.3數據可視化

6.4Spark編程

6.52012年美國總統大選

如何繼續學習

習題

參考文獻

附錄A本書例題的R語言版代碼

附錄B數據科學的重要資源

附錄C術語索引

后記

 

 

 

 


圖目錄
圖11DIKW金字塔模型3

圖12數據與數值的區別4

圖13數字信號與模擬信號4

圖142008—2015年全球數據規模及類型的估計6

圖15大數據的特征7

圖16大數據的本質8

圖17人工智能、機器學習和深度學習的區別與聯系10

圖18DIKUW模型及應用11

圖19數據洞見12

圖110業務數據化與數據業務化12

圖111常用驅動方式13

圖112數據的層次性13

圖113大數據生態系統示意圖14

圖114數據科學的新研究視角15

圖115Gartner技術成熟度曲線16

圖116數據科學的萌芽期(1974—2009年)17

圖117數據科學的快速發展期(2010—2013年)18

圖118數據科學的逐漸成熟期(2014年至今)19

圖119數據科學的理論體系20

圖120數據科學的主要內容20

圖121數據科學的“三世界原則”22

圖122數據科學的“三個要素”及“3C精神”23

圖123計算密集型應用與數據密集型應用的區別24

圖124數據范式與知識范式的區別25

圖125數據管理范式的變化25

圖126數據的“資產”屬性26

圖127常用驅動方式28

圖128CAPTCHA方法的應用28

圖129ReCAPTCHA項目29

圖130數據與算法之間的關系30

圖131BellKors Pragmatic Chaos團隊獲得Netflix獎30

圖132Netflix獎公測結果31

圖133數據科學與商務智能的區別與聯系32

圖134數據科學與數據工程在企業應用中的區別與聯系33

圖135數據科學人才類型及其收入33

圖136RStudio中編輯Markdown的窗口35

圖137數據科學家團隊38

圖138大數據人才應具備的不同知識結構40

圖139學習數據科學的四則原則43

圖21數據科學的理論基礎50

圖22統計方法的分類(行為目的與思路方式視角)52

圖23統計學中的數據推斷53

圖24數據統計方法的類型(方法論視角)53

圖25數據統計基本方法54

圖26元分析與基本分析54

圖27GFT預測與美國疾病控制中心數據的對比55

圖28GFT估計與實際數據的誤差(2013年2月)56

圖29大數據時代的思維模式的轉變58

圖210西洋雙陸棋58

圖211機器人駕駛58

圖212機器學習的基本思路59

圖213機器學習的三要素61

圖214機器學習的類型62

圖215KNN算法的基本步驟63

圖216決策樹示例——識別鳥類65

圖217感知器示例67

圖218前向神經網絡67

圖219歸納學習與分析學習70

圖220增強學習70

圖221機器學習的類型71

圖222IBM Watson72

圖223Pepper機器人73

圖224機器學習中的數據73

圖225Anscombe四組數據的可視化77

圖226John Snow的鬼地圖(Ghost Map)78

圖227在Tableau中加利福尼亞州政府收入來源數據的可視化79

圖31數據科學的基本流程83

圖32量化自我84

圖33規整數據與干凈數據的區別85

圖34規整數據示意圖86

圖35殘差89

圖36數據分析的類型90

圖37Analytics 1.0~3.091

圖38數據加工方法92

圖39數據審計與數據清洗93

圖310缺失數據處理的步驟94

圖311冗余數據處理的方法94

圖312數據分箱處理的步驟與類型96

圖313均值平滑與邊界值平滑96

圖314內容集成98

圖315結構集成99

圖316數據脫敏處理100

圖317數據連續性的定義及重要性104

圖318可視化審計示例106

圖319Gartner分析學價值扶梯模型106

圖320冰激凌的銷售量與謀殺案的發生數量108

圖321數據分析的類型110

圖322拿破侖進軍俄國慘敗而歸的歷史事件的可視化111

圖323可視分析學的相關學科111

圖324可視分析學模型112

圖325數據可視化的方法體系113

圖326視覺圖形元素與視覺通道113

圖327雷達圖示例114

圖328齊美爾連帶114

圖329視覺隱喻的示例——美國政府機構的設置114

圖330地鐵路線圖的創始人Henry Beck115

圖331Henry Beck的倫敦地鐵線路圖116

圖332視覺突出的示例116

圖333完圖法則的示例117

圖334視覺通道的選擇與展示119

圖335視覺通道的精確度對比119

圖336視覺通道的可辨認性——某公司產品銷售示意圖120

圖337視覺通道的可分離性差120

圖338上下文導致視覺假象1121

圖339上下文導致視覺假象2121

圖340對亮度和顏色的相對判斷容易造成視覺假象的示例121

圖341數據可視化表達與數據故事化描述126

圖342數據的故事化描述及故事的展現127

圖343項目管理的主要內容130

圖344數據科學項目的基本流程131

圖412017大數據產業全景圖140

圖42大數據參考架構142

圖43MapReduce執行過程144

圖44MapReduce對中間數據的處理148

圖45以MapReduce為核心和以YARN為核心的軟件棧對比150

圖46下一代MapReduce框架151

圖47Apache的Hadoop項目151

圖48Hadoop生態系統152

圖49Hadoop MapReduce數據處理過程153

圖410Apache Hive官方網站155

圖411Apache Pig官方網站156

圖412Apache Mahout官方網站157

圖413Apache HBase官方網站157

圖414HBase與Hadoop項目158

圖415HBase的邏輯模型159

圖416Apache ZooKeeper官方網站160

圖417Apache Flume官方網站161

圖418Apache Sqoop官方網站162

圖419Spark 技術架構163

圖420Spark的基本流程164

圖421Spark的執行步驟169

圖422Lambda 架構的主要組成部分171

圖423傳統關系數據庫的優點與缺點172

圖424關系數據庫技術與NoSQL技術之間的關系174

圖425NoSQL數據分布的兩個基本途徑175

圖426分片處理176

圖427主從復制177

圖428對等復制178

圖429數據不一致性179

圖430CAP理論180

圖431Memcached官方網站183

圖432一致性散列的分配方式184

圖433服務器增加時的變化184

圖434云計算的演變過程188

圖435數據管理的新變化190

圖4362016—2018年數據科學相關項目中軟件產品的使用率(%)192

圖4372019年Gartner數據科學和機器學習平臺魔力194

圖51數據產品開發中的數據與數據柔術201

圖52知識范式與數據范式203

圖53數據產品的多樣性204

圖54數據產品的層次性205

圖55Google全球商機洞察(Google Global Market Finder)206

圖56數據產品鏈207

圖57傳統產品開發與數據產品開發的區別208

圖58D.J.Patil209

圖59UI(User Interface)設計方案與設計思維210

圖510Google搜索的用戶體驗211

圖511人與計算機圖像內容識別能力的不同211

圖512Amazon Mechanical Turk平臺213

圖513一個HIT的生命周期213

圖514基于人與計算機的數據處理成本曲線214

圖515亞馬遜的數據產品——其他商家(Other Sellers)215

圖516LinkedIn的數據產品——你可能認識的人們(People you may know)216

圖517LinkedIn的數據產品——你的觀眾是誰216

圖518逆向交互定律217

圖519LinkedIn數據產品——崗位推薦219

圖520LinkedIn的數據產品——幫助你的朋友找到工作220

圖521Facebook的良好用戶體驗220

圖522DMM模型基本思路222

圖523CMM基本思想222

圖524CMM成熟度等級224

圖525DMM關鍵過程域225

圖526DMM層級劃分及描述227

圖527IDEAL模型229

圖528組織機構數據管理能力成熟度評估結果的可視化229

圖529數據戰略與數據管理目標的區別230

圖530數據戰略的目標231

圖531數據戰略的側重點231

圖532數據戰略的范疇231

圖533數據管理與數據治理的區別233

圖534IBM提出的企業數據管理的范疇233

圖535數據治理的PDCA模型234

圖536DGI數據治理框架235

圖537P2DR模型237

圖538從歐洲大陸的空戰中返回的轟炸機238

圖61KMeans算法的基本步驟267

圖62奧巴馬2012年總統競選芝加哥總部287

圖63George Clooney288

圖64Sarah Jessica Parker288

圖65奧巴馬及“快速捐贈計劃”290

圖66奧巴馬通過Reddit與選民互動291

圖672012年美國總統競選財務數據官方網站292

圖A1女性體重與身高的線性回歸分析314

圖A2工資數據的可視化327

圖A3起飛延誤時間339

圖A4到達延誤時間339

圖A5捐助人職業、黨派及捐助額度分析352

圖A6分箱處理后的捐款數據可視化353

圖A7捐款日期與金額的可視化354

圖A8捐款月份與金額變化分析355

圖A9投票結果的可視化357

 

 

 

 


表目錄
表11結構化數據、非結構化數據與半結構化數據的區別與聯系5

表12某數據科學家的畫像(Profile)37

表21參數估計與假設檢驗的主要區別53

表22統計學與機器學習的術語對照表57

表23機器學習的相關學科61

表24已知6部電影的類型及其中出現的接吻次數和打斗次數64

表25已知電影與未知電影的距離64

表26分析學習和歸納學習的比較70

表27Anscombe的四組數據(Anscombes Quartet)76

表31測試數據A86

表32測試數據B86

表33測試數據C86

表34Pew論壇部分人員信仰與收入數據統計(規整化處理之前)87

表35Pew論壇部分人員信仰與收入數據統計(規整化處理之后)87

表36探索性統計中常用的集中趨勢統計量89

表37探索性統計中常用的離散程度統計量89

表38探索性統計中常用的數據分布統計量89

表39常見的數據變換策略97

表310十進制第一數字的使用概率103

表311數據分析中常見錯誤109

表312數據類型及所支持的操作類型118

表313數據類型與視覺通道的對應關系118

表314數據故事化描述應遵循的基本原則128

表315數據科學項目中的主要角色及其任務130

表41Transformation常用函數166

表42Action常用函數166

表43RDD的存儲級別167

表44Spark數據類型和R數據類型之間的映射關系170

表45較有代表性的云數據庫產品174

表46NoSQL數據庫中常用的數據模型175

表47R與Python對比186

表48云計算的基本類型189

表49排名前10位數據科學產品的使用率及變化情況/%194

表51數據轉換與數據加工的區別202

表52Google公司的十大產品與服務202

表53數據管理成熟度模型的過程域分類226

表54信息系統安全等級及保護基本要求237

表55腎結石治療數據分析——兩種治療方案的分別統計240

表56兩種治療方案的匯總統計240

表61數據集women248

表62Protein數據集266

表63工資信息274

表64各字段的名稱及含義292

表A1Spark版本差異性331

表A2Spark與R的數據類型對比332

表A3SparkR與sparklyr比較340

 

書摘/試閱

第5章數據產品及開發
 如何開始學習
【學習目的】
 【掌握】 數據產品的類型、主要特征及開發方法。
 【理解】 數據能力的評估方法、數據治理的主要內容、數據柔術的基本思想。
 【了解】 數據戰略的制定要求。
【學習重點】
 數據產品的開發方法。
 數據能力的評估方法。
 數據治理的主要內容。
 數據柔術的基本思想。
【學習難點】
 數據產品的設計。
 數據柔術的基本思想。
 DMM模型的應用。
【學習問答】

 

 


序號我 的 提 問本章中的答案

1數據產品是什麼?與傳統產品之間的區別是什麼?定義(5.1節)、主要特征(5.2節)
2如何開發數據產品?關鍵活動(5.3節)、數據柔術(5.4節)、數據能力(5.5節)、數據戰略(5.6節)、數據治理(5.7節)
3數據產品開發需要具備哪些基本功?數據柔術(5.4節)、數據能力評估(5.5節)、數據戰略制定(5.6節)、數據治理(5.7節)
4數據管理與數據治理的區別是什麼?數據治理與數據管理的區別(5.7節)

5數據柔術是什麼?如何掌握數據柔術?數據柔術(5.4節)
6如何評估一個組織機構的數據管理能力?數據能力(5.5節)
7如何制定一個組織機構的大數據戰略?數據戰略(5.6節)

數據產品開發是數據科學的重要研究任務之一,也是數據科學區別于其他科學的重要研究任務。與傳統產品開發不同的是,數據產品開發具有以數據為中心、多樣性、層次性和增值性等特征。數據產品開發是數據科學的主要抓手,也是傳統產品的下一輪創新和更新換代的關鍵所在。


數據產品開發案例1——Metromile項目及保險產品的創新

Metromile是2011年在美國舊金山成立的一家汽車保險機構。在傳統汽車保險中,無論您行車多或少,所繳的汽車保費是固定不變的,這對于那些行車少的人明顯不夠公平。
根據Metromile提供的數據,65%的車主支付了過高的保費以補貼少數行車最多的人。Metromile提供的是按里程收費的汽車保險,以改變傳統的固定收費模式,讓行車少的人支付更少的保費,實現里程維度上的個性化定價。
Metromile提供的車險由基礎費用和按里程變動費用兩部分組成,其計算公式為: 每月保費總額=每月基礎保費 每月行車里程×單位里程保費。其中,每月基礎保費和單位里程保費會根據不同車主的情況有所不同(例如年齡、車型、駕車歷史等),每月基礎保費一般為15~40美元,按里程計費的部分一般是2~6美分/英里(1英里=1.609344千米)。Metromile還設置了保費上限,當日里程數超過150英里(華盛頓地區是250英里)時,超過的部分不需要再多繳保費。
之所以能夠實現按里程計算保費,源于物聯網等信息技術的應用。車主需要安裝一個由Metromile免費提供的OBD設備——Metromile Pulse,以計算每次出行的里程數。配合手機APP,Metromile還能為車主提供更多的智能服務,例如最優的導航線路、查看

 

油耗情況、檢測汽車健康狀況、汽車定位、一鍵尋找附近修車公司、貼條警示等服務,並且每月會通過短信或者郵件對車主的相關數據進行總結曉保.Metromile: 更公平的車險[J].金融經濟,2018(17).。

數據產品開發案例2——Amazon專利及電商產品的創新

在您購買之前,電商已經知道您近期會買什麼並把貨物送到你家附近?本文為您解讀亞馬遜的一項重要發明——Amazons Anticipatory Shipping(預期送貨),具有很強的開創性,是數據科學領域的經典實踐之一。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 365
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區