TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
R語言:大數據分析中的統計方法及應用(簡體書)
滿額折

R語言:大數據分析中的統計方法及應用(簡體書)

人民幣定價:48 元
定  價:NT$ 288 元
優惠價:87251
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:7 點
相關商品
商品簡介
目次

商品簡介

大數據分析,其學習起點應是大數據的統計分析;大數據分析,其學習特點應是案例化、工具化和業務導向化。本書面向大數據分析實踐,基於大數據案例,以問題為線索,以解決問題為導向講解統計方法及R語言實現;突出大數據應用特色,兼顧統計方法的經典性和普適性、理論講解的通俗性和嚴謹性、R語言代碼的實操性和示範性。本書提供配套全部案例數據及各章節R語言程序代碼,可登錄華信教育資源網www.hxedu.com.cn免費下載。

大數據時代,數據是生產資料,計算是生產力,互聯網是生產關係,而數據分析就是串聯各個生產要素的基本生產方式。
目前比較有代表性的大數據定義,來自麥肯錫全球研究院McKinsey Global Institute、高德納公司Gartner和IBM公司等先行研究機構的綜合觀點。從狹義角度來講,大數據是一個具有5V特徵的大規模數據集合。5V即海量的數據規模(Volume)、快速流轉且動態激增的數據體系(Velocity)、多樣異構的數據類型(Variety)、潛力大但密度低的數據價值(Value),以及受噪聲影響的數據質量(Veracity)。而從廣義角度來講,大數據的概念還應包含大數據的理論、技術、應用和產業生態這四個基本範疇。
近年來,我國大數據事業迅猛發展,大數據人才的需求與培養也日趨緊迫。全國高校“大數據技術與應用”和“數據科學與大數據技術”專業建設不斷升溫。一般我們可將大數據技術概括為兩大方向:一是大數據工程,二是大數據分析,並分別對應著大數據工程師和大數據分析師這兩個角色。總體而言,隨著大數據系統架構和基礎設施的不斷完善和普及,以大數據工程為核心的相關項目終究是有限的。而隨著移動互聯網和物聯網的廣泛應用,以及各方對精細化管理、個性化營銷和智能化決策的渴望,大數據分析將不斷深入到各行各業,大數據分析人才的需求也必將呈現出長期性、有規模的增長態勢。
數據分析的理論發展和實踐經驗都證明,掌握大數據分析,其學習起點應是大數據的統計分析。進一步,我們認為,學習大數據的統計分析應面向市場需求、面向實際應用,所以應具有以下三個特點。
第一,要結合大數據分析的實際案例。
面對“5V俱全”的大數據體系,許多經典的統計分析方法仍然有效,是我們分析問題、解決問題的可靠手段,但需要突破那種“小樣本、習題式”的傳統學習模式,要精挑有針對性的大數據集合,細選有說明性的大數據案例,以這些數據和案例為引導,有條理地形成分析思路,並貫穿整個學習過程,從而真正實現由表及裡、深入淺出的學習體驗。
第二,要結合大數據分析的應用工具。
大數據的統計分析應進一步突破“重理論講解,重公式推導,輕技能培養,輕工具實現”的傳統學習模式,要將各個知識點言簡意賅地闡述透徹,同時也要同步掌握一個有效的軟件工具,進而可對相應的數據與案例進行實操破解。
第三,要結合大數據分析的目標導向。
大數據的統計分析應進一步突破“方法導向”的傳統學習模式,應圍繞大數據案例,確定分析目標,細化研究問題,明確分析思路,並以業務問題為出發點,形成以目標為導向的學習模式,努力培養大數據分析人才的數據敏感性,以及發現問題和運用恰當統計分析方法解決問題的能力。最終針對整個知識體系建立“問題→概念→方法→工具→結果→分析解釋”一條龍式的學習模式。
本書正是結合上述三個特點而籌劃推出的,具體表現在以下三個方面。
第一,選擇典型的大數據分析案例。
選用三個典型的大數據案例貫穿全書,並提供數據集和分析程序的下載,主要內容為手機APP美食餐館食客點評數據、北京市空氣質量監測數據、超市顧客購買行為數據等。這些案例具有大數據分析應用的代表性,而且業務問題直觀明瞭,數據含義通俗易懂。一方面使讀者能夠直接感知大數據處理規模,另一方面也可有效避免由於專業領域不同而帶來的數據理解問題。
第二,選擇開源的大數據分析工具R語言。
選用R語言作為大數據分析工具。從分析工具的方法覆蓋全面性、學習難易程度、使用流行性、未來發展潛力和開源性等多方面考慮,R語言都是進行大數據統計分析的最恰當工具。
第三,設計並提出研究問題和分析思路。
本書在每章開篇,均首先圍繞大數據案例提出若干分析需求的問題,同時提煉總結出這些問題的共性特徵,進而提出可行的統計分析思路,建立學習途徑;然後討論方法原理,給出解決案例問題的R語言程序代碼和詳細的結果說明。
為確保內容的完整性和實用性,本書在大數據分析案例的選擇、分析工具講解的詳略程度、以目標為導向的主流統計方法覆蓋的全面性等方面,都進行了精心安排和綜合設計。本書共12章。第1章在大數據基本定義的基礎上,明確給出了本書的學習目標和定位。然後,對R語言的基本概念和入門知識進行了較為詳盡的講解。之後,提出了大數據的統計分析整體框架和思路,並基於大數據分析案例,對相關統計概念和內容進行了說明,旨在方便讀者儘快明晰統計分析路線。數據組織是數據分析的基礎,數據整理是數據分析不可或缺的必要環節。因此第2章和第3章直入主題,討論了R語言的數據組織、整理以及編程基礎,引入三個大數據分析案例並貫穿全書。大數據的統計分析起步於數據的基本分析,包括從單個變量分佈特徵到兩個變量相關性的基本描述等,因此第4章和第5章首先基於大數據分析案例,提出了若干個基本數據分析問題,然後逐一講解問題、闡述解決方法並給出R代碼實現。第6章和第7章,繼續針對大數據分析案例中更廣泛的應用問題,細緻地討論了解決應用問題的諸多統計方法,包括單個總體的均值檢驗方法、兩個及多個總體的均值對比方法和相應的R代碼設計。第8章、第9章和第11章分別涉及線性回歸分析、Logistic回歸分析和線性判別分析。這些分析方法均是當前大數據分析中應用極為廣泛的主流核心方法,旨在探究影響因素,解決分類預測等問題。第10章的聚類分析關注數據分組,不僅普遍存在於大數據的一般統計分析中,也廣泛拓展到了數據挖掘、機器學習等諸多領域。同時第12章的因子分析更是大數據特徵工程中的最常用方法。
總之,作者希望為致力於大數據分析和R語言實踐的初學者,奉獻一本具有大數據統計分析應用特色、R語言代碼可操作性和示範性、統計方法經典性和普適性的優秀作品。本書提供配套的全部案例數據以及各章節R語言程序代碼,可登錄華信教育資源網www.hxedu.com.cn免費下載。本書可作為大數據相關專業、統計學專業及其他有關專業的本科生或碩士研究生數據分析的教材,也可作為從事大數據分析實際工作人員的參考用書。
書中不妥和錯誤之處,誠望讀者不吝指正。

薛 薇
于中國人民大學應用統計科學研究中心
中國人民大學統計學院

目次

第1章 R語言與統計分析概述 1
1.1 寫在前面的話 1
1.1.1 大數據的廣義概念 1
1.1.2 目標定位 2
1.1.3 初識R 3
1.2 R語言入門 3
1.2.1 R中的基本概念 3
1.2.2 R的下載安裝 5
1.2.3 R程序的運行 6
1.2.4 R使用的其他方面 10
1.3 Rstudio簡介 12
1.4 從大數據分析案例看統計分析的基本框架 13
1.4.1 數據集 14
1.4.2 分析目標和數據預處理 16
1.4.3 數據的基本分析 17
1.4.4 總體特徵的推斷 17
1.4.5 推斷多個變量間的總體相關性 18
1.4.6 數據的聚類 19
1.5 本章涉及的R函數 19
第2章 R的數據組織 20
2.1 R的數據對象 20
2.1.1 R對象的類型劃分 20
2.1.2 創建和管理R對象 21
2.2 R數據組織的基本方式 22
2.2.1 R向量及其創建與訪問 22
2.2.2 R矩陣和數組及其創建與訪問 27
2.2.3 R數據框及其創建與訪問 32
2.2.4 R列表及其創建與訪問 36
2.3 R數據組織的其他問題 37
2.3.1 R對象數據的保存 37
2.3.2 通過鍵盤讀入數據 38
2.3.3 共享R自帶的數據包 39
2.4 大數據案例的數據結構和R組織 39
2.4.1 讀文本文件數據到R數據框 39
2.4.2 大數據分析案例:北京市空氣質量監測數據 40
2.4.3 大數據分析案例:美食餐館食客點評數據 41
2.4.3 大數據分析案例:超市顧客購買行為數據 42
2.5 本章涉及的R函數 43
第3章 R的數據整理和編程基礎 45
3.1 從大數據分析案例看數據整理 45
3.1.1 美食餐館食客點評數據的整理問題 45
3.1.2 超市顧客購買行為數據的整理問題 45
3.1.3 北京市空氣質量監測數據的整理問題 46
3.2 數據的初步整理 46
3.2.1 數據整合 46
3.2.2 數據篩選 46
3.2.3 大數據分析案例:美食餐館食客點評數據的初步整理 47
3.3 數據質量評估 49
3.3.1 缺失數據報告 49
3.3.2 異常值排查 50
3.3.3 大數據分析案例:美食餐館食客點評數據的質量評估 50
3.4 數據加工 52
3.4.1 數據加工管理中的常用函數 53
3.4.2 數據分組和重編碼 59
3.4.3 大數據分析案例:利用數據加工尋找“人氣”餐館 60
3.5 數據管理中的R編程基礎 61
3.5.1 分支結構的流程控制及示例――促銷折扣的計算 61
3.5.2 循環結構的流程控制及示例:等差數列的求和 63
3.5.3 用戶自定義函數及示例:匯總數據還原為原始數據 65
3.5.4 R編程大數據分析案例:超市顧客購買行為數據的RFM計算 67
3.5.5 R編程大數據分析案例:北京市空氣質量監測數據的整理 68
3.6 本章涉及的R函數 70
第4章 R的基本分析和統計圖形 71
4.1 從大數據分析案例看數據基本分析 71
4.1.1 美食餐館食客點評數據的基本分析 71
4.1.2 北京市空氣質量監測數據的基本分析 72
4.2 R的繪圖基礎 73
4.2.1 圖形設備和圖形文件 73
4.2.2 圖形組成和圖形參數 74
4.3 分類型單變量的基本分析 78
4.3.1 計算頻數分佈表 78
4.3.2 分類型變量的基本統計圖形 78
4.3.3 大數據分析案例:主打菜的餐館分佈有怎樣的特點 79
4.4 數值型單變量的基本分析 80
4.4.1 計算基本描述統計量 80
4.4.2 數值型變量的基本統計圖形 81
4.4.3 大數據分析案例:餐館評分的分佈有怎樣的特點 83
4.5 大數據分析案例綜合:北京市空氣質量監測數據的基本分析 85
4.6 本章涉及的R函數 88
第5章 R的變量相關性分析和統計圖形 89
5.1 分類型變量相關性的分析 89
5.1.1 分類型變量相關性的描述 89
5.1.2 分類型變量相關性的統計圖形 93
5.1.3 大數據分析案例:餐館的區域分佈與主打菜分佈是否具有相關性 93
5.2 數值型變量相關性的分析 94
5.2.1 數值型變量相關性的描述 94
5.2.2 數值型變量相關性的統計圖形 95
5.2.3 大數據分析案例:餐館各打分之間、打分與人均消費之間是否具有相關性 96
5.3 大數據分析案例綜合:北京市空氣質量監測數據的相關性分析 100
5.4 本章涉及的R函數 102
第6章 R的均值檢驗:單個總體的均值推斷及兩個總體均值的對比 104
6.1 從大數據分析案例看推斷統計 104
6.1.1 美食餐館食客點評數據分析中的推斷統計問題 104
6.1.2 北京市空氣質量監測數據分析中的推斷統計問題 105
6.2 單個總體的均值推斷 106
6.2.1 以PM2.5總體均值推斷為例看假設檢驗基本原理 106
6.2.2 大數據案例分析:估計供暖季北京市PM2.5濃度的總體均值 110
6.3 兩個總體均值的對比:基於獨立樣本的常規t檢驗 111
6.3.1 兩個獨立樣本均值t檢驗的原理和R實現 111
6.3.2 深入問題:方差齊性檢驗和R實現 114
6.3.3 大數據分析案例:兩個區域美食餐館人均消費金額是否存在差異 115
6.4 兩個總體均值的對比:置換檢驗 117
6.4.1 兩個獨立樣本均值差的置換檢驗原理和R實現 117
6.4.2 大數據分析案例:利用置換檢驗對比兩個區域美食餐館人均消費金額的總體均值 118
6.5 兩個總體的均值對比:自舉法檢驗 118
6.5.1 兩個獨立樣本均值差的自舉法檢驗原理和R實現 118
6.5.2 大數據分析案例:利用自舉法對比兩個區域美食餐館人均消費金額的總體均值 120
6.6 兩個總體的均值對比:基於配對樣本的常規t檢驗 121
6.6.1 兩個配對樣本均值t檢驗的原理和R實現 121
6.6.2 大數據分析案例:兩個區域美食餐館口味評分與就餐環境評分的均值是否存在差異 122
6.7 大數據分析案例綜合:北京市空氣質量監測數據的均值研究 123
6.8 本章涉及的R函數 125
第7章 R的方差分析:多個總體均值的對比 127
7.1 從大數據分析案例看方差分析 127
7.1.1 美食餐館食客點評數據分析中的方差分析問題 127
7.1.2 北京市空氣質量監測數據分析中的方差分析問題 128
7.2 多個總體均值的對比:單因素方差分析 128
7.2.1 單因素方差分析原理和R實現 128
7.2.2 深入問題:方差齊性檢驗和多重比較檢驗 131
7.2.3 大數據分析案例:利用單因素方差分析對比不同主打菜餐館人均消費金額的
總體均值 131
7.3 多個總體均值的對比:多因素方差分析 135
7.3.1 多因素方差分析原理和R實現 135
7.3.2 大數據分析案例:利用多因素方差分析對比不同主打菜餐館人均消費金額的
總體均值 137
7.4 大數據分析案例綜合:北京市空氣質量監測數據的均值研究 140
7.5 本章涉及的R函數 142
第8章 R的線性回歸分析:對數值變量影響程度的度量和預測 143
8.1 從數據分析案例看線性回歸分析 143
8.1.1 美食餐館食客點評數據分析中的回歸分析問題 143
8.1.2 北京市空氣質量監測數據分析中的回歸分析問題 143
8.1.3 線性回歸分析的一般步驟 143
8.2 建立回歸方程 145
8.2.1 線性回歸模型和線性回歸方程 145
8.2.2 線性回歸方程的參數估計和R實現 145
8.2.3 大數據分析案例:建立美食餐館食客評分的線性回歸模型 146
8.3 回歸方程的檢驗 147
8.3.1 回歸方程的顯著性檢驗 148
8.3.2 回歸係數的顯著性檢驗 149
8.3.3 大數據分析案例:美食餐館食客評分回歸方程的檢驗 149
8.4 回歸方程的應用 152
8.4.1 回歸方程擬合效果的度量 152
8.4.2 預測和預測誤差 153
8.4.3 大數據分析案例:美食餐館食客評分回歸方程的評價和預測 153
8.5 回歸模型的驗證 154
8.5.1 回歸模型的N折交叉驗證法和R實現 155
8.5.2 回歸模型的自舉法驗證和R實現 155
8.5.3 大數據分析案例:美食餐館食客評分回歸模型的驗證 156
8.6 虛擬自變量回歸和協方差分析 157
8.6.1 虛擬自變量回歸 157
8.6.2 協方差分析 159
8.6.3 大數據分析案例:就餐環境對不同區域美食餐館人均消費的影響 159
8.7 大數據分析案例綜合:北京市空氣質量監測數據的回歸分析研究 162
8.8 本章涉及的R函數 168
第9章 R的Logistic回歸分析:對分類變量影響程度的度量和預測 169
9.1 從大數據分析案例看Logistic回歸分析 169
9.1.1 人力資源調查數據分析中的Logistic回歸分析問題 169
9.1.2 Logistic回歸分析的基本建模思路 172
9.2 Logistic回歸方程的解讀 173
9.2.1 Logistic回歸方程的係數 173
9.2.2 Logistic回歸方程的檢驗 174
9.2.3 大數據分析案例:基於人力資源調查數據探討技術人員離職的原因 176
9.

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 251
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區