TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
R統計數據清洗及應用(簡體書)
滿額折
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)
R統計數據清洗及應用(簡體書)

R統計數據清洗及應用(簡體書)

人民幣定價:79.8 元
定  價:NT$ 479 元
優惠價:87417
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
目次

商品簡介

■重點關注數據清洗方法的自動化,既包括理論知識,也包括使用R語言編寫的應用。
■使讀者能夠設計數據清洗過程,用於進行一次性分析或者設置生產系統以便定期進行數據清洗。
■探索各種統計技術,以便解決諸如不完整、矛盾和離群等方面的問題,更好地進行數據清洗組件的集成和質量監控。
■圖書配套網站提供特徵數據和R範例代碼。

目次

目 錄

第1章 數據清洗 1
1.1 統計價值鏈 1
1.1.1 原始數據 2
1.1.2 輸入數據 2
1.1.3 有效數據 3
1.1.4 統計數據 3
1.1.5 輸出 3
1.2 《R統計數據清洗及應用》使用的表示法和約定 3
第2章 R語言簡介 5
2.1 命令行中的R語言 5
2.2 向量 7
2.2.1 向量計算 9
2.2.2 數組和矩陣 10
2.3 數據幀 11
2.3.1 公式-數據接口 12
2.3.2 選擇行和列,布爾運算符 13
2.3.3 使用索引進行選擇 13
2.3.4 數據幀操縱:dplyr軟件包 15
2.4 特殊值 16
2.5 在R中導入和導出數據 19
2.5.1 R中的文件路徑 20
2.5.2 軟件包提供的格式 20
2.5.3 從數據庫讀取數據 21
2.5.4 處理R外部的數據 21
2.6 函數 22
2.6.1 使用函數 22
2.6.2 編寫函數 23
2.7 《R統計數據清洗及應用》中使用的軟件包 24
第3章 數據的技術表示 27
3.1 數值數據 28
3.1.1 整數 28
3.1.2 R中的整數 30
3.1.3 實數 31
3.1.4 雙精度數 31
3.1.5 機器精度的概念 33
3.1.6 處理浮點數的不良結果 34
3.1.7 處理不良結果 35
3.1.8 R中的數值數據 37
3.2 文本數據 38
3.2.1 術語和編碼 38
3.2.2 Unicode 39
3.2.3 一些常見的編碼方案 40
3.2.4 R中的文本數據:character類的對象 43
3.2.5 R中的編碼方案 45
3.2.6 使用非本地編碼方案進行數據的讀取和寫入 46
3.2.7 檢測編碼方案 48
3.2.8 排序規則和排序 49
3.3 時間和日期 51
3.3.1 TAI、UTC以及POSIX從Epcoch開始的秒數 51
3.3.2 時間和日期表示法 52
3.3.3 R中的時間和日期存儲 54
3.3.4 R中的時間和日期轉換 55
3.3.5 閏日、時區和夏令時 57
3.4 區域設置注意事項 58
第4章 數據結構 61
4.1 簡介 61
4.2 表格數據 61
4.2.1 data.frame對象 62
4.2.2 數據庫 62
4.2.3 dplyr 64
4.3 矩陣數據 65
4.4 時間序列 66
4.5 圖表數據 68
4.6 Web數據 70
4.6.1 網頁爬取 70
4.6.2 Web API 70
4.7 其他數據 73
4.8 整理表格數據 73
4.8.1 每列變量 75
4.8.2 單個觀測值存儲在多個表中 75
第5章 清洗文本數據 77
5.1 字符規範化 78
5.1.1 編碼轉換和Unicode規範化 78
5.1.2 字符轉換和音譯 80
5.2 使用正則表達式進行模式匹配 82
5.2.1 基本正則表達式 82
5.2.2 實用的正則表達式 85
5.2.3 在R中生成正則表達式 93
5.3 R中的常見字符串處理任務 94
5.4 近似文本匹配 99
5.4.1 字符串指標 101
5.4.2 R中的字符串指標和近似文本匹配 110
第6章 數據驗證 121
6.1 簡介 121
6.2 初識validate軟件包 122
6.2.1 使用check_that快速檢查 122
6.2.2 基本工作流程:validator和confront 124
6.2.3 validate和DSL背景簡介 126
6.3 定義數據驗證 127
6.3.1 數據驗證的正式定義 128
6.3.2 驗證函數的運算 130
6.3.3 驗證和缺失值 132
6.3.4 驗證函數的結構 133
6.3.5 界定validate中的驗證規則 134
6.4 數據驗證函數的形式類型 135
6.4.1 深入瞭解測量 135
6.4.2 驗證規則的分類 137
6.5 使用validate軟件包驗證數據 139
6.5.1 控制台和validator對象中的驗證規則 139
6.5.2 在管道中驗證 141
6.5.3 拋出錯誤或警告 141
6.5.4 測試線性方程式的公差 142
6.5.5 設置和重置選項 143
6.5.6 從文件導入驗證規則/將驗證規則導出到文件 144
6.5.7 檢查變量類型和元數據 146
6.5.8 檢查值範圍和代碼列表 147
6.5.9 檢查記錄中一致性規則 148
6.5.10 檢查跨記錄驗證規則 150
6.5.11 檢查函數依賴 151
6.5.12 跨數據集驗證 152
6.5.13 宏、變量組、鍵 153
6.5.14 分析輸出:validation對象 154
6.5.15 輸出維度和輸出選擇 156
第7章 在數據記錄中定位錯誤 159
7.1 錯誤定位 159
7.2 使用R進行錯誤定位 162
7.3 以MIP問題的形式進行錯誤定位 164
7.3.1 錯誤定位和混合整數規劃 165
7.3.2 線性限制 166
7.3.3 分類限制 167
7.3.4 混合類型限制 169
7.4 數值穩定性問題 171
7.4.1 解決MIP問題 172
7.4.2 縮放數值記錄 174
7.4.3 設置數值閾值 174
7.5 實際問題 176
7.5.1 設置可靠性權重 176
7.5.2 簡化條件驗證規則 177
7.6 結論 181
第8章 規則集的維護和簡化 185
8.1 驗證規則的質量 185
8.1.1 完備性 185
8.1.2 多餘的規則和不可行性 186
8.2 以邏輯語言表述規則 186
8.3 規則集問題 188
8.3.1 不可行規則集 188
8.3.2 固定值 190
8.3.3 冗餘規則 191
8.3.4 非鬆弛子句 191
8.3.5 非約束子句 191
8.4 檢測和簡化過程 192
8.4.1 混合整數規劃 193
8.4.2 檢測可行性 193
8.4.3 查找導致不可行的規則 193
8.4.4 檢測衝突規則 194
8.4.5 檢測部分不可行性 194
8.4.6 檢測固定值 194
8.4.7 檢測非鬆弛子句 195
8.4.8 檢測非約束子句 195
8.4.9 檢測冗餘規則 195
8.5 結論 196
第9章 基於領域知識模型的方法 197
9.1 使用數據修改規則進行校正 197
9.1.1 修改函數 198
9.1.2 針對數值數據的一類修改函數 202
9.2 使用dcmodify進行基於規則的校正 206
9.2.1 從文件中讀取規則 207
9.2.2 修改規則語法 208
9.2.3 缺失值 209
9.2.4 順序執行和與順序無關的執行 209
9.2.5 選項設置管理 210
9.3 演繹校正 210
9.3.1 校正數值數據中的鍵入錯誤 211
9.3.2 使用線性限制進行演繹插補 214
第10章 插補和調整 221
10.1 缺失數據 221
10.1.1 缺失數據機制 221
10.1.2 使用R可視化和測試缺失數據中的模式 222
10.2 基於模型的插補 226
10.3 R中基於模型的插補 228
10.3.1 使用simputation指定插補方法 228
10.3.2 基於線性回歸的插補 229
10.3.3 M估計 231
10.3.4 Lasso回歸、嶺回歸和彈性網絡回歸 233
10.3.5 分類和回歸樹 233
10.3.6 隨機森林 236
10.4 使用R進行賦值元素插補 237
10.4.1 隨機和順序熱卡插補 238
10.4.2 k最近鄰和預測均值匹配 239
10.5 simputation軟件包中的其他方法 240
10.6 基於EM算法的插補 241
10.6.1 EM算法 242
10.6.2 假定多變量正態分佈情況下的EM插補 244
10.7 插補下的抽樣方差 245
10.8 多重插補 246
10.8.1 基於EM算法的多重插補 249
10.8.2 Amelia軟件包 249
10.8.3 基於鏈式方程的多變量插補 253
10.8.4 使用mice軟件包進行插補 254
10.9 用於估計插補方差的分析方法 257
10.10 選擇插補方法 257
10.11 約束值調整 260
10.11.1 形式化描述 260
10.11.2 對插補數據的應用 263
10.11.3 使用rspa軟件包調整插補值 263
第11章 示例:一個小型數據清洗系統 265
11.1 設置 266
11.1.1 確定性方法 267
11.1.2 錯誤定位 268
11.1.3 插補 269
11.1.4 調整插補數據 271
11.2 監控數據更改 273
11.2.1 數據差異(Daff) 273
11.2.2 匯總單元格更改 275
11.2.3 按照驗證規則匯總更改 276
11.2.4 使用lumberjack自動跟蹤數據更改 278
11.3 集成和自動化 282
11.3.1 使用RScript 282
11.3.2 docopt軟件包 283
11.3.3 自動化數據清洗 283

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 417
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區