多元統計分析(簡體書)
商品資訊
系列名:統計與數據科學叢書(4)
ISBN13:9787030697295
出版社:科學出版社
作者:李高榮
出版日:2021/12/23
裝訂/頁數:平裝/511頁
規格:24cm*17cm (高/寬)
版次:一版
商品簡介
目次
書摘/試閱
相關商品
商品簡介
《多元統計分析》介紹了多元統計分析的方法和理論,以及R語言計算,涵蓋了經典多元統計分析的全部內容,包括:矩陣運算知識、資料可視化與R語言、多元正態分佈、多元正態總體的抽樣分佈、多元正態分佈的參數估計、置信域和假設檢驗、線性回歸模型、多元多重回歸分析、主成分分析、因數分析、判別分析、聚類分析和典型相關分析等內容,以及R語言的應用。《多元統計分析》除了重點介紹各種多元統計分析的思想、方法和理論外,使用R語言進行計算和資料可視化也是《多元統計分析》的特色,對《多元統計分析》所有的多元統計分析方法和理論都給出了R語言程式和應用,有大量翔實的應用案例可供參考,並配有相當數量的習題可供練習。
《多元統計分析》取材新穎、內容豐富、闡述嚴謹、推導詳盡、重點突出、思路清晰、深入淺出、富有啟發性,便於教學與自學。
《多元統計分析》取材新穎、內容豐富、闡述嚴謹、推導詳盡、重點突出、思路清晰、深入淺出、富有啟發性,便於教學與自學。
目次
目錄
“統計與資料科學叢書”序
前言
第1章 緒論和預備知識 1
1.1 緒論 1
1.1.1 多元統計分析概述 1
1.1.2 關於本書 2
1.1.3 適用物件 3
1.2 矩陣運算知識 4
1.2.1 線性空間 4
1.2.2 Kronecker乘積與拉直運算 6
1.2.3 矩陣的幾種重要分解 7
1.2.4 矩陣的廣義逆 11
1.2.5 對稱冪等陣 14
1.2.6 分塊矩陣 16
1.2.7 矩陣微商和變換的雅可比 18
習題1 22
第2章 資料可視化與R語言 24
2.1 數據可視化概述 24
2.2 R語言介紹 25
2.3 R語言繪圖基礎 29
2.3.1 R基礎的資料可視化 29
2.3.2 ggplot2系列套裝程式的可視化 36
2.4 多元統計資料的可視化 39
2.4.1 輪廓圖 39
2.4.2 雷達圖 40
2.4.3 星圖 41
2.4.4 臉譜圖 42
2.4.5 散點圖 44
習題2 47
第3章 多元正態分佈 49
3.1 隨機向量 49
3.1.1 隨機向量及其分佈表示 49
3.1.2 隨機向量的數字特徵 51
3.1.3 變數變換 56
3.2 多元正態分佈的定義、性質與獨立性 56
3.2.1 多元正態分佈的定義及性質 58
3.2.2 多元正態分佈的R語言計算 62
3.2.3 條件分佈和獨立性 65
3.3 偏相關係數* 68
3.4 矩陣多元正態分佈 72
習題3 75
第4章 多元正態總體的抽樣分佈 79
4.1 二次型分佈 79
4.2 Wishart分佈 84
4.2.1 Wishart分佈的定義及其性質 84
4.2.2 非中心Wishart分佈 93
4.3 HotellingT 2分佈 94
4.4 Wilks分佈 97
習題4 99
第5章 多元正態分佈的參數估計 102
5.1 多元正態分佈樣本統計量和極大似然估計 102
5.1.1 多元正態分佈樣本統計量 102
5.1.2 極大似然估計 105
5.2 多元正態分佈的參數估計的性質 107
5.2.1 無偏性 107
5.2.2 充分性 107
5.2.3 相合性 108
5.2.4 完備性 111
5.2.5 有效性 111
5.2.6 Bayes與minimax估計* 112
5.3 均值向量的改進估計* 113
5.3.1 協方差矩陣已知時,均值向量的改進估計 114
5.3.2 協方差矩陣未知時,均值向量的改進估計 120
5.4 相關係數的估計與應用* 120
5.4.1 樣本相關係數的精確分佈 121
5.4.2 樣本相關係數的漸近正態分佈 132
5.4.3 樣本偏相關係數 135
習題5 137
第6章 多元正態分佈的置信域和假設檢驗 140
6.1 總體均值向量的置信域估計 140
6.1.1 單個多元正態總體 140
6.1.2 同時置信區間 144
6.1.3 Bonferroni同時置信區間 146
6.1.4 大樣本置信區間 149
6.1.5 兩個多元正態總體 150
6.2 p值與似然比統計量 154
6.2.1 p值法 154
6.2.2 似然比原理 155
6.3 總體均值向量的檢驗與R語言計算 157
6.3.1 總體均值向量的檢驗 157
6.3.2 案例與R語言計算 160
6.4 多總體均值向量的檢驗 161
6.4.1 兩正態總體均值向量比較的檢驗 161
6.4.2 案例與R語言計算 164
6.4.3 多個正態總體均值向量的檢驗——多元方差分析 165
6.4.4 案例與R語言計算 169
6.5 協方差矩陣的檢驗 170
6.5.1 單個多元正態總體協方差矩陣的檢驗 170
6.5.2 球形檢驗問題 172
6.5.3 均值向量和協方差矩陣的聯合檢驗問題 175
6.5.4 多總體協方差矩陣的檢驗問題 176
6.5.5 多正態總體均值向量和協方差矩陣的同時檢驗問題 179
6.6 獨立性檢驗 181
習題6 184
第7章 線性回歸模型 189
7.1 多元線性回歸分析 189
7.1.1 模型介紹 189
7.1.2 *小二乘估計 194
7.1.3 σ2的估計 195
7.1.4 假設檢驗 198
7.1.5 預測區間與置信區間 200
7.1.6 R語言函數及應用 201
7.2 回歸診斷 205
7.2.1 什麼是回歸診斷? 205
7.2.2 殘差 206
7.2.3 殘差圖 208
7.2.4 影響分析 210
7.2.5 多重共線性 214
7.3 子集選擇 218
7.3.1 *優子集選擇 218
7.3.2 逐步選擇方法 219
7.3.3 *優模型選擇 220
7.3.4 案例與R語言計算 223
7.4 壓縮估計方法 230
7.4.1 嶺回歸 231
7.4.2 橋回歸 234
7.4.3 懲罰變數選擇方法 235
7.5 Lasso:線性回歸模型應用 240
7.5.1 Lasso方法 240
7.5.2 自由度 242
7.5.3 調節參數λ的選擇 243
7.5.4 案例與R語言計算 243
7.6 SCAD:線性回歸模型應用 245
7.6.1 理論結果 245
7.6.2 算法 247
7.6.3 調節參數λ的選擇 251
7.6.4 案例與R語言計算 252
7.7 自我調整Lasso 254
7.8 高維回歸模型:Lasso應用 261
習題7 268
第8章 多元多重回歸分析 273
8.1 多元方差分析模型 273
8.1.1 單因數多元方差分析 273
8.1.2 雙因數多元方差分析 280
8.2 多元多重回歸 284
8.2.1 多響應變數的多元多重回歸模型 284
8.2.2 模型參數的估計 286
8.2.3 模型參數的檢驗 291
8.2.4 多元多重線性回歸模型的預測 296
8.2.5 案例分析 297
8.3 多元生長曲線模型 302
習題8 305
第9章 主成分分析 307
9.1 總體主成分分析 307
9.1.1 主成分的定義與匯出 307
9.1.2 主成分分析的幾何意義 309
9.2 主成分的推導和性質 311
9.2.1 主成分的計算和性質 311
9.2.2 基於標準化的主成分 318
9.3 樣本主成分分析 320
9.3.1 基於樣本協方差矩陣S的主成分 321
9.3.2 樣本主成分的解釋 323
9.3.3 標準化的樣本主成分 324
9.4 大樣本性質 329
9.4.1 特徵值和特徵向量估計的大樣本性質 329
9.4.2 等相關結構的檢驗 332
9.4.3 主成分的充分性檢驗 332
9.5 主成分分析在影像處理中的應用 333
9.5.1 圖像壓縮 333
9.5.2 人臉識別 335
習題9 338
第10章 因數分析 341
10.1 因數分析模型 341
10.2 因數載荷矩陣的估計方法 345
10.2.1 主成分法 345
10.2.2 主因數法 349
10.2.3 極大似然法 353
10.3 因數旋轉 358
10.4 因數分析模型的擬合優度檢驗 364
10.5 因數得分 367
10.5.1 Thomson因數得分 367
10.5.2 Bartlett因數得分 368
10.5.3 Thomson因數得分和Bartlett因數得分比較 371
10.5.4 案例與R語言計算 372
10.6 因數分析與主成分分析的關係 379
習題10 380
第11章 判別分析 383
11.1 判別準則 383
11.1.1 判別準則簡介 383
11.1.2 兩個總體的情形 384
11.2 兩個總體的判別方法 386
11.2.1 先驗概率已知的情形 386
11.2.2 先驗概率未知的情形 388
11.3 兩個已知多元正態分佈的判別 389
11.3.1 先驗概率已知的情形 389
11.3.2 先驗概率不存在的情形 391
11.4 參數未知時兩個正態總體的判別 394
11.4.1 判別準則 394
11.4.2 判別準則的分佈 395
11.4.3 判別準則的漸近分佈 396
11.4.4 極大似然比準則 397
11.5 錯判概率 399
11.5.1 基於W錯判概率的漸近展開 399
11.5.2 基於Z錯判概率的漸近展開 402
11.6 多個總體的判別 404
11.7 多個多元正態分佈的判別 407
11.8 案例及R語言計算 410
習題11 423
第12章 聚類分析 428
12.1 距離和相似係數 429
12.1.1 數據預處理 429
12.1.2 樣本間的距離 431
12.1.3 相似係數 434
12.1.4 定性變數樣本的距離和相似係數 438
12.1.5 定性變數間的相似係數 442
12.2 K均值聚類 445
12.2.1 K均值聚類算法 445
12.2.2 K均值聚類中類個數的確定和應用 448
12.2.3 圖像色彩的K均值聚類 451
12.2.4 密度聚類 453
12.3 系統聚類法 457
12.3.1 系統聚類法的思想和算法 457
12.3.2 類間距離和系統聚類法 458
12.3.3 系統聚類法的統一 464
12.3.4 系統聚類法的性質和類的確定 465
12.3.5 系統聚類的R語言計算和應用 470
12.3.6 新的聚類方法 475
12.4 基於統計模型的聚類*475
習題12 480
第13章 典型相關分析 483
13.1 相關係數的定義 483
13.2 總體的典型相關分析 486
13.2.1 總體的典型相關的定義 486
13.2.2 典型相關係數的性質 487
13.3 樣本典型相關分析 491
13.3.1 樣本典型相關 491
13.3.2 典型相關係數個數的檢驗 495
13.4 典型相關分析的R語言應用 497
13.4.1 典型相關分析的程式 497
13.4.2 案例分析 500
習題13 504
參考文獻 506
“統計與資料科學叢書”已出版書目 512
“統計與資料科學叢書”序
前言
第1章 緒論和預備知識 1
1.1 緒論 1
1.1.1 多元統計分析概述 1
1.1.2 關於本書 2
1.1.3 適用物件 3
1.2 矩陣運算知識 4
1.2.1 線性空間 4
1.2.2 Kronecker乘積與拉直運算 6
1.2.3 矩陣的幾種重要分解 7
1.2.4 矩陣的廣義逆 11
1.2.5 對稱冪等陣 14
1.2.6 分塊矩陣 16
1.2.7 矩陣微商和變換的雅可比 18
習題1 22
第2章 資料可視化與R語言 24
2.1 數據可視化概述 24
2.2 R語言介紹 25
2.3 R語言繪圖基礎 29
2.3.1 R基礎的資料可視化 29
2.3.2 ggplot2系列套裝程式的可視化 36
2.4 多元統計資料的可視化 39
2.4.1 輪廓圖 39
2.4.2 雷達圖 40
2.4.3 星圖 41
2.4.4 臉譜圖 42
2.4.5 散點圖 44
習題2 47
第3章 多元正態分佈 49
3.1 隨機向量 49
3.1.1 隨機向量及其分佈表示 49
3.1.2 隨機向量的數字特徵 51
3.1.3 變數變換 56
3.2 多元正態分佈的定義、性質與獨立性 56
3.2.1 多元正態分佈的定義及性質 58
3.2.2 多元正態分佈的R語言計算 62
3.2.3 條件分佈和獨立性 65
3.3 偏相關係數* 68
3.4 矩陣多元正態分佈 72
習題3 75
第4章 多元正態總體的抽樣分佈 79
4.1 二次型分佈 79
4.2 Wishart分佈 84
4.2.1 Wishart分佈的定義及其性質 84
4.2.2 非中心Wishart分佈 93
4.3 HotellingT 2分佈 94
4.4 Wilks分佈 97
習題4 99
第5章 多元正態分佈的參數估計 102
5.1 多元正態分佈樣本統計量和極大似然估計 102
5.1.1 多元正態分佈樣本統計量 102
5.1.2 極大似然估計 105
5.2 多元正態分佈的參數估計的性質 107
5.2.1 無偏性 107
5.2.2 充分性 107
5.2.3 相合性 108
5.2.4 完備性 111
5.2.5 有效性 111
5.2.6 Bayes與minimax估計* 112
5.3 均值向量的改進估計* 113
5.3.1 協方差矩陣已知時,均值向量的改進估計 114
5.3.2 協方差矩陣未知時,均值向量的改進估計 120
5.4 相關係數的估計與應用* 120
5.4.1 樣本相關係數的精確分佈 121
5.4.2 樣本相關係數的漸近正態分佈 132
5.4.3 樣本偏相關係數 135
習題5 137
第6章 多元正態分佈的置信域和假設檢驗 140
6.1 總體均值向量的置信域估計 140
6.1.1 單個多元正態總體 140
6.1.2 同時置信區間 144
6.1.3 Bonferroni同時置信區間 146
6.1.4 大樣本置信區間 149
6.1.5 兩個多元正態總體 150
6.2 p值與似然比統計量 154
6.2.1 p值法 154
6.2.2 似然比原理 155
6.3 總體均值向量的檢驗與R語言計算 157
6.3.1 總體均值向量的檢驗 157
6.3.2 案例與R語言計算 160
6.4 多總體均值向量的檢驗 161
6.4.1 兩正態總體均值向量比較的檢驗 161
6.4.2 案例與R語言計算 164
6.4.3 多個正態總體均值向量的檢驗——多元方差分析 165
6.4.4 案例與R語言計算 169
6.5 協方差矩陣的檢驗 170
6.5.1 單個多元正態總體協方差矩陣的檢驗 170
6.5.2 球形檢驗問題 172
6.5.3 均值向量和協方差矩陣的聯合檢驗問題 175
6.5.4 多總體協方差矩陣的檢驗問題 176
6.5.5 多正態總體均值向量和協方差矩陣的同時檢驗問題 179
6.6 獨立性檢驗 181
習題6 184
第7章 線性回歸模型 189
7.1 多元線性回歸分析 189
7.1.1 模型介紹 189
7.1.2 *小二乘估計 194
7.1.3 σ2的估計 195
7.1.4 假設檢驗 198
7.1.5 預測區間與置信區間 200
7.1.6 R語言函數及應用 201
7.2 回歸診斷 205
7.2.1 什麼是回歸診斷? 205
7.2.2 殘差 206
7.2.3 殘差圖 208
7.2.4 影響分析 210
7.2.5 多重共線性 214
7.3 子集選擇 218
7.3.1 *優子集選擇 218
7.3.2 逐步選擇方法 219
7.3.3 *優模型選擇 220
7.3.4 案例與R語言計算 223
7.4 壓縮估計方法 230
7.4.1 嶺回歸 231
7.4.2 橋回歸 234
7.4.3 懲罰變數選擇方法 235
7.5 Lasso:線性回歸模型應用 240
7.5.1 Lasso方法 240
7.5.2 自由度 242
7.5.3 調節參數λ的選擇 243
7.5.4 案例與R語言計算 243
7.6 SCAD:線性回歸模型應用 245
7.6.1 理論結果 245
7.6.2 算法 247
7.6.3 調節參數λ的選擇 251
7.6.4 案例與R語言計算 252
7.7 自我調整Lasso 254
7.8 高維回歸模型:Lasso應用 261
習題7 268
第8章 多元多重回歸分析 273
8.1 多元方差分析模型 273
8.1.1 單因數多元方差分析 273
8.1.2 雙因數多元方差分析 280
8.2 多元多重回歸 284
8.2.1 多響應變數的多元多重回歸模型 284
8.2.2 模型參數的估計 286
8.2.3 模型參數的檢驗 291
8.2.4 多元多重線性回歸模型的預測 296
8.2.5 案例分析 297
8.3 多元生長曲線模型 302
習題8 305
第9章 主成分分析 307
9.1 總體主成分分析 307
9.1.1 主成分的定義與匯出 307
9.1.2 主成分分析的幾何意義 309
9.2 主成分的推導和性質 311
9.2.1 主成分的計算和性質 311
9.2.2 基於標準化的主成分 318
9.3 樣本主成分分析 320
9.3.1 基於樣本協方差矩陣S的主成分 321
9.3.2 樣本主成分的解釋 323
9.3.3 標準化的樣本主成分 324
9.4 大樣本性質 329
9.4.1 特徵值和特徵向量估計的大樣本性質 329
9.4.2 等相關結構的檢驗 332
9.4.3 主成分的充分性檢驗 332
9.5 主成分分析在影像處理中的應用 333
9.5.1 圖像壓縮 333
9.5.2 人臉識別 335
習題9 338
第10章 因數分析 341
10.1 因數分析模型 341
10.2 因數載荷矩陣的估計方法 345
10.2.1 主成分法 345
10.2.2 主因數法 349
10.2.3 極大似然法 353
10.3 因數旋轉 358
10.4 因數分析模型的擬合優度檢驗 364
10.5 因數得分 367
10.5.1 Thomson因數得分 367
10.5.2 Bartlett因數得分 368
10.5.3 Thomson因數得分和Bartlett因數得分比較 371
10.5.4 案例與R語言計算 372
10.6 因數分析與主成分分析的關係 379
習題10 380
第11章 判別分析 383
11.1 判別準則 383
11.1.1 判別準則簡介 383
11.1.2 兩個總體的情形 384
11.2 兩個總體的判別方法 386
11.2.1 先驗概率已知的情形 386
11.2.2 先驗概率未知的情形 388
11.3 兩個已知多元正態分佈的判別 389
11.3.1 先驗概率已知的情形 389
11.3.2 先驗概率不存在的情形 391
11.4 參數未知時兩個正態總體的判別 394
11.4.1 判別準則 394
11.4.2 判別準則的分佈 395
11.4.3 判別準則的漸近分佈 396
11.4.4 極大似然比準則 397
11.5 錯判概率 399
11.5.1 基於W錯判概率的漸近展開 399
11.5.2 基於Z錯判概率的漸近展開 402
11.6 多個總體的判別 404
11.7 多個多元正態分佈的判別 407
11.8 案例及R語言計算 410
習題11 423
第12章 聚類分析 428
12.1 距離和相似係數 429
12.1.1 數據預處理 429
12.1.2 樣本間的距離 431
12.1.3 相似係數 434
12.1.4 定性變數樣本的距離和相似係數 438
12.1.5 定性變數間的相似係數 442
12.2 K均值聚類 445
12.2.1 K均值聚類算法 445
12.2.2 K均值聚類中類個數的確定和應用 448
12.2.3 圖像色彩的K均值聚類 451
12.2.4 密度聚類 453
12.3 系統聚類法 457
12.3.1 系統聚類法的思想和算法 457
12.3.2 類間距離和系統聚類法 458
12.3.3 系統聚類法的統一 464
12.3.4 系統聚類法的性質和類的確定 465
12.3.5 系統聚類的R語言計算和應用 470
12.3.6 新的聚類方法 475
12.4 基於統計模型的聚類*475
習題12 480
第13章 典型相關分析 483
13.1 相關係數的定義 483
13.2 總體的典型相關分析 486
13.2.1 總體的典型相關的定義 486
13.2.2 典型相關係數的性質 487
13.3 樣本典型相關分析 491
13.3.1 樣本典型相關 491
13.3.2 典型相關係數個數的檢驗 495
13.4 典型相關分析的R語言應用 497
13.4.1 典型相關分析的程式 497
13.4.2 案例分析 500
習題13 504
參考文獻 506
“統計與資料科學叢書”已出版書目 512
書摘/試閱
第1章 緒論和預備知識
學習目標與要求:
1.瞭解多元統計分析的概述和本書的特點;
2.掌握矩陣的各種性質和運算;
3.結合多元統計分析的內容,掌握矩陣運算在多元統計分析中的重要性.
1.1 緒論
1.1.1 多元統計分析概述
多元統計分析是從經典統計學中發展起來的一個分支,是研究多中繼資料處理方法的一門科學.多元統計分析能夠在多個物件和多個指標互相關聯的情況下分析它們的統計規律,是一門具有很強應用性的課程,包括了很多非常有用的資料處理方法,在自然科學和社會科學等各個領域中得到了廣泛的應用.
多元統計分析起源於20世紀初,1928年Wishart發表的學術論文《多元正態總體樣本協差陣的精確分佈》,可以說是多元統計分析的開端.在20世紀30年代,Fisher、Hotelling、Roy和許寶騄等統計學者作了一系列的奠基性工作,使多元統計分析在理論上得到了迅速發展.20世紀40年代,多元統計分析方法和理論在心理學、教育學、生物學等方面有不少的應用,但計算量大,使多元統計分析的發展受到一定影響,甚至停滯了相當長的時間.在20世紀50年代中期,隨著電子計算機的出現和發展,多元統計分析方法在地質、氣象、醫學和社會學等方面得到廣泛的應用.在20世紀60年代,多元統計分析的理論在應用和實踐中又得到了完善與發展,新的方法和理論不斷湧現,促進和擴大了多元統計分析的應用範圍.20世紀70年代初期,多元統計分析在我國才受到各個領域的極大關注,並在多元統計分析的理論研究和應用上也取得了很多顯著成績,有些研究工作達到了國際水準,並已形成一支科研隊伍,活躍在各條戰在線.在20世紀末與21世紀初,隨著現代技術的快速發展,特別是計算機科學、人工智能、網絡信息、生物工程、醫學技術等的發展,大資料時代正在向我們走來,並滲透到了各個領域.數字化技術的發展也使得更加方便收集和交換資料,並使得資料的存儲成本變得越來越便宜.多元統計分析方法與人工智能和資料庫技術相結合,已在經濟、商業、金融、天文、醫學、生物、環境、地質、農業和工業等領域得到了成功的應用.
在實際應用中,多個指標或變數共同作用或影響的現象大量存在,這時變數之間不可避免存在相關性.例如,在研究地區經濟發展的指標時,需要考察總產值、利潤、效益、勞動生產率、固定資產、物價、信貸、稅收等指標;在醫學診斷研究中,需要考察血壓、血糖、脈搏、白細胞、體溫、甘油三酯和膽固醇等指標.為了研究變數之間的相關關係並揭示變數的內在規律性,需要對p個指標變數X=(X1, ,Xp)′進行n觀測試驗,即收集多重觀測資料,則這n個觀測資料樣本可以看成是p維空間的n個點.多元統計分析的研究物件就是多重觀測資料,基本思想是利用多重觀測之間的潛在相關性來提升推斷效率,為研究變數之間的相關關係和內在規律性提供方法和理論.
在多元統計分析中,可用總體均值向量、各變數的標準差以及各變數之間的相關係數來刻畫總體.相應地可用樣本均值向量、各變數的樣本標準差以及各變數之間的樣本相關係數來概括一組樣本.在研究變數之間相關關係的統計推斷時,精確的統計推斷理論需要對總體X進行正態分佈的假設,而漸近的統計推斷也需要多元的極限理論.所以,在多元統計分析中需要引入多元正態分佈的概念,而多元正態分佈也是多元統計分析的理論基礎.多元統計分析的內容包括:矩陣運算、資料可視化、多元正態分佈、多元正態總體的抽樣分佈、多元正態分佈的參數估計、置信域和假設檢驗、線性回歸模型、多元多重回歸分析、主成分分析、因數分析、判別分析、聚類分析和典型相關分析等內容.
多元統計分析方法在經濟、管理、金融、農業、醫學、教育學、體育科學、生態學、地質學、社會學、考古學、環境科學、軍事科學和文學等方面都有廣泛的應用.因此,學習多元統計分析方法、理論和應用是非常必要的.
1.1.2 關於本書
目前,國內外統計學者已經出版了很多優秀的多元統計分析教材,例如,Anderson(2003),Johnson和Wichern(2008),張堯庭和方開泰(1982),高惠璿(2005),張潤楚(2006),王靜龍(2008),白志東等(2012),吳密霞和劉春玲(2014),吳喜之(2019)等.在本書編寫過程中,吸收了這些優秀教材的許多精華和優點,突出了以下幾個特色.
(1)為了讓讀者系統掌握多元統計分析內容,本書嚴謹並系統地介紹了多元統計分析的基本思想、方法和理論,還配有大量翔實的應用案例可供參考.此外,本書在第7章的線性回歸模型部分還系統介紹了前沿的懲罰變數選擇方法、算法和應用,如Lasso、SCAD和自我調整Lasso等.
(2)本書特色是用R語言進行案例分析,做到在理論的學習中體會應用,在應用的分析中加深理論.書中所有的多元統計方法都給出了R語言程式,在應用R語言進行案例分析時,除了介紹每種多元統計分析方法的套裝程式和核心函數外,更重要的是突出程序設計思想,培養讀者能應用R語言進行程序設計和資料分析.通過程序設計,加深對每種多元統計分析方法的理解和掌握.
(3)本書的另一個特色是資料可視化.本書在進行案例分析時,幾乎對所有多元統計分析方法的結果都通過精美的圖形進行資料可視化展示,可以讓讀者更直觀地對多元統計分析方法進行比較和評價.
(4)本書有相當數量的習題可供練習,這些習題中一部分可以加強統計理論和方法,另一部分針對實際問題,可培養讀者結合統計方法獨立解決實際問題的能力和素質.
(5)本書增加了教學資源的電子教案,教材中涉及的資料、R語言程式和插圖等,供使用本書的師生參考和使用,豐富教與學的過程,提高教與學的效果.
(6)本書使用的符號、變數和參數非常多,因此,在撰寫本書的過程中,對數學符號的定義很清楚,做到全書統一,具有可讀性.此外,當符號第一次出現時,都會給出清晰的定義.在本書中,用黑正體表示矩陣,黑斜體表示向量.例如,令X表示一個n×p矩陣,表示為
令xi=(xi1,xi2, ,xip)′表示長度為p的列向量,其中X′或x′表示矩陣X或向量x的轉置.
1.1.3 適用物件
本書可作為統計學、數學、金融學和經濟學等專業高年級本科生、研究生多元統計分析課程的教材或參考書,也可作為資料分析相關科技人員和工作者使用多元統計分析方法和R語言的參考手冊.本書的目的是介紹多元統計分析的方法和理論,並通過案例讓讀者理解所學多元統計分析方法,並掌握多元統計分析方法的R語言應用.本書的學習要求具備一些基礎課程,如概率論、數理統計、高等數學、高等代數和矩陣論等.
本書內容已經針對北京師範大學應用統計專業碩士、統計學碩士和博士研究生進行了講授,得到了學生的認可.本書的內容較多,教師在選用本書作為教材時,對於不同培養層次的學生,可靈活選取適當的內容進行講授.例如,對高年級本科生、應用統計專業碩士研究生,以及其他專業學生可重點介紹多元統計分析的思想和方法,並突出應用和資料分析,不建議講授帶“*”的內容.統計學碩士和博士研究生可重點介紹方法和理論,可適當選擇講授教材中帶“*”的內容,注重奠定學生扎實的理論基礎.
1.2 矩陣運算知識
矩陣是多元統計分析一個十分重要的工具,本節主要介紹多元統計分析中有關矩陣論的一些預備知識.
1.2.1 線性空間
記全體n×1實向量組成的集合為Rn.
定義1.1 線性空間
設H為Rn的一個子集,如果它對向量加法和數乘兩種運算具有封閉性,
即
(1)對任意x∈H和y∈H,必有x+y∈H;
(2)對一切實數c和任意x∈H,都有cx∈H.
這時,把滿足上面兩種運算的子集H稱為線性空間.
顯然,Rn是一個線性空間.記S0是由Rn中向量組a1, ,ak的一切可能的線性組合構成的集合,即
容易驗證,S0也是線性空間,稱S0為Rn的一個子空間.若將a1, ,ak排成一個n×k矩陣A=(a1, ,ak),則S0可表示為
它是矩陣A的列向量張成的子空間,記為S0=M(A).
定義1.2 線性相關/線性無關
設a1, ,ak為Rn中的一組向量,若存在不全為零的實數α1, ,αk,使得
則稱向量組a1, ,ak線性相關,否則稱它們是線性無關的.
如果子空間S0由一組線性無關的向量a1, ,ak張成,則稱a1, ,ak為S0的一組基,k稱為S0的維數,記作k=dim(S0).因此,dim(M(A))=rank(A).
對Rn中的任意兩個向量a′=(a1, ,an)和b′=(b1, ,bn),定義它們的內積為
特別地,稱為向量a的長度或模,記作∥a∥.記則(b,b)=1,並稱b為a的標準化後的向量.
若(a,b)=0,則稱a與b正交,記為a⊥b.若a與子空間S中的每一個向量正交,則稱a正交於S,記為a⊥S.
定義1.3 正交補空間
設S為一子空間,稱子空間S⊥={x:x⊥S}為S的正交補空間.
設A為n×k矩陣,記A⊥為滿足條件A′A⊥=0且具有*大秩的矩陣,則
M(A⊥)=M(A)⊥.
定義1.4 正交矩陣
設P為n×n的矩陣,若P′P=In,則稱P為正交矩陣.
由正交矩陣的定義易證:若A為正交矩陣,則
(1);
(2),即A的所有列向量相互正交,所有行向量也相互正交,各列向量和各行向量的模為1.
對於n×n的方陣A,若A的列向量a1, ,an是相互正交的,即,則對其列向量進行標準化
便得到一個正交矩陣:P=(p1, ,pn),顯然P′P=In.
定理1.2.1對任意矩陣A,恒有M(A)=M(AA′).
證明顯然M(AA′).M(A),故只需證M(A).M(AA′).事實上,對任給x⊥M(AA′),有x′AA′=0.右乘x,得,故A′x=0於是x⊥M(A),則完成了定理1.2.1的證明.□
1.2.2 Kronecker乘積與拉直運算
本節介紹矩陣的兩種特殊運算:Kronecker乘積與拉直運算,它們在線性模型和多元統計分析等分支的參數估計理論中有特別重要的應用.
定義1.5 Kronecker乘積
設A=(aij)和B=(bij)分別為m×n和p×q的矩陣,定義mp×nq的矩陣C=(aijB),稱為矩陣A和B的Kronecker乘積,記為,即
Kronecker乘積具有下列性質:
(1)(結合律);
(2)(分配律);
(3)(數量乘法)對任意實數α和β,有;
(4)(矩陣乘法);
(5)(矩陣轉置);
(6)(逆矩陣);
(7)(矩陣的跡);
(8)(行列式)若A和B分別為m階和n階方陣,則.
定義1.6 矩陣的拉直運算
設矩陣A=(a1, ,an)是一個m×n矩陣,其中,且i=1, ,n.把矩陣A按列向量a1, ,an依次排成一個mn×1的向量,即則稱Vec(A)為矩陣A的拉直運算.
學習目標與要求:
1.瞭解多元統計分析的概述和本書的特點;
2.掌握矩陣的各種性質和運算;
3.結合多元統計分析的內容,掌握矩陣運算在多元統計分析中的重要性.
1.1 緒論
1.1.1 多元統計分析概述
多元統計分析是從經典統計學中發展起來的一個分支,是研究多中繼資料處理方法的一門科學.多元統計分析能夠在多個物件和多個指標互相關聯的情況下分析它們的統計規律,是一門具有很強應用性的課程,包括了很多非常有用的資料處理方法,在自然科學和社會科學等各個領域中得到了廣泛的應用.
多元統計分析起源於20世紀初,1928年Wishart發表的學術論文《多元正態總體樣本協差陣的精確分佈》,可以說是多元統計分析的開端.在20世紀30年代,Fisher、Hotelling、Roy和許寶騄等統計學者作了一系列的奠基性工作,使多元統計分析在理論上得到了迅速發展.20世紀40年代,多元統計分析方法和理論在心理學、教育學、生物學等方面有不少的應用,但計算量大,使多元統計分析的發展受到一定影響,甚至停滯了相當長的時間.在20世紀50年代中期,隨著電子計算機的出現和發展,多元統計分析方法在地質、氣象、醫學和社會學等方面得到廣泛的應用.在20世紀60年代,多元統計分析的理論在應用和實踐中又得到了完善與發展,新的方法和理論不斷湧現,促進和擴大了多元統計分析的應用範圍.20世紀70年代初期,多元統計分析在我國才受到各個領域的極大關注,並在多元統計分析的理論研究和應用上也取得了很多顯著成績,有些研究工作達到了國際水準,並已形成一支科研隊伍,活躍在各條戰在線.在20世紀末與21世紀初,隨著現代技術的快速發展,特別是計算機科學、人工智能、網絡信息、生物工程、醫學技術等的發展,大資料時代正在向我們走來,並滲透到了各個領域.數字化技術的發展也使得更加方便收集和交換資料,並使得資料的存儲成本變得越來越便宜.多元統計分析方法與人工智能和資料庫技術相結合,已在經濟、商業、金融、天文、醫學、生物、環境、地質、農業和工業等領域得到了成功的應用.
在實際應用中,多個指標或變數共同作用或影響的現象大量存在,這時變數之間不可避免存在相關性.例如,在研究地區經濟發展的指標時,需要考察總產值、利潤、效益、勞動生產率、固定資產、物價、信貸、稅收等指標;在醫學診斷研究中,需要考察血壓、血糖、脈搏、白細胞、體溫、甘油三酯和膽固醇等指標.為了研究變數之間的相關關係並揭示變數的內在規律性,需要對p個指標變數X=(X1, ,Xp)′進行n觀測試驗,即收集多重觀測資料,則這n個觀測資料樣本可以看成是p維空間的n個點.多元統計分析的研究物件就是多重觀測資料,基本思想是利用多重觀測之間的潛在相關性來提升推斷效率,為研究變數之間的相關關係和內在規律性提供方法和理論.
在多元統計分析中,可用總體均值向量、各變數的標準差以及各變數之間的相關係數來刻畫總體.相應地可用樣本均值向量、各變數的樣本標準差以及各變數之間的樣本相關係數來概括一組樣本.在研究變數之間相關關係的統計推斷時,精確的統計推斷理論需要對總體X進行正態分佈的假設,而漸近的統計推斷也需要多元的極限理論.所以,在多元統計分析中需要引入多元正態分佈的概念,而多元正態分佈也是多元統計分析的理論基礎.多元統計分析的內容包括:矩陣運算、資料可視化、多元正態分佈、多元正態總體的抽樣分佈、多元正態分佈的參數估計、置信域和假設檢驗、線性回歸模型、多元多重回歸分析、主成分分析、因數分析、判別分析、聚類分析和典型相關分析等內容.
多元統計分析方法在經濟、管理、金融、農業、醫學、教育學、體育科學、生態學、地質學、社會學、考古學、環境科學、軍事科學和文學等方面都有廣泛的應用.因此,學習多元統計分析方法、理論和應用是非常必要的.
1.1.2 關於本書
目前,國內外統計學者已經出版了很多優秀的多元統計分析教材,例如,Anderson(2003),Johnson和Wichern(2008),張堯庭和方開泰(1982),高惠璿(2005),張潤楚(2006),王靜龍(2008),白志東等(2012),吳密霞和劉春玲(2014),吳喜之(2019)等.在本書編寫過程中,吸收了這些優秀教材的許多精華和優點,突出了以下幾個特色.
(1)為了讓讀者系統掌握多元統計分析內容,本書嚴謹並系統地介紹了多元統計分析的基本思想、方法和理論,還配有大量翔實的應用案例可供參考.此外,本書在第7章的線性回歸模型部分還系統介紹了前沿的懲罰變數選擇方法、算法和應用,如Lasso、SCAD和自我調整Lasso等.
(2)本書特色是用R語言進行案例分析,做到在理論的學習中體會應用,在應用的分析中加深理論.書中所有的多元統計方法都給出了R語言程式,在應用R語言進行案例分析時,除了介紹每種多元統計分析方法的套裝程式和核心函數外,更重要的是突出程序設計思想,培養讀者能應用R語言進行程序設計和資料分析.通過程序設計,加深對每種多元統計分析方法的理解和掌握.
(3)本書的另一個特色是資料可視化.本書在進行案例分析時,幾乎對所有多元統計分析方法的結果都通過精美的圖形進行資料可視化展示,可以讓讀者更直觀地對多元統計分析方法進行比較和評價.
(4)本書有相當數量的習題可供練習,這些習題中一部分可以加強統計理論和方法,另一部分針對實際問題,可培養讀者結合統計方法獨立解決實際問題的能力和素質.
(5)本書增加了教學資源的電子教案,教材中涉及的資料、R語言程式和插圖等,供使用本書的師生參考和使用,豐富教與學的過程,提高教與學的效果.
(6)本書使用的符號、變數和參數非常多,因此,在撰寫本書的過程中,對數學符號的定義很清楚,做到全書統一,具有可讀性.此外,當符號第一次出現時,都會給出清晰的定義.在本書中,用黑正體表示矩陣,黑斜體表示向量.例如,令X表示一個n×p矩陣,表示為
令xi=(xi1,xi2, ,xip)′表示長度為p的列向量,其中X′或x′表示矩陣X或向量x的轉置.
1.1.3 適用物件
本書可作為統計學、數學、金融學和經濟學等專業高年級本科生、研究生多元統計分析課程的教材或參考書,也可作為資料分析相關科技人員和工作者使用多元統計分析方法和R語言的參考手冊.本書的目的是介紹多元統計分析的方法和理論,並通過案例讓讀者理解所學多元統計分析方法,並掌握多元統計分析方法的R語言應用.本書的學習要求具備一些基礎課程,如概率論、數理統計、高等數學、高等代數和矩陣論等.
本書內容已經針對北京師範大學應用統計專業碩士、統計學碩士和博士研究生進行了講授,得到了學生的認可.本書的內容較多,教師在選用本書作為教材時,對於不同培養層次的學生,可靈活選取適當的內容進行講授.例如,對高年級本科生、應用統計專業碩士研究生,以及其他專業學生可重點介紹多元統計分析的思想和方法,並突出應用和資料分析,不建議講授帶“*”的內容.統計學碩士和博士研究生可重點介紹方法和理論,可適當選擇講授教材中帶“*”的內容,注重奠定學生扎實的理論基礎.
1.2 矩陣運算知識
矩陣是多元統計分析一個十分重要的工具,本節主要介紹多元統計分析中有關矩陣論的一些預備知識.
1.2.1 線性空間
記全體n×1實向量組成的集合為Rn.
定義1.1 線性空間
設H為Rn的一個子集,如果它對向量加法和數乘兩種運算具有封閉性,
即
(1)對任意x∈H和y∈H,必有x+y∈H;
(2)對一切實數c和任意x∈H,都有cx∈H.
這時,把滿足上面兩種運算的子集H稱為線性空間.
顯然,Rn是一個線性空間.記S0是由Rn中向量組a1, ,ak的一切可能的線性組合構成的集合,即
容易驗證,S0也是線性空間,稱S0為Rn的一個子空間.若將a1, ,ak排成一個n×k矩陣A=(a1, ,ak),則S0可表示為
它是矩陣A的列向量張成的子空間,記為S0=M(A).
定義1.2 線性相關/線性無關
設a1, ,ak為Rn中的一組向量,若存在不全為零的實數α1, ,αk,使得
則稱向量組a1, ,ak線性相關,否則稱它們是線性無關的.
如果子空間S0由一組線性無關的向量a1, ,ak張成,則稱a1, ,ak為S0的一組基,k稱為S0的維數,記作k=dim(S0).因此,dim(M(A))=rank(A).
對Rn中的任意兩個向量a′=(a1, ,an)和b′=(b1, ,bn),定義它們的內積為
特別地,稱為向量a的長度或模,記作∥a∥.記則(b,b)=1,並稱b為a的標準化後的向量.
若(a,b)=0,則稱a與b正交,記為a⊥b.若a與子空間S中的每一個向量正交,則稱a正交於S,記為a⊥S.
定義1.3 正交補空間
設S為一子空間,稱子空間S⊥={x:x⊥S}為S的正交補空間.
設A為n×k矩陣,記A⊥為滿足條件A′A⊥=0且具有*大秩的矩陣,則
M(A⊥)=M(A)⊥.
定義1.4 正交矩陣
設P為n×n的矩陣,若P′P=In,則稱P為正交矩陣.
由正交矩陣的定義易證:若A為正交矩陣,則
(1);
(2),即A的所有列向量相互正交,所有行向量也相互正交,各列向量和各行向量的模為1.
對於n×n的方陣A,若A的列向量a1, ,an是相互正交的,即,則對其列向量進行標準化
便得到一個正交矩陣:P=(p1, ,pn),顯然P′P=In.
定理1.2.1對任意矩陣A,恒有M(A)=M(AA′).
證明顯然M(AA′).M(A),故只需證M(A).M(AA′).事實上,對任給x⊥M(AA′),有x′AA′=0.右乘x,得,故A′x=0於是x⊥M(A),則完成了定理1.2.1的證明.□
1.2.2 Kronecker乘積與拉直運算
本節介紹矩陣的兩種特殊運算:Kronecker乘積與拉直運算,它們在線性模型和多元統計分析等分支的參數估計理論中有特別重要的應用.
定義1.5 Kronecker乘積
設A=(aij)和B=(bij)分別為m×n和p×q的矩陣,定義mp×nq的矩陣C=(aijB),稱為矩陣A和B的Kronecker乘積,記為,即
Kronecker乘積具有下列性質:
(1)(結合律);
(2)(分配律);
(3)(數量乘法)對任意實數α和β,有;
(4)(矩陣乘法);
(5)(矩陣轉置);
(6)(逆矩陣);
(7)(矩陣的跡);
(8)(行列式)若A和B分別為m階和n階方陣,則.
定義1.6 矩陣的拉直運算
設矩陣A=(a1, ,an)是一個m×n矩陣,其中,且i=1, ,n.把矩陣A按列向量a1, ,an依次排成一個mn×1的向量,即則稱Vec(A)為矩陣A的拉直運算.
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。