文本數據挖掘(簡體書)
商品資訊
系列名:中國科學院大學研究生教學輔導書系列
ISBN13:9787302519904
出版社:清華大學出版社(大陸)
作者:宗成慶; 夏睿; 張家俊
出版日:2019/05/01
裝訂/頁數:平裝/308頁
規格:26cm*19cm (高/寬)
版次:一版
商品簡介
作者簡介
目次
相關商品
商品簡介
本書闡述文本數據挖掘的理論模型、實現算法和相關應用,主要內容包括:信息抽取和知識庫構建、文本聚類、情感文本分析、熱點發現、生物醫學文本挖掘和多文檔自動摘要等。寫作風格力求言簡意賅,深入淺出,通過實例說明實現相關任務的理論方法和技術思路,而不過多地涉及實現細節。本書可作為大學高年級本科生或研究生從事相關研究的入門文獻,也可作為從事相關技術研發的開發人員的參考資料。
作者簡介
宗成慶,中國科學院自動化研究所研究員,博士生導師。主要從事自然語言處理、機器翻譯和文本情感分析等相關研究,主持國家科研項目10余項,發表論文150餘篇,出版專著一部、譯著一部。2013年獲國務院政府特殊津貼,2014年獲錢偉長中文信息處理科學技術獎一等獎(第一獲獎人),現為國際計算語言學委員會(ICCL)委員,2015年擔任本領域國際頂級會議ACL-IJCNLP 程序委員會共同主席(PC Co-chair),是多個國際學術期刊的編委或副主編(Associate Editor)。
夏睿,南京理工大學副教授,碩士生導師。主要從事自然語言處理、機器學習、情感分析與觀點挖掘等方面的研究工作,在領域頂級期刊和會議上(如IEEE TKDE、IEEE IS、INS、IPM、IJCAI、AAAI、ACL、COLING等)發表論文20余篇,曾任多個國際頂級會議和研討會(如IJCAI、ACL、SENTIRE、WISDOM、MABSDA)的程序委員會委員和 Session Chair,並擔任多個國際期刊(如IEEE TKDE、DMKD、IEEE IS、IEEE CIM、ACM TALIP、CogCom、JCST、計算機學報、自
夏睿,南京理工大學副教授,碩士生導師。主要從事自然語言處理、機器學習、情感分析與觀點挖掘等方面的研究工作,在領域頂級期刊和會議上(如IEEE TKDE、IEEE IS、INS、IPM、IJCAI、AAAI、ACL、COLING等)發表論文20余篇,曾任多個國際頂級會議和研討會(如IJCAI、ACL、SENTIRE、WISDOM、MABSDA)的程序委員會委員和 Session Chair,並擔任多個國際期刊(如IEEE TKDE、DMKD、IEEE IS、IEEE CIM、ACM TALIP、CogCom、JCST、計算機學報、自
目次
第 1章緒論 .1
1.1基本概念 1
1.2文本挖掘任務 .2
1.3文本挖掘面臨的困難 .5
1.4方法概述與本書的內容組織 .7
1.5進一步閱讀 .9
第 2章數據預處理和標注 . 11
2.1數據獲取 11
2.2數據預處理 . 15
2.3數據標注 17
2.4基本工具 19
2.4.1漢語自動分詞與詞性標注 19
2.4.2句法分析 . 20
2.4.3 n元語法模型 . 21
2.5進一步閱讀 . 22
第 3章文本表示 . 23
3.1向量空間模型 . 23
3.1.1向量空間模型的基本概念 23
3.1.2特徵項的構造與權重 . 24
3.1.3文本長度規範化 . 25
3.1.4特徵工程 . 26
3.1.5其他文本表示方法 27
3.2詞的分布式表示 29
3.2.1神經網絡語言模型 29
3.2.2 C&W模型 . 32
3.2.3 CBOW與 Skip-gram模型 34
3.2.4噪聲對比估計與負採樣 . 35
3.2.5字詞混合的分布式表示方法 . 37
3.3短語的分布式表示 . 38
3.3.1基於詞袋的分布式表示 . 39
3.3.2基於自動編碼器的分布式表示 . 39
3.4句子的分布式表示 . 42
3.4.1通用的句子表示 . 42
3.4.2任務相關的句子表示 . 45
3.5文檔的分布式表示 . 48
3.5.1通用的文檔分布式表示 . 48
3.5.2任務相關的文檔分布式表示 . 49
3.6進一步閱讀 . 52
第 4章文本分類 . 53
4.1概述 . 53
4.2傳統文本表示 . 54
4.3特徵選擇 55
4.3.1互信息法 . 55
4.3.2信息增益法 58
4.3.3卡方統計量法 . 59
4.3.4其他方法 . 60
4.4傳統分類算法 . 61
4.4.1樸素貝葉斯模型 . 61
4.4.2 Logistic回歸、 Softmax回歸與最大熵模型 . 63
4.4.3支持向量機 65
4.4.4集成學習 . 67
4.5深度神經網絡方法 . 68
4.5.1多層前饋神經網絡 68
4.5.2卷積神經網絡 . 69
4.5.3循環神經網絡 . 71
4.6文本分類性能評估 . 78
4.7進一步閱讀 . 81
第 5章文本聚類 . 83
5.1概述 . 83
5.2文本相似性度量 83
5.2.1樣本間的相似性 . 83
5.2.2簇間的相似性 . 86
目錄 IX
5.2.3樣本與簇之間的相似性 . 87
5.3文本聚類算法 . 87
5.3.1 K-均值聚類 . 87
5.3.2單遍聚類 . 91
5.3.3層次聚類 . 92
5.3.4密度聚類 . 95
5.4性能評估 97
5.4.1外部標準 . 97
5.4.2內部標準 . 99
5.5進一步閱讀 . 99
第 6章主題模型 . 101
6.1概述 . 101
6.2潛在語義分析 . 102
6.2.1奇異值分解 102
6.2.2詞項 -文檔矩陣的奇異值分解 103
6.2.3詞項和文檔的概念表示及相似度計算 . 104
6.3概率潛在語義分析 . 106
6.3.1模型假設 . 106
6.3.2參數學習 . 107
6.4潛在狄利克雷分佈 . 108
6.4.1模型假設 . 108
6.4.2詞項和主題序列的聯合概率 . 110
6.4.3模型推斷 . 112
6.4.4新文檔的推斷 . 114
6.4.5 PLSA與 LDA的聯繫與區別 . 115
6.5進一步閱讀 . 115
第 7章情感分析與觀點挖掘 117
7.1概述 . 117
7.2情感分析任務類型 . 118
7.2.1按目標形式劃分 . 118
7.2.2按分析粒度劃分 . 119
7.3文檔或句子級情感分析方法 . 121
7.3.1基於規則的無監督情感分類 . 122
7.3.2基於傳統機器學習的監督情感分類 . 123
7.3.3深度神經網絡方法 126
文本數據挖掘
7.4詞語級情感分析與情感詞典構建 . 131
7.4.1基於語義知識庫的方法 . 131
7.4.2基於語料庫的方法 131
7.4.3情感詞典性能評估 134
7.5屬性級情感分析 134
7.5.1屬性抽取 . 135
7.5.2屬性情感分類 . 138
7.5.3主題與情感的生成式建模 141
7.6情感分析中的特殊問題 143
7.6.1情感極性轉移問題 143
7.6.2領域適應問題 . 145
7.7進一步閱讀 . 147
第 8章話題檢測與跟蹤 . 149
8.1概述 . 149
8.2術語與任務 . 151
8.2.1術語 151
8.2.2任務 152
8.3報道或話題的表示與相似性計算 . 154
8.4話題檢測 156
8.4.1話題在線檢測 . 157
8.4.2話題回溯檢測 . 158
8.5話題跟蹤 159
8.6評估方法 160
8.7社交媒體話題檢測與跟蹤 . 161
8.7.1社交媒體話題檢測 162
8.7.2社交媒體話題跟蹤 163
8.8突發話題檢測 . 163
8.8.1突發狀態識別 . 164
8.8.2以文檔為中心的方法:先檢測話題後評估突發性 . 167
8.8.3以特徵為中心的方法:先識別突發特徵後生成突發話題 . 168
8.9進一步閱讀 . 169
第 9章信息抽取 . 171
9.1概述 . 171
9.2命名實體識別 . 173
9.2.1基於規則的命名實體識別方法 . 174
目錄 XI
9.2.2有監督的命名實體識別方法 . 175
9.2.3半監督的命名實體識別方法 . 181
9.2.4命名實體識別方法評價 . 183
9.3共指消解 184
9.3.1基於規則的共指消解方法 185
9.3.2數據驅動的共指消解方法 187
9.3.3共指消解評價 . 190
9.4實體消歧 193
9.4.1基於聚類的實體消歧方法 193
9.4.2基於鏈接的實體消歧 . 197
9.4.3實體消歧任務的評價方法 203
9.5關係抽取 204
9.5.1基於離散特徵的關係分類方法 . 206
9.5.2基於分布式特徵的關係分類方法 212
9.5.3基於遠程監督的關係分類方法 . 214
9.5.4關係分類性能評價 215
9.6事件抽取 215
9.6.1事件描述模板 . 215
9.6.2事件抽取方法 . 217
9.6.3事件抽取評價 . 224
9.7進一步閱讀 . 224
第 10章文本自動摘要 227
10.1概述 . 227
10.2抽取式自動摘要 228
10.2.1句子重要性評估 229
10.2.2基於約束的摘要生成方法 . 237
10.3壓縮式自動摘要方法 238
10.3.1句子壓縮方法 238
10.3.2基於句子壓縮的自動摘要方法 242
10.4生成式自動摘要 244
10.4.1基於信息融合的生成式摘要方法 . 244
10.4.2基於編碼 -解碼的生成式摘要方法 249
10.5基於查詢的自動摘要 251
10.5.1基於語言模型的相關性計算方法 . 251
10.5.2基於關鍵詞語重合度的相關性計算方法 . 252
10.5.3基於圖模型的相關性計算方法 252
10.6跨語言和多語言自動摘要方法 253
10.6.1跨語言自動摘要 253
10.6.2多語言自動摘要 256
10.7摘要質量評估方法和相關評測 258
10.7.1摘要質量評估方法 . 258
10.7.2相關評測活動 262
10.8進一步閱讀 . 263
參考文獻 . 265
名詞術語索引 . 285
1.1基本概念 1
1.2文本挖掘任務 .2
1.3文本挖掘面臨的困難 .5
1.4方法概述與本書的內容組織 .7
1.5進一步閱讀 .9
第 2章數據預處理和標注 . 11
2.1數據獲取 11
2.2數據預處理 . 15
2.3數據標注 17
2.4基本工具 19
2.4.1漢語自動分詞與詞性標注 19
2.4.2句法分析 . 20
2.4.3 n元語法模型 . 21
2.5進一步閱讀 . 22
第 3章文本表示 . 23
3.1向量空間模型 . 23
3.1.1向量空間模型的基本概念 23
3.1.2特徵項的構造與權重 . 24
3.1.3文本長度規範化 . 25
3.1.4特徵工程 . 26
3.1.5其他文本表示方法 27
3.2詞的分布式表示 29
3.2.1神經網絡語言模型 29
3.2.2 C&W模型 . 32
3.2.3 CBOW與 Skip-gram模型 34
3.2.4噪聲對比估計與負採樣 . 35
3.2.5字詞混合的分布式表示方法 . 37
3.3短語的分布式表示 . 38
3.3.1基於詞袋的分布式表示 . 39
3.3.2基於自動編碼器的分布式表示 . 39
3.4句子的分布式表示 . 42
3.4.1通用的句子表示 . 42
3.4.2任務相關的句子表示 . 45
3.5文檔的分布式表示 . 48
3.5.1通用的文檔分布式表示 . 48
3.5.2任務相關的文檔分布式表示 . 49
3.6進一步閱讀 . 52
第 4章文本分類 . 53
4.1概述 . 53
4.2傳統文本表示 . 54
4.3特徵選擇 55
4.3.1互信息法 . 55
4.3.2信息增益法 58
4.3.3卡方統計量法 . 59
4.3.4其他方法 . 60
4.4傳統分類算法 . 61
4.4.1樸素貝葉斯模型 . 61
4.4.2 Logistic回歸、 Softmax回歸與最大熵模型 . 63
4.4.3支持向量機 65
4.4.4集成學習 . 67
4.5深度神經網絡方法 . 68
4.5.1多層前饋神經網絡 68
4.5.2卷積神經網絡 . 69
4.5.3循環神經網絡 . 71
4.6文本分類性能評估 . 78
4.7進一步閱讀 . 81
第 5章文本聚類 . 83
5.1概述 . 83
5.2文本相似性度量 83
5.2.1樣本間的相似性 . 83
5.2.2簇間的相似性 . 86
目錄 IX
5.2.3樣本與簇之間的相似性 . 87
5.3文本聚類算法 . 87
5.3.1 K-均值聚類 . 87
5.3.2單遍聚類 . 91
5.3.3層次聚類 . 92
5.3.4密度聚類 . 95
5.4性能評估 97
5.4.1外部標準 . 97
5.4.2內部標準 . 99
5.5進一步閱讀 . 99
第 6章主題模型 . 101
6.1概述 . 101
6.2潛在語義分析 . 102
6.2.1奇異值分解 102
6.2.2詞項 -文檔矩陣的奇異值分解 103
6.2.3詞項和文檔的概念表示及相似度計算 . 104
6.3概率潛在語義分析 . 106
6.3.1模型假設 . 106
6.3.2參數學習 . 107
6.4潛在狄利克雷分佈 . 108
6.4.1模型假設 . 108
6.4.2詞項和主題序列的聯合概率 . 110
6.4.3模型推斷 . 112
6.4.4新文檔的推斷 . 114
6.4.5 PLSA與 LDA的聯繫與區別 . 115
6.5進一步閱讀 . 115
第 7章情感分析與觀點挖掘 117
7.1概述 . 117
7.2情感分析任務類型 . 118
7.2.1按目標形式劃分 . 118
7.2.2按分析粒度劃分 . 119
7.3文檔或句子級情感分析方法 . 121
7.3.1基於規則的無監督情感分類 . 122
7.3.2基於傳統機器學習的監督情感分類 . 123
7.3.3深度神經網絡方法 126
文本數據挖掘
7.4詞語級情感分析與情感詞典構建 . 131
7.4.1基於語義知識庫的方法 . 131
7.4.2基於語料庫的方法 131
7.4.3情感詞典性能評估 134
7.5屬性級情感分析 134
7.5.1屬性抽取 . 135
7.5.2屬性情感分類 . 138
7.5.3主題與情感的生成式建模 141
7.6情感分析中的特殊問題 143
7.6.1情感極性轉移問題 143
7.6.2領域適應問題 . 145
7.7進一步閱讀 . 147
第 8章話題檢測與跟蹤 . 149
8.1概述 . 149
8.2術語與任務 . 151
8.2.1術語 151
8.2.2任務 152
8.3報道或話題的表示與相似性計算 . 154
8.4話題檢測 156
8.4.1話題在線檢測 . 157
8.4.2話題回溯檢測 . 158
8.5話題跟蹤 159
8.6評估方法 160
8.7社交媒體話題檢測與跟蹤 . 161
8.7.1社交媒體話題檢測 162
8.7.2社交媒體話題跟蹤 163
8.8突發話題檢測 . 163
8.8.1突發狀態識別 . 164
8.8.2以文檔為中心的方法:先檢測話題後評估突發性 . 167
8.8.3以特徵為中心的方法:先識別突發特徵後生成突發話題 . 168
8.9進一步閱讀 . 169
第 9章信息抽取 . 171
9.1概述 . 171
9.2命名實體識別 . 173
9.2.1基於規則的命名實體識別方法 . 174
目錄 XI
9.2.2有監督的命名實體識別方法 . 175
9.2.3半監督的命名實體識別方法 . 181
9.2.4命名實體識別方法評價 . 183
9.3共指消解 184
9.3.1基於規則的共指消解方法 185
9.3.2數據驅動的共指消解方法 187
9.3.3共指消解評價 . 190
9.4實體消歧 193
9.4.1基於聚類的實體消歧方法 193
9.4.2基於鏈接的實體消歧 . 197
9.4.3實體消歧任務的評價方法 203
9.5關係抽取 204
9.5.1基於離散特徵的關係分類方法 . 206
9.5.2基於分布式特徵的關係分類方法 212
9.5.3基於遠程監督的關係分類方法 . 214
9.5.4關係分類性能評價 215
9.6事件抽取 215
9.6.1事件描述模板 . 215
9.6.2事件抽取方法 . 217
9.6.3事件抽取評價 . 224
9.7進一步閱讀 . 224
第 10章文本自動摘要 227
10.1概述 . 227
10.2抽取式自動摘要 228
10.2.1句子重要性評估 229
10.2.2基於約束的摘要生成方法 . 237
10.3壓縮式自動摘要方法 238
10.3.1句子壓縮方法 238
10.3.2基於句子壓縮的自動摘要方法 242
10.4生成式自動摘要 244
10.4.1基於信息融合的生成式摘要方法 . 244
10.4.2基於編碼 -解碼的生成式摘要方法 249
10.5基於查詢的自動摘要 251
10.5.1基於語言模型的相關性計算方法 . 251
10.5.2基於關鍵詞語重合度的相關性計算方法 . 252
10.5.3基於圖模型的相關性計算方法 252
10.6跨語言和多語言自動摘要方法 253
10.6.1跨語言自動摘要 253
10.6.2多語言自動摘要 256
10.7摘要質量評估方法和相關評測 258
10.7.1摘要質量評估方法 . 258
10.7.2相關評測活動 262
10.8進一步閱讀 . 263
參考文獻 . 265
名詞術語索引 . 285
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。