評論

滿額折

文本數據挖掘（簡體書）

系列名：中國科學院大學研究生教學輔導書系列
ISBN13：9787302519904
出版社：清華大學出版社(大陸)
作者：宗成慶; 夏睿; 張家俊
出版日：2019/05/01
裝訂／頁數：平裝／308頁
規格：26cm*19cm (高/寬)
版次：一版
關鍵字：文本數據挖掘（簡體書）、文本、數據、挖掘、簡體、清華大學出版社（大陸）、宗成慶、夏睿、張家俊、簡體書、工業技術、自動化技術、計算技術、數據處理、數據處理系統、

中國圖書館分類

：

數據處理、數據處理系統

人民幣定價：75 元

定價

：NT$ 450 元

優惠價

： 87 折 392 元

領券後再享88折起

領

海外經銷商無庫存，到貨日平均30天至45天

下單可得紅利積點：11 點

商品簡介

作者簡介

商品簡介

本書闡述文本數據挖掘的理論模型、實現算法和相關應用，主要內容包括：信息抽取和知識庫構建、文本聚類、情感文本分析、熱點發現、生物醫學文本挖掘和多文檔自動摘要等。寫作風格力求言簡意賅，深入淺出，通過實例說明實現相關任務的理論方法和技術思路，而不過多地涉及實現細節。本書可作為大學高年級本科生或研究生從事相關研究的入門文獻，也可作為從事相關技術研發的開發人員的參考資料。

作者簡介

宗成慶，中國科學院自動化研究所研究員，博士生導師。主要從事自然語言處理、機器翻譯和文本情感分析等相關研究，主持國家科研項目10余項，發表論文150餘篇，出版專著一部、譯著一部。2013年獲國務院政府特殊津貼，2014年獲錢偉長中文信息處理科學技術獎一等獎(第一獲獎人)，現為國際計算語言學委員會(ICCL)委員，2015年擔任本領域國際頂級會議ACL-IJCNLP 程序委員會共同主席(PC Co-chair)，是多個國際學術期刊的編委或副主編(Associate Editor)。
夏睿，南京理工大學副教授，碩士生導師。主要從事自然語言處理、機器學習、情感分析與觀點挖掘等方面的研究工作，在領域頂級期刊和會議上(如IEEE TKDE、IEEE IS、INS、IPM、IJCAI、AAAI、ACL、COLING等)發表論文20余篇，曾任多個國際頂級會議和研討會(如IJCAI、ACL、SENTIRE、WISDOM、MABSDA)的程序委員會委員和 Session Chair，並擔任多個國際期刊(如IEEE TKDE、DMKD、IEEE IS、IEEE CIM、ACM TALIP、CogCom、JCST、計算機學報、自

第 1章緒論 .1

1.1基本概念 1

1.2文本挖掘任務 .2

1.3文本挖掘面臨的困難 .5

1.4方法概述與本書的內容組織 .7

1.5進一步閱讀 .9

第 2章數據預處理和標注 . 11

2.1數據獲取 11

2.2數據預處理 . 15

2.3數據標注 17

2.4基本工具 19

2.4.1漢語自動分詞與詞性標注 19

2.4.2句法分析 . 20

2.4.3 n元語法模型 . 21

2.5進一步閱讀 . 22

第 3章文本表示 . 23

3.1向量空間模型 . 23

3.1.1向量空間模型的基本概念 23

3.1.2特徵項的構造與權重 . 24

3.1.3文本長度規範化 . 25

3.1.4特徵工程 . 26

3.1.5其他文本表示方法 27

3.2詞的分布式表示 29

3.2.1神經網絡語言模型 29

3.2.2 C&W模型 . 32

3.2.3 CBOW與 Skip-gram模型 34

3.2.4噪聲對比估計與負採樣 . 35

3.2.5字詞混合的分布式表示方法 . 37

3.3短語的分布式表示 . 38

3.3.1基於詞袋的分布式表示 . 39

3.3.2基於自動編碼器的分布式表示 . 39

3.4句子的分布式表示 . 42

3.4.1通用的句子表示 . 42

3.4.2任務相關的句子表示 . 45

3.5文檔的分布式表示 . 48

3.5.1通用的文檔分布式表示 . 48

3.5.2任務相關的文檔分布式表示 . 49

3.6進一步閱讀 . 52

第 4章文本分類 . 53

4.1概述 . 53

4.2傳統文本表示 . 54

4.3特徵選擇 55

4.3.1互信息法 . 55

4.3.2信息增益法 58

4.3.3卡方統計量法 . 59

4.3.4其他方法 . 60

4.4傳統分類算法 . 61

4.4.1樸素貝葉斯模型 . 61

4.4.2 Logistic回歸、 Softmax回歸與最大熵模型 . 63

4.4.3支持向量機 65

4.4.4集成學習 . 67

4.5深度神經網絡方法 . 68

4.5.1多層前饋神經網絡 68

4.5.2卷積神經網絡 . 69

4.5.3循環神經網絡 . 71

4.6文本分類性能評估 . 78

4.7進一步閱讀 . 81

第 5章文本聚類 . 83

5.1概述 . 83

5.2文本相似性度量 83

5.2.1樣本間的相似性 . 83

5.2.2簇間的相似性 . 86

目錄 IX
5.2.3樣本與簇之間的相似性 . 87

5.3文本聚類算法 . 87

5.3.1 K-均值聚類 . 87

5.3.2單遍聚類 . 91

5.3.3層次聚類 . 92

5.3.4密度聚類 . 95

5.4性能評估 97

5.4.1外部標準 . 97

5.4.2內部標準 . 99

5.5進一步閱讀 . 99

第 6章主題模型 . 101

6.1概述 . 101

6.2潛在語義分析 . 102

6.2.1奇異值分解 102

6.2.2詞項 -文檔矩陣的奇異值分解 103

6.2.3詞項和文檔的概念表示及相似度計算 . 104

6.3概率潛在語義分析 . 106

6.3.1模型假設 . 106

6.3.2參數學習 . 107

6.4潛在狄利克雷分佈 . 108

6.4.1模型假設 . 108

6.4.2詞項和主題序列的聯合概率 . 110

6.4.3模型推斷 . 112

6.4.4新文檔的推斷 . 114

6.4.5 PLSA與 LDA的聯繫與區別 . 115

6.5進一步閱讀 . 115

第 7章情感分析與觀點挖掘 117

7.1概述 . 117

7.2情感分析任務類型 . 118

7.2.1按目標形式劃分 . 118

7.2.2按分析粒度劃分 . 119

7.3文檔或句子級情感分析方法 . 121

7.3.1基於規則的無監督情感分類 . 122

7.3.2基於傳統機器學習的監督情感分類 . 123

7.3.3深度神經網絡方法 126

文本數據挖掘
7.4詞語級情感分析與情感詞典構建 . 131

7.4.1基於語義知識庫的方法 . 131

7.4.2基於語料庫的方法 131

7.4.3情感詞典性能評估 134

7.5屬性級情感分析 134

7.5.1屬性抽取 . 135

7.5.2屬性情感分類 . 138

7.5.3主題與情感的生成式建模 141

7.6情感分析中的特殊問題 143

7.6.1情感極性轉移問題 143

7.6.2領域適應問題 . 145

7.7進一步閱讀 . 147

第 8章話題檢測與跟蹤 . 149

8.1概述 . 149

8.2術語與任務 . 151

8.2.1術語 151

8.2.2任務 152

8.3報道或話題的表示與相似性計算 . 154

8.4話題檢測 156

8.4.1話題在線檢測 . 157

8.4.2話題回溯檢測 . 158

8.5話題跟蹤 159

8.6評估方法 160

8.7社交媒體話題檢測與跟蹤 . 161

8.7.1社交媒體話題檢測 162

8.7.2社交媒體話題跟蹤 163

8.8突發話題檢測 . 163

8.8.1突發狀態識別 . 164

8.8.2以文檔為中心的方法：先檢測話題後評估突發性 . 167

8.8.3以特徵為中心的方法：先識別突發特徵後生成突發話題 . 168

8.9進一步閱讀 . 169

第 9章信息抽取 . 171

9.1概述 . 171

9.2命名實體識別 . 173

9.2.1基於規則的命名實體識別方法 . 174

目錄 XI
9.2.2有監督的命名實體識別方法 . 175

9.2.3半監督的命名實體識別方法 . 181

9.2.4命名實體識別方法評價 . 183

9.3共指消解 184

9.3.1基於規則的共指消解方法 185

9.3.2數據驅動的共指消解方法 187

9.3.3共指消解評價 . 190

9.4實體消歧 193

9.4.1基於聚類的實體消歧方法 193

9.4.2基於鏈接的實體消歧 . 197

9.4.3實體消歧任務的評價方法 203

9.5關係抽取 204

9.5.1基於離散特徵的關係分類方法 . 206

9.5.2基於分布式特徵的關係分類方法 212

9.5.3基於遠程監督的關係分類方法 . 214

9.5.4關係分類性能評價 215

9.6事件抽取 215

9.6.1事件描述模板 . 215

9.6.2事件抽取方法 . 217

9.6.3事件抽取評價 . 224

9.7進一步閱讀 . 224

第 10章文本自動摘要 227

10.1概述 . 227

10.2抽取式自動摘要 228

10.2.1句子重要性評估 229

10.2.2基於約束的摘要生成方法 . 237

10.3壓縮式自動摘要方法 238

10.3.1句子壓縮方法 238

10.3.2基於句子壓縮的自動摘要方法 242

10.4生成式自動摘要 244

10.4.1基於信息融合的生成式摘要方法 . 244

10.4.2基於編碼 -解碼的生成式摘要方法 249

10.5基於查詢的自動摘要 251

10.5.1基於語言模型的相關性計算方法 . 251

10.5.2基於關鍵詞語重合度的相關性計算方法 . 252

10.5.3基於圖模型的相關性計算方法 252

10.6跨語言和多語言自動摘要方法 253

10.6.1跨語言自動摘要 253

10.6.2多語言自動摘要 256

10.7摘要質量評估方法和相關評測 258

10.7.1摘要質量評估方法 . 258

10.7.2相關評測活動 262

10.8進一步閱讀 . 263

參考文獻 . 265

名詞術語索引 . 285

主題書展

主題書展

更多書展

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

熱搜：

判處勇者刑

丹麥史

新年書單

年度暢銷

Julia Donaldson 套書

fx戰士

115學測國文

世界名著英文版

神啊告訴我你在想什麼

大寒

文本數據挖掘（簡體書）

商品資訊

系列名：中國科學院大學研究生教學輔導書系列

ISBN13：9787302519904

出版社：清華大學出版社(大陸)

作者：宗成慶; 夏睿; 張家俊

出版日：2019/05/01

裝訂／頁數：平裝／308頁

規格：26cm*19cm (高/寬)

版次：一版

中國圖書館分類

數據處理、數據處理系統

商品簡介

作者簡介

目次

主題書展

2025三民年度暢銷書展

三民月月讀書金

簡體每月選書

簡體曬書節

簡體熱門影劇書展

2026台北國際書展

2026新年書展

春節必備好物推薦

尖端線上國際書展

讀書共和國新年暢銷書展

購物須知