TOP
0
0
母親節暖心加碼,點我領取「限時加碼券」
在線文本數據挖掘:算法原理與編程實現(簡體書)
滿額折

在線文本數據挖掘:算法原理與編程實現(簡體書)

商品資訊

人民幣定價:88 元
定價
:NT$ 528 元
優惠價
87459
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:13 點
相關商品
商品簡介
作者簡介
目次

商品簡介

本書介紹了互聯網環境下文本類型數據的分析方法,探討了當前主流的文本挖掘技術,以及這些技術在商業環境中的具體應用。本書從算法原理和應用場景兩方面分別對在線文本分析技術進行了介紹:從算法原理的角度,以數據挖掘和機器學習的相關知識為基礎,介紹了以文本建模、文本分類、文本聚類、序列標注為主要任務的文本分析方法,並對當前主流的深度學習方法與文本分析的結合進行了討論。從應用場景的角度,討論了文本分析技術的幾個重要實踐領域,包括信息檢索、內容摘要、口碑分析、社交網絡分析以及智能系統。

作者簡介

劉通,畢業于上海交通大學安泰經濟與管理學院,獲得博士研究生學位,多年從事動畫、虛擬現實、手機遊戲設計開發的研究。曾出版《PREMIERE PRO CS4 視頻編輯與實戰演練》、《手機動畫角色設計》目前就職于華為技術有限公司

目次

第1章 概述 1
1.1 網絡運營與文本分析 1
1.1.1 互聯網運營的戰略思維 1
1.1.2 網絡運營與大數據文本分析 2
1.2 文本分析的4V特徵 4
1.2.1 Volume特徵 4
1.2.2 Variety特徵 5
1.2.3 Value特徵 6
1.2.4 Velocity特徵 7
1.3 在線文本分析應用 8
1.3.1 在線文本分析的管理類應用 9
1.3.2 在線文本分析的內容類應用 12
1.4 本章小結 16
第2章 預備知識 18
2.1 文本挖掘的主要任務 18
2.2 語義分析與語法分析 20
2.3 文本的結構化分析 21
2.4 文本的標準化分析 24
2.5 機器學習的基本概念 24
2.5.1 機器學習與深度學習 25
2.5.2 機器學習的基本要素 33
2.6 機器學習的重要問題 36
2.6.1 概率圖模型 36
2.6.2 判別式模型和產生式模型 39
2.6.3 機器學習模型求解 40
2.6.4 模型過擬合 43
2.7 本章小結 45
第3章 文本建模 46
3.1 文本建模的基本概念 46
3.2 文本建模的應用場景 48
3.2.1 主體角色識別 48
3.2.2 語言風格分析 49
3.2.3 智能系統 49
3.2.4 文本表示 50
3.2.5 文本降維 50
3.2.6 話題分析 50
3.3 語言學建模概述 51
3.4 詞標注分析 52
3.5 句法分析 55
3.5.1 轉換生成語法 56
3.5.2 依存句法 56
3.6 知識庫與語義網 58
3.7 統計學建模概述 59
3.8 向量空間模型 61
3.9 LSI模型 64
3.9.1 SVD 64
3.9.2 基於SVD的降維分析 66
3.10 Unigram模型 67
3.11 pLSI模型 67
3.11.1 pLSI的模型結構 67
3.11.2 pLSI的參數估計 68
3.12 LDA主題模型 70
3.12.1 LDA的模型結構 70
3.12.2 LDA的參數估計 72
3.13 主題模型拓展 75
3.13.1 相關主題模型 76
3.13.2 層次主題模型 77
3.13.3 動態主題模型 80
3.13.4 句子主題模型 82
3.14 基於詞匯的統計學建模方法 83
3.15 本章小結 86
第4章 文本分類 88
4.1 文本分類的基本概念 88
4.2 文本分類的應用場景 89
4.2.1 文檔有用性判斷 89
4.2.2 口碑情感分析 90
4.2.3 負面信息識別 90
4.2.4 信息檢索 90
4.3 樸素貝葉斯模型 91
4.3.1 貝努利模型 91
4.3.2 多項式模型 93
4.3.3 模型參數平滑 94
4.4 向量空間模型 95
4.4.1 Rocchio方法 95
4.4.2 KNN方法 96
4.5 SVM模型 97
4.5.1 硬間隔SVM 97
4.5.2 軟間隔SVM 100
4.6 文本分類的評價 102
4.6.1 二元分類評價 102
4.6.2 多類問題評價 104
4.6.3 分類測試集 105
4.7 分類特徵優化 106
4.7.1 分類特徵提取 106
4.7.2 分類特徵轉化 112
4.7.3 分類特徵擴展 114
4.8 分類學習策略優化 117
4.8.1 AdaBoost算法 117
4.8.2 主動式學習 118
4.8.3 遷移學習 119
4.9 本章小結 119
第5章 文本聚類 121
5.1 文本聚類的基本概念 121
5.2 文本聚類的應用場景 122
5.2.1 探索分析 122
5.2.2 降維 123
5.2.3 信息檢索 123
5.3 扁平式聚類 124
5.3.1 K-均值算法 125
5.3.2 基於模型的聚類 128
5.4 凝聚式聚類 132
5.4.1 層次聚類 132
5.4.2 基於簇距離的聚類過程 132
5.4.3 算法停止條件 135
5.5 聚類結果分析 136
5.5.1 聚類算法評估 136
5.5.2 聚類標簽生成 138
5.6 聚類特徵優化 140
5.6.1 基於迭代的方法 141
5.6.2 無監督指標 141
5.7 半監督聚類 143
5.7.1 遷移學習 144
5.7.2 AP算法 145
5.8 短文本聚類 146
5.8.1 文本特徵補充 146
5.8.2 TermCut算法 148
5.8.3 Dirichlet多項式混合模型 149
5.9 流數據聚類 151
5.9.1 OSKM算法 151
5.9.2 可拓展K-means算法 152
5.10 本章小結 153
第6章 序列標注 155
6.1 序列標注的基本概念 155
6.2 序列標注的應用場景 157
6.2.1 詞性標注 157
6.2.2 命名實體識別 157
6.2.3 分詞 157
6.3 HMM 158
6.3.1 HMM的概率計算問題 160
6.3.2 HMM的學習問題 162
6.2.3 HMM的預測問題 164
6.4 最大熵模型和最大熵馬爾可夫模型 166
6.4.1 最大熵模型 167
6.4.2 最大熵馬爾可夫模型 170
6.5 條件隨機場 172
6.5.1 標注偏置問題 172
6.5.2 條件隨機場的基本原理 174
6.6 本章小結 176
第7章 信息檢索 177
7.1 信息檢索的基本概念 177
7.2 信息檢索的應用場景 180
7.2.1 搜索引擎 180
7.2.2 內容推薦 182
7.3 基於空間模型的信息檢索 184
7.3.1 文檔查找 184
7.3.2 文檔排序 185
7.3.3 系統評價 187
7.4 基於概率模型的信息檢索 190
7.4.1 二值獨立模型 191
7.4.2 模型參數估計 193
7.5 基於語言模型的信息檢索 196
7.5.1 語言模型 196
7.5.2 查詢似然模型 198
7.6 本章小結 201
第8章 文本摘要 203
8.1 文本摘要的基本概念 203
8.2 文本摘要的應用場景 206
8.2.1 信息檢索 206
8.2.2 信息壓縮 207
8.2.3 用戶畫像 208
8.2.4 知識管理 209
8.3 關鍵詞提取的特徵設計 210
8.3.1 詞頻特徵 210
8.3.2 詞匯基礎特徵 211
8.3.3 詞匯位置特徵 212
8.3.4 詞匯標記特徵 214
8.4 關鍵詞提取的有監督算法 214
8.5 關鍵詞提取的無監督算法 217
8.5.1 簡單指標設計 217
8.5.2 複合指標設計 217
8.6 基於圖模型的關鍵詞提取算法 218
8.6.1 圖模型靜態指標算法 220
8.6.2 圖模型動態指標算法 223
8.7 關鍵詞提取的技術優化 226
8.7.1 長文本問題優化 227
8.7.2 短文本問題優化 228
8.7.3 多主題特徵優化 229
8.7.4 時序特徵優化 232
8.7.5 歧義問題優化 233
8.8 關鍵短語提取 234
8.8.1 短語性指標 235
8.8.2 信息性指標 235
8.9 關鍵句提取 236
8.9.1 基於詞匯關鍵性的方法 236
8.9.2 基於句子特徵的方法 237
8.9.3 基於圖模型的方法 238
8.10 本章小結 240
第9章 口碑分析 241
9.1 口碑分析的基本概念 242
9.2 口碑分析的應用場景 243
9.2.1 用戶視角的應用 243
9.2.2 網站運營者視角的應用 244
9.2.3 商家視角的應用 244
9.2.4 其他應用 245
9.3 基於詞典的評價對象提取 245
9.4 基於語料的評價對象提取 246
9.5 評價水平量化 252
9.5.1 整體粗粒度情感分析 253
9.5.2 整體細粒度情感分析 254
9.5.3 局部粗粒度情感分析 258
9.5.4 局部細粒度情感分析 259
9.6 基於語言模型的情感分析技術 259
9.6.1 最大熵LDA主題模型:模型性質 260
9.6.2 最大熵LDA主題模型:基本結構 260
9.6.3 最大熵LDA主題模型:參數估計 263
9.7 本章小結 265
第10章 社交網絡分析 266
10.1 社交網絡分析的基本概念 266
10.2 社交網絡分析的應用場景 269
10.2.1 虛擬社區發現 270
10.2.2 用戶影響力分析 271
10.2.3 情感分析 271
10.2.4 話題發現與演化 272
10.2.5 信息檢索 273
10.3 社交網絡的虛擬社區發現 274
10.3.1 社區發現的信息基礎 274
10.3.2 基於隱性位置的聚類模型 275
10.4 社交網絡的用戶影響力分析 276
10.4.1 網絡結構與用戶影響力 276
10.4.2 TwitterRank算法 277
10.5 社交網絡的情感分析 279
10.5.1 基於表情符號的訓練集合構建 279
10.5.2 基於POSTag的特徵優化 280
10.6 社交網絡的話題發現與演化 282
10.6.1 話題發現分析 282
10.6.2 Twitter-LDA 284
10.6.3 基於文檔聚類的話題發現 284
10.6.4 基於詞匯聚類的話題發現 286
10.6.5 話題演化分析 287
10.6.6 基於NMF的主題建模 287
10.7 社交網絡的信息檢索 289
10.7.1 信息檢索的內容拓展策略 290
10.7.2 信息檢索的綜合排序策略 291
10.8 本章小結 293
第11章 深度學習與NLP 295
11.1 基本原理 296
11.2 詞嵌入模型 299
11.2.1 詞匯的分布式表示 299
11.2.2 神經概率語言模型 300
11.2.3 詞嵌入模型概述 301
11.3 RNN與NLP 304
11.3.1 RNN 304
11.3.2 基於RNN的機器翻譯 305
11.3.3 RNN的其他應用 308
11.4 本章小結 309
第12章 實證研究 311
12.1 研究框架 311
12.1.1 研究問題背景 311
12.1.2 問題分析 313
12.2 理論與模型 314
12.2.1 相關理論與假設 314
12.2.2 模型構建 317
12.3 文本數據處理 319
12.3.1 基於文本分析的口碑打分調整 319
12.3.2 基於文本分析的口碑權重計算 323
12.3.3 基於文本分析的候選集合構建 324
12.4 研究結論 326
12.4.1 實證結果 326
12.4.2 管理建議 328
12.5 本章小結 329
第13章 總結 330

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 459
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區