文本數據管理與分析:信息檢索與文本挖掘的實用導論(簡體書)
商品資訊
系列名:數據科學與工程技術叢書
ISBN13:9787111611769
出版社:機械工業出版社
作者:(美)翟成祥; (美)肖恩‧馬森
譯者:宋巍
出版日:2019/04/01
裝訂/頁數:平裝/328頁
規格:26.0cm*18.5cm (高/寬)
版次:一版
商品簡介
作者簡介
目次
相關商品
商品簡介
本書從實際角度涵蓋了信息檢索和文本數據挖掘領域的主要概念、技術和方法,並包括許多專門設計並輔以配套軟件工具包(例如META,一種數據科學工具包)的動手練習,來幫助讀者學習如何運用文本挖掘和信息檢索的技術來分析和處理現實世界中的文本數據,以及如何試驗數據和為具體應用任務來改進一些算法。
作者簡介
翟成祥(ChengXiang Zhai), 伊利諾伊大學香檳分校計算機科學系以及圖書館與信息科學研究生院、基因生物學研究所和統計系教授、Willet學者。研究興趣包括信息檢索、文本挖掘、自然語言處理、機器學習、生物醫學與健康信息學以及智能教育信息系統。他已經在主流會議與期刊發表超過300篇研究論文,現在是《ACM Transactions on Knowledge Discovery from Data》副主編,曾任《Information Processing and Management》副主編、《ACM Transactions on Information Systems》副主編以及《Information Retrieval Journal》編委,並擔任多個國際會議的程序委員會主席和大會主席。他是ACM會士、ACM傑出科學家並榮獲多項榮譽,包括ACM SIGIR 2004 最佳論文、ACM SIGIR 2014 時間考驗獎、 Alfred P. Sloan研究獎金、IBM 教師獎、HP 創新研究項目獎、微軟超越搜索研究獎 以及美國青年科學家和工程師總統獎。肖
恩·馬森(Sean Massung), 伊利諾伊大學香檳分校計算機科學專業博士生,此前他在此分別獲得學士和碩士學位。他是META的聯合發明者並在其所有研究中使用META。他是多門課程的指導者,包括CS225“數據結構與編程原則”、CS410“文本信息系統”以及CS591txt“文本挖掘研討”。研究興趣包括信息檢索中的文本挖掘應用、自然語言處理和教育。
恩·馬森(Sean Massung), 伊利諾伊大學香檳分校計算機科學專業博士生,此前他在此分別獲得學士和碩士學位。他是META的聯合發明者並在其所有研究中使用META。他是多門課程的指導者,包括CS225“數據結構與編程原則”、CS410“文本信息系統”以及CS591txt“文本挖掘研討”。研究興趣包括信息檢索中的文本挖掘應用、自然語言處理和教育。
目次
中文版序
譯者序
前言
作者簡介
第一部分 概述和背景
第1章 緒論2
1.1 文本信息系統的功能4
1.2 文本信息系統的概念框架5
1.3 本書結構安排7
1.4 如何使用本書8
書目說明和延伸閱讀9
第2章 背景11
2.1 概率和統計基礎11
2.1.1 聯合概率和條件概率12
2.1.2 貝葉斯法則13
2.1.3 拋硬幣和二項分佈14
2.1.4 最大似然參數估計14
2.1.5 貝葉斯參數估計15
2.1.6 概率模型及其應用16
2.2 信息論17
2.3 機器學習19
書目說明和延伸閱讀20
練習20
第3章 文本數據理解22
3.1 自然語言處理的歷史和研究現狀23
3.2 自然語言處理和文本信息系統24
3.3 文本表示26
3.4 統計語言模型28
書目說明和延伸閱讀31
練習31
第4章 META:一個面向文本數據管理和分析的統一工具箱33
4.1 設計原則33
4.2 設置META34
4.3 架構34
4.4 用META分詞35
4.5 相關工具箱37
練習38
第二部分 文本數據獲取
第5章 文本數據獲取概述44
5.1 獲取模式:拉取與推送44
5.2 多模式互動獲取45
5.3 文本檢索47
5.4 文本檢索與數據庫檢索48
5.5 文檔選擇與文檔排序49
書目說明和延伸閱讀50
練習51
第6章 檢索模型52
6.1 概述52
6.2 檢索函數的一般形式53
6.3 向量空間檢索模型54
6.3.1 向量空間模型實例化55
6.3.2 位向量表示的表現56
6.3.3 改進的模型實例57
6.3.4 TF變換60
6.3.5 文檔長度規範化62
6.3.6 基本向量空間模型的進一步改進64
6.3.7 小結65
6.4 概率檢索模型65
6.4.1 查詢似然檢索模型67
6.4.2 文檔語言模型的平滑69
6.4.3 具體的平滑方法72
書目說明和延伸閱讀76
練習76
第7章 反饋78
7.1 向量空間模型中的反饋79
7.2 語言模型中的反饋81
書目說明和延伸閱讀84
練習84
第8章 搜索引擎實現86
8.1 分詞器86
8.2 索引器87
8.3 打分器90
8.3.1 逐個詞項排序90
8.3.2 逐個文檔排序90
8.3.3 過濾文檔91
8.3.4 索引分片91
8.4 反饋實現92
8.5 壓縮92
8.5.1 按位壓縮93
8.5.2 塊壓縮94
8.6 高速緩存95
8.6.1 LRU緩存95
8.6.2 DBLRU緩存96
書目說明和延伸閱讀96
練習97
第9章 搜索引擎評價98
9.1 引言98
9.1.1 要度量什麼98
9.1.2 Cranfield評價方法98
9.2 集合檢索的評價100
9.2.1 準確率和召回率100
9.2.2 F度量:準確率和召回率的結合101
9.3 有序列表的評價102
9.4 基於多級別判斷標準的評價106
9.5 評價中的實際問題107
書目說明和延伸閱讀110
練習110
第10章 網絡搜索112
10.1 網絡爬蟲113
10.2 網頁索引113
10.3 鏈接分析117
10.3.1 PageRank算法118
10.3.2 HITS算法121
10.4 排序學習122
10.5 網絡搜索的未來125
書目說明和延伸閱讀127
練習127
第11章 推薦系統130
11.1 基於內容的推薦131
11.2 協同過濾134
11.3 推薦系統的評價137
書目說明和延伸閱讀138
練習138
第三部分 文本數據分析
第12章 文本數據分析概述142
12.1 動機:文本數據分析的應用142
12.2 文本與非文本數據:人類作為主觀傳感器143
12.3 文本挖掘任務概覽145
第13章 詞關聯挖掘148
13.1 詞關聯挖掘的基本思想149
13.2 聚合關係的發現150
13.3 組合關係的發現153
13.4 詞關聯挖掘的評價159
書目說明和延伸閱讀160
練習160
第14章 文本聚類162
14.1 聚類技術概述163
14.2 文檔聚類164
14.2.1 凝聚層次聚類法165
14.2.2 K-均值165
14.3 詞項聚類167
14.3.1 語義關聯的詞語167
14.3.2 點互信息169
14.3.3 先進方法169
14.4 文本聚類的評價172
書目說明和延伸閱讀173
練習173
第15章 文本分類175
15.1 引言175
15.2 文本分類方法概述176
15.3 文本分類問題177
15.4 文本分類的特徵177
15.5 分類算法179
15.5.1 k-近鄰180
15.5.2 樸素貝葉斯181
15.5.3 線性分類器182
15.6 文本分類的評價183
書目說明和延伸閱讀184
練習184
第16章 文本摘要185
16.1 文本摘要技術概述185
16.2 抽取式文本摘要186
16.3 抽象式文本摘要187
16.4 文本摘要的評價189
16.5 文本摘要的應用189
書目說明和延伸閱讀190
練習190
第17章 主題分析192
17.1 用詞項表示的主題193
17.2 用單詞分佈表示的主題196
17.3 挖掘文本中的一個主題198
17.3.1 最簡單的主題模型:一元語言模型199
17.3.2 添加背景語言模型201
17.3.3 混合模型的參數估計205
17.3.4 混合模型的行為206
17.3.5 期望最大化209
17.4 概率潛在語義分析214
17.5 PLSA的擴展及潛在狄利克雷分佈220
17.6 主題分
譯者序
前言
作者簡介
第一部分 概述和背景
第1章 緒論2
1.1 文本信息系統的功能4
1.2 文本信息系統的概念框架5
1.3 本書結構安排7
1.4 如何使用本書8
書目說明和延伸閱讀9
第2章 背景11
2.1 概率和統計基礎11
2.1.1 聯合概率和條件概率12
2.1.2 貝葉斯法則13
2.1.3 拋硬幣和二項分佈14
2.1.4 最大似然參數估計14
2.1.5 貝葉斯參數估計15
2.1.6 概率模型及其應用16
2.2 信息論17
2.3 機器學習19
書目說明和延伸閱讀20
練習20
第3章 文本數據理解22
3.1 自然語言處理的歷史和研究現狀23
3.2 自然語言處理和文本信息系統24
3.3 文本表示26
3.4 統計語言模型28
書目說明和延伸閱讀31
練習31
第4章 META:一個面向文本數據管理和分析的統一工具箱33
4.1 設計原則33
4.2 設置META34
4.3 架構34
4.4 用META分詞35
4.5 相關工具箱37
練習38
第二部分 文本數據獲取
第5章 文本數據獲取概述44
5.1 獲取模式:拉取與推送44
5.2 多模式互動獲取45
5.3 文本檢索47
5.4 文本檢索與數據庫檢索48
5.5 文檔選擇與文檔排序49
書目說明和延伸閱讀50
練習51
第6章 檢索模型52
6.1 概述52
6.2 檢索函數的一般形式53
6.3 向量空間檢索模型54
6.3.1 向量空間模型實例化55
6.3.2 位向量表示的表現56
6.3.3 改進的模型實例57
6.3.4 TF變換60
6.3.5 文檔長度規範化62
6.3.6 基本向量空間模型的進一步改進64
6.3.7 小結65
6.4 概率檢索模型65
6.4.1 查詢似然檢索模型67
6.4.2 文檔語言模型的平滑69
6.4.3 具體的平滑方法72
書目說明和延伸閱讀76
練習76
第7章 反饋78
7.1 向量空間模型中的反饋79
7.2 語言模型中的反饋81
書目說明和延伸閱讀84
練習84
第8章 搜索引擎實現86
8.1 分詞器86
8.2 索引器87
8.3 打分器90
8.3.1 逐個詞項排序90
8.3.2 逐個文檔排序90
8.3.3 過濾文檔91
8.3.4 索引分片91
8.4 反饋實現92
8.5 壓縮92
8.5.1 按位壓縮93
8.5.2 塊壓縮94
8.6 高速緩存95
8.6.1 LRU緩存95
8.6.2 DBLRU緩存96
書目說明和延伸閱讀96
練習97
第9章 搜索引擎評價98
9.1 引言98
9.1.1 要度量什麼98
9.1.2 Cranfield評價方法98
9.2 集合檢索的評價100
9.2.1 準確率和召回率100
9.2.2 F度量:準確率和召回率的結合101
9.3 有序列表的評價102
9.4 基於多級別判斷標準的評價106
9.5 評價中的實際問題107
書目說明和延伸閱讀110
練習110
第10章 網絡搜索112
10.1 網絡爬蟲113
10.2 網頁索引113
10.3 鏈接分析117
10.3.1 PageRank算法118
10.3.2 HITS算法121
10.4 排序學習122
10.5 網絡搜索的未來125
書目說明和延伸閱讀127
練習127
第11章 推薦系統130
11.1 基於內容的推薦131
11.2 協同過濾134
11.3 推薦系統的評價137
書目說明和延伸閱讀138
練習138
第三部分 文本數據分析
第12章 文本數據分析概述142
12.1 動機:文本數據分析的應用142
12.2 文本與非文本數據:人類作為主觀傳感器143
12.3 文本挖掘任務概覽145
第13章 詞關聯挖掘148
13.1 詞關聯挖掘的基本思想149
13.2 聚合關係的發現150
13.3 組合關係的發現153
13.4 詞關聯挖掘的評價159
書目說明和延伸閱讀160
練習160
第14章 文本聚類162
14.1 聚類技術概述163
14.2 文檔聚類164
14.2.1 凝聚層次聚類法165
14.2.2 K-均值165
14.3 詞項聚類167
14.3.1 語義關聯的詞語167
14.3.2 點互信息169
14.3.3 先進方法169
14.4 文本聚類的評價172
書目說明和延伸閱讀173
練習173
第15章 文本分類175
15.1 引言175
15.2 文本分類方法概述176
15.3 文本分類問題177
15.4 文本分類的特徵177
15.5 分類算法179
15.5.1 k-近鄰180
15.5.2 樸素貝葉斯181
15.5.3 線性分類器182
15.6 文本分類的評價183
書目說明和延伸閱讀184
練習184
第16章 文本摘要185
16.1 文本摘要技術概述185
16.2 抽取式文本摘要186
16.3 抽象式文本摘要187
16.4 文本摘要的評價189
16.5 文本摘要的應用189
書目說明和延伸閱讀190
練習190
第17章 主題分析192
17.1 用詞項表示的主題193
17.2 用單詞分佈表示的主題196
17.3 挖掘文本中的一個主題198
17.3.1 最簡單的主題模型:一元語言模型199
17.3.2 添加背景語言模型201
17.3.3 混合模型的參數估計205
17.3.4 混合模型的行為206
17.3.5 期望最大化209
17.4 概率潛在語義分析214
17.5 PLSA的擴展及潛在狄利克雷分佈220
17.6 主題分
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。