Python和NLTK自然語言處理(簡體書)
商品資訊
ISBN13:9787115503343
出版社:人民郵電出版社
作者:(印)尼天‧哈登尼亞; (印)雅各布‧帕金斯; (印)迪蒂‧喬普拉; (印)尼什‧斯喬
譯者:林賜
出版日:2022/10/01
裝訂/頁數:平裝/621頁
規格:26cm*19cm (高/寬)
版次:一版
商品簡介
作者簡介
目次
相關商品
商品簡介
NLTK是自然語言處理領域中非常受歡迎和廣泛使用的Python庫。NLTK的優點在於其簡單性,其中大多數複雜的自然語言處理任務使用幾行代碼即可完成。本書旨在講述如何用Python和NLTK解決各種自然語言處理任務並開發機器學習方面的應用。本書介紹了NLTK的基本模塊,講述了採用NLTK實現自然語言處理的大量技巧,討論了一些文本處理方法和語言處理技術,展示了使用Python實現NLP項目的大量實踐經驗。本書主要內容包括文本挖掘/NLP任務中所需的所有預處理步驟,如何使用Python 3的NLTK 3進行文本處理,如何通過Python開展NLP項目。
本書適合NLP和機器學習領域的愛好者、Python程序員以及機器學習領域的研究人員閱讀。
本書適合NLP和機器學習領域的愛好者、Python程序員以及機器學習領域的研究人員閱讀。
作者簡介
作者:[印度] 尼天·哈登尼亞(Nitin Hardeniya)雅各布·帕金斯(Jacob Perkins) 迪蒂·喬普拉(Deepti Chopra) 尼什·斯喬希 譯者:林賜Nitin Hardeniya是一位數據科學家,精通Python、NLTK、機器學習,與多家知名公司都有長期的合作。他的業務范圍比較廣,擅長解決不同領域的各種業務問題。他發表過5篇專利。
目次
目錄
模塊1 NLTK基礎知識
第 1章 自然語言處理簡介 3
1.1 為什麼要學習NLP 4
1.2 從Python的基本知識開始 7
1.2.1 列表 7
1.2.2 自助 8
1.2.3 正則表達式 9
1.2.4 詞典 11
1.2.5 編寫函數 11
1.3 NLTK 13
1.4 試一試 18
1.5 本章小結 18
第 2章 文本的整理和清洗 19
2.1 文本整理 19
2.2 文本清洗 21
2.3 句子拆分器 22
2.4 標記解析 22
2.5 詞干提取 24
2.6 詞形還原 25
2.7 停用詞刪除 26
2.8 生僻字刪除 27
2.9 拼寫校正 27
2.10 試一試 28
2.11 本章小結 28
第3章 詞性標注 30
3.1 什麼是詞性標注 30
3.1.1 斯坦福標注器 33
3.1.2 深入了解標注器 34
3.1.3 序列標注器 35
3.1.4 布里爾標注器 37
3.1.5 基于標注器的機器學習 37
3.2 命名實體識別 38
3.3 試一試 40
3.4 本章小結 41
第4章 對文本的結構進行語法分析 42
4.1 淺層語法分析與深層語法
分析 42
4.2 語法分析的兩種方法 43
4.3 為什麼需要語法分析 43
4.4 不同類型的語法分析器 45
4.4.1 遞歸下降的語法分析器 45
4.4.2 移位歸約語法分析器 45
4.4.3 圖表語法分析器 45
4.4.4 正則表達式語法
分析器 46
4.5 依存分析 47
4.6 組塊化 49
4.7 信息抽取 51
4.7.1 命名實體識別 52
4.7.2 關系抽取 52
4.8 本章小結 53
第5章 NLP應用 54
5.1 構建第 一個NLP應用 54
5.2 其他的NLP應用 58
5.2.1 機器翻譯 58
5.2.2 統計機器翻譯 59
5.2.3 信息檢索 59
5.2.4 語音識別 61
5.2.5 文本分類 62
5.2.6 信息提取 63
5.2.7 問答系統 64
5.2.8 對話系統 64
5.2.9 詞義消歧 64
5.2.10 主題建模 64
5.2.11 語言檢測 65
5.2.12 光學字符識別 65
5.3 本章小結 65
第6章 文本分類 66
6.1 機器學習 67
6.2 文本分類 68
6.3 采樣 70
6.3.1 樸素貝葉斯 73
6.3.2 決策樹 75
6.3.3 隨機梯度下降 76
6.3.4 邏輯回歸 77
6.3.5 支持向量機 78
6.4 隨機森林算法 79
6.5 文本聚類 79
6.6 文本的主題建模 81
6.7 參考資料 83
6.8 本章小結 83
第7章 網絡爬取 85
7.1 網絡爬蟲 85
7.2 編寫第 一個爬蟲程序 86
7.3 Scrapy中的數據流 89
7.3.1 Scrapy命令行界面 89
7.3.2 項 94
7.4 站點地圖蜘蛛 96
7.5 項管道 97
7.6 外部參考 98
7.7 本章小結 99
第8章 與其他Python庫一同
使用NLTK 100
8.1 NumPy 100
8.1.1 ndarray 101
8.1.2 基本操作 102
8.1.3 從數組中提取數據 103
8.1.4 復雜的矩陣運算 103
8.2 SciPy 107
8.2.1 線性代數 108
8.2.2 特征值和特征向量 108
8.2.3 稀疏矩陣 109
8.2.4 優化 110
8.3 Pandas 111
8.3.1 讀取數據 112
8.3.2 時序數據 114
8.3.3 列轉換 115
8.3.4 噪聲數據 116
8.4 Matplotlib 117
8.4.1 subplot 118
8.4.2 添加軸 119
8.4.3 散點圖 120
8.4.4 柱狀圖 120
8.4.5 3D圖 121
8.5 外部參考 121
8.6 本章小結 121
第9章 使用Python進行社交媒體
挖掘 122
9.1 數據收集 122
9.2 數據提取 126
9.3 地理可視化 128
9.3.1 影響者檢測 129
9.3.2 Facebook 130
9.3.3 影響者的朋友 134
9.4 本章小結 135
第 10章 大規模的文本挖掘 136
10.1 在Hadoop上使用Python的
不同方法 136
10.1.1 Python的流 137
10.1.2 Hive/Pig UDF 137
10.1.3 流包裝器 137
10.2 在Hadoop上運行NLTK 138
10.2.1 UDF 138
10.2.2 Python流 140
10.3 在Hadoop上運行
Scikit-learn 141
10.4 PySpark 144
10.5 本章小結 146
模塊2 使用Python 3的NLTK 3進行文本處理
第 1章 標記文本和WordNet的基礎 149
1.1 引言 149
1.2 將文本標記成句子 150
1.2.1 準備工作 150
1.2.2 工作方式 151
1.2.3 工作原理 151
1.2.4 更多信息 151
1.2.5 請參閱 152
1.3 將句子標記成單詞 152
1.3.1 工作方式 152
1.3.2 工作原理 153
1.3.3 更多信息 153
1.3.4 請參閱 154
1.4 使用正則表達式標記語句 154
1.4.1 準備工作 155
1.4.2 工作方式 155
1.4.3 工作原理 155
1.4.4 更多信息 155
1.4.5 請參閱 156
1.5 訓練語句標記生成器 156
1.5.1 準備工作 156
1.5.2 工作方式 156
1.5.3 工作原理 157
1.5.4 更多信息 158
1.5.5 請參閱 158
1.6 在已標記的語句中過濾
停用詞 158
1.6.1 準備工作 158
1.6.2 工作方式 159
1.6.3 工作原理 159
1.6.4 更多信息 159
1.6.5 請參閱 160
1.7 查找WordNet中單詞的
Synset 160
1.7.1 準備工作 160
1.7.2 工作方式 160
1.7.3 工作原理 161
1.7.4 更多信息 161
1.7.5 請參閱 163
1.8 在WordNet中查找詞元和
同義詞 163
1.8.1 工作方式 163
1.8.2 工作原理 163
1.8.3 更多信息 163
1.8.4 請參閱 165
1.9 計算WordNet和Synset的
相似度 165
1.9.1 工作方式 165
1.9.2 工作原理 165
1.9.3 更多信息 166
1.9.4 請參閱 167
1.10 發現單詞搭配 167
1.10.1 準備工作 167
1.10.2 工作方式 167
1.10.3 工作原理 168
1.10.4 更多信息 168
1.10.5 請參閱 169
第 2章 替換和校正單詞 170
2.1 引言 170
2.2 詞干提取 170
2.2.1 工作方式 171
2.2.2 工作原理 171
2.2.3 更多信息 171
2.2.4 請參閱 173
2.3 使用WordNet進行詞形還原 173
2.3.1 準備工作 173
2.3.2 工作方式 173
2.3.3 工作原理 174
2.3.4 更多信息 174
2.3.5 請參閱 175
2.4 基于匹配的正則表達式替換
單詞 175
2.4.1 準備工作 175
2.4.2 工作方式 175
2.4.3 工作原理 176
2.4.4 更多信息 177
2.4.5 請參閱 177
2.5 移除重復字符 177
2.5.1 準備工作 177
2.5.2 工作方式 178
2.5.3 工作原理 178
2.5.4 更多信息 179
2.5.5 請參閱 179
2.6 使用Enchant進行拼寫校正 180
2.6.1 準備工作 180
2.6.2 工作方式 180
2.6.3 工作原理 181
2.6.4 更多信息 181
2.6.5 請參閱 183
2.7 替換同義詞 183
2.7.1 準備工作 183
2.7.2 工作方式 183
2.7.3 工作原理 184
2.7.4 更多信息 184
2.7.5 請參閱 185
2.8 使用反義詞替換否定形式 186
2.8.1 工作方式 186
2.8.2 工作原理 187
2.8.3 更多信息 187
2.8.4 請參閱 188
第3章 創建自定義語料庫 189
3.1 引言 189
3.2 建立自定義語料庫 190
3.2.1 準備工作 190
3.2.2 工作方式 190
3.2.3 工作原理 191
3.2.4 更多信息 192
3.2.5 請參閱 192
3.3 創建詞匯表語料庫 192
3.3.1 準備工作 192
3.3.2 工作方式 193
3.3.3 工作原理 193
3.3.4 更多信息 194
3.3.5 請參閱 194
3.4 創建已標記詞性單詞的
語料庫 195
3.4.1 準備工作 195
3.4.2 工作方式 195
3.4.3 工作原理 196
3.4.4 更多信息 196
3.4.5 請參閱 199
3.5 創建已組塊短語的語料庫 199
3.5.1 準備工作 199
3.5.2 工作方式 199
3.5.3 工作原理 201
3.5.4 更多信息 201
3.5.5 請參閱 203
3.6 創建已分類文本的語料庫 203
3.6.1 準備工作 204
3.6.2 工作方式 204
3.6.3 工作原理 204
3.6.4 更多信息 205
3.6.5 請參閱 206
3.7 創建已分類組塊語料庫
讀取器 206
3.7.1 準備工作 206
3.7.2 工作方式 207
3.7.3 工作原理 208
3.7.4 更多信息 209
3.7.5 請參閱 213
3.8 懶惰語料庫加載 213
3.8.1 工作方式 213
3.8.2 工作原理 214
3.8.3 更多信息 214
3.9 創建自定義語料庫視圖 215
3.9.1 工作方式 215
3.9.2 工作原理 216
3.9.3 更多信息 217
3.9.4 請參閱 218
3.10 創建基于MongoDB的
語料庫讀取器 218
3.10.1 準備工作 219
3.10.2 工作方式 219
3.10.3 工作原理 220
3.10.4 更多信息 221
3.10.5 請參閱 221
3.11 在加鎖文件的情況下編輯
語料庫 221
3.11.1 準備工作 221
3.11.2 工作方式 221
3.11.3 工作原理 222
第4章 詞性標注 224
4.1 引言 224
4.2 默認標注 225
4.2.1 準備工作 225
4.2.2 工作方式 225
4.2.3 工作原理 226
4.2.4 更多信息 227
4.2.5 請參閱 228
4.3 訓練一元組詞性標注器 228
4.3.1 工作方式 228
4.3.2 工作原理 229
4.3.3 更多信息 230
4.3.4 請參閱 231
4.4 回退標注的組合標注器 231
4.4.1 工作方式 231
4.4.2 工作原理 232
4.4.3 更多信息 232
4.4.4 請參閱 233
4.5 訓練和組合N元標注器 233
4.5.1 準備工作 233
4.5.2 工作方式 233
4.5.3 工作原理 234
4.5.4 更多信息 235
4.5.5 請參閱 236
4.6 創建似然單詞標簽的
模型 236
4.6.1 工作方式 236
4.6.2 工作原理 237
4.6.3 更多信息 237
4.6.4 請參閱 238
4.7 使用正則表達式標注 238
4.7.1 準備工作 238
4.7.2 工作方式 238
4.7.3 工作原理 239
4.7.4 更多信息 239
4.7.5 請參閱 239
4.8 詞綴標簽 239
4.8.1 工作方式 239
4.8.2 工作原理 240
4.8.3 更多信息 240
4.8.4 請參閱 241
4.9 訓練布里爾標注器 241
4.9.1 工作方式 241
4.9.2 工作原理 242
4.9.3 更多信息 243
4.9.4 請參閱 244
4.10 訓練TnT標注器 244
4.10.1 工作方式 244
4.10.2 工作原理 244
4.10.3 更多信息 245
4.10.4 請參閱 246
4.11 使用WordNet進行
標注 246
4.11.1 準備工作 246
4.11.2 工作方式 247
4.11.3 工作原理 248
4.11.4 請參閱 248
4.12 標注專有名詞 248
4.12.1 工作方式 248
4.12.2 工作原理 249
4.12.3 請參閱 249
4.13 基于分類器的標注 249
4.13.1 工作方式 250
4.13.2 工作原理 250
4.13.3 更多信息 251
4.13.4 請參閱 252
4.14 使用NLTK訓練器訓練
標注器 253
4.14.1 工作方式 253
4.14.2 工作原理 254
4.14.3 更多信息 258
4.14.4 請參閱 260
第5章 提取組塊 261
5.1 引言 261
5.2 使用正則表達式組塊和
隔斷 262
5.2.1 準備工作 262
5.2.2 工作方式 262
5.2.3 工作原理 263
5.2.4 更多信息 265
5.2.5 請參閱 267
5.3 使用正則表達式合並和拆分
組塊 267
5.3.1 工作方式 267
5.3.2 工作原理 269
5.3.3 更多信息 270
5.3.4 請參閱 271
5.4 使用正則表達式擴展和刪除
組塊 271
5.4.1 工作方式 271
5.4.2 工作原理 272
5.4.3 更多信息 273
5.4.4 請參閱 273
5.5 使用正則表達式進行部分
解析 273
5.5.1 工作方式 273
5.5.2 工作原理 274
5.5.3 更多信息 275
5.5.4 請參閱 276
5.6 訓練基于標注器的組塊器 276
5.6.1 工作方式 276
5.6.2 工作原理 277
5.6.3 更多信息 278
5.6.4 請參閱 279
5.7 基于分類的分塊 279
5.7.1 工作方式 279
5.7.2 工作原理 282
5.7.3 更多信息 282
5.7.4 請參閱 283
5.8 提取命名實體 283
5.8.1 工作方式 283
5.8.2 工作原理 284
5.8.3 更多信息 284
5.8.4 請參閱 285
5.9 提取專有名詞組塊 285
5.9.1 工作方式 286
5.9.2 工作原理 286
5.9.3 更多信息 286
5.10 提取部位組塊 287
5.10.1 工作方式 288
5.10.2 工作原理 290
5.10.3 更多信息 290
5.10.4 請參閱 290
5.11 訓練命名實體組塊器 290
5.11.1 工作方式 290
5.11.2 工作原理 292
5.11.3 更多信息 292
5.11.4 請參閱 293
5.12 使用NLTK訓練器訓練
組塊器 293
5.12.1 工作方式 293
5.12.2 工作原理 294
5.12.3 更多信息 295
5.12.4 請參閱 299
第6章 轉換組塊與樹 300
6.1 引言 300
6.2 過濾句子中無意義的
單詞 301
6.2.1 準備工作 301
6.2.2 工作方式 301
6.2.3 工作原理 302
6.2.4 更多信息 302
6.2.5 請參閱 303
6.3 糾正動詞形式 303
6.3.1 準備工作 303
6.3.2 工作方式 303
6.3.3 工作原理 305
6.3.4 請參閱 306
6.4 交換動詞短語 306
6.4.1 工作方式 306
6.4.2 工作原理 307
6.4.3 更多信息 307
6.4.4 請參閱 307
6.5 交換名詞基數 308
6.5.1 工作方式 308
6.5.2 工作原理 309
6.5.3 請參閱 309
6.6 交換不定式短語 309
6.6.1 工作方式 309
6.6.2 工作原理 310
6.6.3 更多信息 310
6.6.4 請參閱 310
6.7 單數化復數名詞 310
6.7.1 工作方式 310
6.7.2 工作原理 311
6.7.3 請參閱 311
6.8 鏈接組塊變換 311
6.8.1 工作方式 311
6.8.2 工作原理 312
6.8.3 更多信息 312
6.8.4 請參閱 313
6.9 將組塊樹轉換為文本 313
6.9.1 工作方式 313
6.9.2 工作原理 314
6.9.3 更多信息 314
6.9.4 請參閱 314
6.10 平展深度樹 314
6.10.1 準備工作 315
6.10.2 工作方式 315
6.10.3 工作原理 316
6.10.4 更多信息 317
6.10.5 請參閱 318
6.11 創建淺樹 318
6.11.1 工作方式 318
6.11.2 工作原理 320
6.11.3 請參閱 320
6.12 轉換樹標簽 320
6.12.1 準備工作 320
6.12.2 工作方式 321
6.12.3 工作原理 322
6.12.4 請參閱 322
第7章 文本分類 323
7.1 引言 323
7.2 詞袋特征提取 324
7.2.1 工作方式 324
7.2.2 工作原理 325
7.2.3 更多信息 325
7.2.4 請參閱 327
7.3 訓練樸素貝葉斯
分類器 327
7.3.1 準備工作 327
7.3.2 工作方式 328
7.3.3 工作原理 329
7.3.4 更多信息 330
7.3.5 請參閱 333
7.4 訓練決策樹分類器 334
7.4.1 工作方式 334
7.4.2 工作原理 335
7.4.3 更多信息 335
7.4.4 請參閱 337
7.5 訓練最大熵分類器 337
7.5.1 準備工作 337
7.5.2 工作方式 337
7.5.3 工作原理 338
7.5.4 更多信息 339
7.5.5 請參閱 340
7.6 訓練scikit-learn
分類器 340
7.6.1 準備工作 341
7.6.2 工作方式 341
7.6.3 工作原理 342
7.6.4 更多信息 343
7.6.5 請參閱 345
7.7 衡量分類器的精準率和
召回率 346
7.7.1 工作方式 346
7.7.2 工作原理 347
7.7.3 更多信息 348
7.7.4 請參閱 349
7.8 計算高信息量單詞 349
7.8.1 工作方式 350
7.8.2 工作原理 351
7.8.3 更多信息 352
7.8.4 請參閱 354
7.9 使用投票組合分類器 354
7.9.1 準備工作 355
7.9.2 工作方式 355
7.9.3 工作原理 356
7.9.4 請參閱 356
7.10 使用多個二元分類器
分類 357
7.10.1 準備工作 357
7.10.2 工作方式 357
7.10.3 工作原理 361
7.10.4 更多信息 362
7.10.5 請參閱 363
7.11 使用NLTK訓練器訓練
分類器 363
7.11.1 工作方式 363
7.11.2 工作原理 364
7.11.3 更多信息 365
7.11.4 請參閱 371
第8章 分布式進程和大型數據集的
處理 372
8.1 引言 372
8.2 使用execnet進行分布式
標注 372
8.2.1 準備工作 373
8.2.2 工作方式 373
8.2.3 工作原理 374
8.2.4 更多內容 375
8.2.5 請參閱 377
8.3 使用execnet進行分布式
組塊 377
8.3.1 準備工作 377
8.3.2 工作方式 377
8.3.3 工作原理 378
8.3.4 更多內容 379
8.3.5 請參閱 379
8.4 使用execnet並行處理
列表 379
8.4.1 工作方式 379
8.4.2 工作原理 380
8.4.3 更多內容 381
8.4.4 請參閱 381
8.5 在Redis中存儲頻率分布 382
8.5.1 準備工作 382
8.5.2 工作方式 382
8.5.3 工作原理 384
8.5.4 更多內容 385
8.5.5 請參閱 386
8.6 在Redis中存儲條件頻率
分布 386
8.6.1 準備工作 386
8.6.2 工作方式 386
8.6.3 工作原理 387
8.6.4 更多內容 388
8.6.5 請參閱 388
8.7 在Redis中存儲有序
字典 388
8.7.1 準備工作 388
8.7.2 工作方式 388
8.7.3 工作原理 390
8.7.4 更多內容 391
8.7.5 請參閱 392
8.8 使用Redis和execnet進行
分布式單詞評分 392
8.8.1 準備工作 392
8.8.2 工作方式 392
8.8.3 工作原理 393
8.8.4 更多內容 396
8.8.5 請參閱 396
第9章 解析特定的數據類型 397
9.1 引言 397
9.2 使用dateutil解析日期和
時間 398
9.2.1 準備工作 398
9.2.2 工作方式 398
9.2.3 工作原理 399
9.2.4 更多信息 399
9.2.5 請參閱 399
9.3 時區的查找和轉換 400
9.3.1 準備工作 400
9.3.2 工作方式 400
9.3.3 工作原理 402
9.3.4 更多信息 402
9.3.5 請參閱 403
9.4 使用lxml從HTML中提取
URL 403
9.4.1 準備工作 403
9.4.2 工作方式 403
9.4.3 工作原理 404
9.4.4 更多信息 404
9.4.5 請參閱 405
9.5 清理和剝離HTML 405
9.5.1 準備工作 405
9.5.2 工作方式 405
9.5.3 工作原理 405
9.5.4 更多信息 406
9.5.5 請參閱 406
9.6 使用BeautifulSoup轉換
HTML實體 406
9.6.1 準備工作 406
9.6.2 工作方式 406
9.6.3 工作原理 407
9.6.4 更多信息 407
9.6.5 請參閱 407
9.7 檢測和轉換字符編碼 407
9.7.1 準備工作 408
9.7.2 工作方式 408
9.7.3 工作原理 409
9.7.4 更多信息 409
9.7.5 請參閱 410
附錄A 賓州treebank詞性標簽 411
模塊3 使用Python掌握自然語言處理
第 1章 使用字符串 417
1.1 標記化 417
1.1.1 將文本標記為句子 418
1.1.2 其他語言文字的標記化 418
1.1.3 將句子標記為單詞 419
1.1.4 使用TreebankWordTokenizer
進行標記化 420
1.1.5 使用正則表達式進行
標記化 421
1.2 規范化 424
1.2.1 消除標點符號 424
1.2.2 轉化為小寫和大寫 425
1.2.3 處理停用詞 425
1.2.4 計算英語中的停用詞 426
1.3 替代和糾正標記 427
1.3.1 使用正則表達式替換
單詞 427
1.3.2 使用一個文本替換另一個
文本的示例 428
1.3.3 在標記化之前進行
替代 428
1.3.4 處理重復的字符 428
1.3.5 刪除重復字符的示例 429
1.3.6 使用單詞的同義詞替換
單詞 430
1.4 在文本上應用齊夫定律 431
1.5 相似性量度 431
1.5.1 使用編輯距離算法應用
相似性量度 432
1.5.2 使用杰卡德系數應用
相似性量度 434
1.5.3 使用史密斯-沃特曼算法
應用相似性量度 434
1.5.4 其他字符串相似性指標 435
1.6 本章小結 436
第 2章 統計語言模型 437
2.1 單詞頻率 437
2.1.1 對給定文本進行最大
似然估計 441
2.1.2 隱馬爾可夫模型估計 448
2.2 在MLE模型上應用平滑 450
2.2.1 加一平滑法 450
2.2.2 古德-圖靈算法 451
2.2.3 聶氏估計 456
2.2.4 威滕 貝爾估計 457
2.3 為MLE指定回退機制 457
2.4 應用數據插值獲得混合和
匹配 458
2.5 應用困惑度評估語言模型 458
2.6 在建模語言中應用
梅特羅波利斯-黑斯廷斯算法 459
2.7 在語言處理中應用
吉布斯采樣 459
2.8 本章小結 461
第3章 詞語形態學—試一試 462
3.1 詞語形態學 462
3.2 詞根還原器 463
3.3 詞形還原 466
3.4 開發用于非英語語言的詞根
還原器 467
3.5 詞語形態分析器 469
3.6 詞語形態生成器 471
3.7 搜索引擎 471
3.8 本章小結 475
第4章 詞性標注—識別單詞 476
4.1 詞性標注 476
4.2 創建POS標注的語料庫 482
4.3 選擇某個機器學習算法 484
4.4 涉及n元組方法的統計建模 486
4.5 使用POS標注的語料庫開發
組塊器 491
4.6 本章小結 494
第5章 解析—分析訓練數據 495
5.1 解析 495
5.2 構建樹庫 496
5.3 從樹庫中提取上下文無關文法的
規則 501
5.4 從CFG中創建概率上下文無關的
文法 507
5.5 CYK圖解析算法 509
5.6 厄雷圖解析算法 510
5.7 本章小結 516
第6章 語義分析—意義重大 517
6.1 語義分析 517
6.1.1 NER簡介 521
6.1.2 使用隱馬爾可夫模型的
NER系統 525
6.1.3 使用機器學習工具包訓練
NER 530
6.1.4 使用POS標注的
NER 531
6.2 從Wordnet中生成同義詞集
ID 534
6.3 使用Wordnet消除歧義 537
6.4 本章小結 541
第7章 情感分析—我很高興 542
7.1 情感分析 542
7.2 使用機器學習的情感分析 548
7.3 本章小結 572
第8章 信息檢索—訪問信息 573
8.1 信息檢索 573
8.1.1 停用詞刪除 574
8.1.2 利用向量空間模型進行
信息檢索 576
8.2 向量空間評分以及與查詢
操作器交互 583
8.3 利用隱含語義索引開發IR
系統 586
8.4 文本摘要 587
8.5 問答系統 588
8.6 本章小結 589
第9章 話語分析—知識就是信仰 590
9.1 話語分析 590
9.1.1 使用定中心理論進行
話語分析 595
9.1.2 回指解析 596
9.2 本章小結 601
第 10章 NLP系統的評估—
性能分析 602
10.1 對NLP系統進行評估的
需求 602
10.1.1 NLP工具(POS標注器、
詞干還原器和形態分析器)
的評估 603
10.1.2 使用黃金數據評估
解析器 613
10.2 IR系統的評估 614
10.3 錯誤識別的指標 614
10.4 基于詞匯匹配的指標 615
10.5 基于語法匹配的指標 619
10.6 使用淺層語義匹配的
指標 620
10.7 本章小結 621
參考書目 622
模塊1 NLTK基礎知識
第 1章 自然語言處理簡介 3
1.1 為什麼要學習NLP 4
1.2 從Python的基本知識開始 7
1.2.1 列表 7
1.2.2 自助 8
1.2.3 正則表達式 9
1.2.4 詞典 11
1.2.5 編寫函數 11
1.3 NLTK 13
1.4 試一試 18
1.5 本章小結 18
第 2章 文本的整理和清洗 19
2.1 文本整理 19
2.2 文本清洗 21
2.3 句子拆分器 22
2.4 標記解析 22
2.5 詞干提取 24
2.6 詞形還原 25
2.7 停用詞刪除 26
2.8 生僻字刪除 27
2.9 拼寫校正 27
2.10 試一試 28
2.11 本章小結 28
第3章 詞性標注 30
3.1 什麼是詞性標注 30
3.1.1 斯坦福標注器 33
3.1.2 深入了解標注器 34
3.1.3 序列標注器 35
3.1.4 布里爾標注器 37
3.1.5 基于標注器的機器學習 37
3.2 命名實體識別 38
3.3 試一試 40
3.4 本章小結 41
第4章 對文本的結構進行語法分析 42
4.1 淺層語法分析與深層語法
分析 42
4.2 語法分析的兩種方法 43
4.3 為什麼需要語法分析 43
4.4 不同類型的語法分析器 45
4.4.1 遞歸下降的語法分析器 45
4.4.2 移位歸約語法分析器 45
4.4.3 圖表語法分析器 45
4.4.4 正則表達式語法
分析器 46
4.5 依存分析 47
4.6 組塊化 49
4.7 信息抽取 51
4.7.1 命名實體識別 52
4.7.2 關系抽取 52
4.8 本章小結 53
第5章 NLP應用 54
5.1 構建第 一個NLP應用 54
5.2 其他的NLP應用 58
5.2.1 機器翻譯 58
5.2.2 統計機器翻譯 59
5.2.3 信息檢索 59
5.2.4 語音識別 61
5.2.5 文本分類 62
5.2.6 信息提取 63
5.2.7 問答系統 64
5.2.8 對話系統 64
5.2.9 詞義消歧 64
5.2.10 主題建模 64
5.2.11 語言檢測 65
5.2.12 光學字符識別 65
5.3 本章小結 65
第6章 文本分類 66
6.1 機器學習 67
6.2 文本分類 68
6.3 采樣 70
6.3.1 樸素貝葉斯 73
6.3.2 決策樹 75
6.3.3 隨機梯度下降 76
6.3.4 邏輯回歸 77
6.3.5 支持向量機 78
6.4 隨機森林算法 79
6.5 文本聚類 79
6.6 文本的主題建模 81
6.7 參考資料 83
6.8 本章小結 83
第7章 網絡爬取 85
7.1 網絡爬蟲 85
7.2 編寫第 一個爬蟲程序 86
7.3 Scrapy中的數據流 89
7.3.1 Scrapy命令行界面 89
7.3.2 項 94
7.4 站點地圖蜘蛛 96
7.5 項管道 97
7.6 外部參考 98
7.7 本章小結 99
第8章 與其他Python庫一同
使用NLTK 100
8.1 NumPy 100
8.1.1 ndarray 101
8.1.2 基本操作 102
8.1.3 從數組中提取數據 103
8.1.4 復雜的矩陣運算 103
8.2 SciPy 107
8.2.1 線性代數 108
8.2.2 特征值和特征向量 108
8.2.3 稀疏矩陣 109
8.2.4 優化 110
8.3 Pandas 111
8.3.1 讀取數據 112
8.3.2 時序數據 114
8.3.3 列轉換 115
8.3.4 噪聲數據 116
8.4 Matplotlib 117
8.4.1 subplot 118
8.4.2 添加軸 119
8.4.3 散點圖 120
8.4.4 柱狀圖 120
8.4.5 3D圖 121
8.5 外部參考 121
8.6 本章小結 121
第9章 使用Python進行社交媒體
挖掘 122
9.1 數據收集 122
9.2 數據提取 126
9.3 地理可視化 128
9.3.1 影響者檢測 129
9.3.2 Facebook 130
9.3.3 影響者的朋友 134
9.4 本章小結 135
第 10章 大規模的文本挖掘 136
10.1 在Hadoop上使用Python的
不同方法 136
10.1.1 Python的流 137
10.1.2 Hive/Pig UDF 137
10.1.3 流包裝器 137
10.2 在Hadoop上運行NLTK 138
10.2.1 UDF 138
10.2.2 Python流 140
10.3 在Hadoop上運行
Scikit-learn 141
10.4 PySpark 144
10.5 本章小結 146
模塊2 使用Python 3的NLTK 3進行文本處理
第 1章 標記文本和WordNet的基礎 149
1.1 引言 149
1.2 將文本標記成句子 150
1.2.1 準備工作 150
1.2.2 工作方式 151
1.2.3 工作原理 151
1.2.4 更多信息 151
1.2.5 請參閱 152
1.3 將句子標記成單詞 152
1.3.1 工作方式 152
1.3.2 工作原理 153
1.3.3 更多信息 153
1.3.4 請參閱 154
1.4 使用正則表達式標記語句 154
1.4.1 準備工作 155
1.4.2 工作方式 155
1.4.3 工作原理 155
1.4.4 更多信息 155
1.4.5 請參閱 156
1.5 訓練語句標記生成器 156
1.5.1 準備工作 156
1.5.2 工作方式 156
1.5.3 工作原理 157
1.5.4 更多信息 158
1.5.5 請參閱 158
1.6 在已標記的語句中過濾
停用詞 158
1.6.1 準備工作 158
1.6.2 工作方式 159
1.6.3 工作原理 159
1.6.4 更多信息 159
1.6.5 請參閱 160
1.7 查找WordNet中單詞的
Synset 160
1.7.1 準備工作 160
1.7.2 工作方式 160
1.7.3 工作原理 161
1.7.4 更多信息 161
1.7.5 請參閱 163
1.8 在WordNet中查找詞元和
同義詞 163
1.8.1 工作方式 163
1.8.2 工作原理 163
1.8.3 更多信息 163
1.8.4 請參閱 165
1.9 計算WordNet和Synset的
相似度 165
1.9.1 工作方式 165
1.9.2 工作原理 165
1.9.3 更多信息 166
1.9.4 請參閱 167
1.10 發現單詞搭配 167
1.10.1 準備工作 167
1.10.2 工作方式 167
1.10.3 工作原理 168
1.10.4 更多信息 168
1.10.5 請參閱 169
第 2章 替換和校正單詞 170
2.1 引言 170
2.2 詞干提取 170
2.2.1 工作方式 171
2.2.2 工作原理 171
2.2.3 更多信息 171
2.2.4 請參閱 173
2.3 使用WordNet進行詞形還原 173
2.3.1 準備工作 173
2.3.2 工作方式 173
2.3.3 工作原理 174
2.3.4 更多信息 174
2.3.5 請參閱 175
2.4 基于匹配的正則表達式替換
單詞 175
2.4.1 準備工作 175
2.4.2 工作方式 175
2.4.3 工作原理 176
2.4.4 更多信息 177
2.4.5 請參閱 177
2.5 移除重復字符 177
2.5.1 準備工作 177
2.5.2 工作方式 178
2.5.3 工作原理 178
2.5.4 更多信息 179
2.5.5 請參閱 179
2.6 使用Enchant進行拼寫校正 180
2.6.1 準備工作 180
2.6.2 工作方式 180
2.6.3 工作原理 181
2.6.4 更多信息 181
2.6.5 請參閱 183
2.7 替換同義詞 183
2.7.1 準備工作 183
2.7.2 工作方式 183
2.7.3 工作原理 184
2.7.4 更多信息 184
2.7.5 請參閱 185
2.8 使用反義詞替換否定形式 186
2.8.1 工作方式 186
2.8.2 工作原理 187
2.8.3 更多信息 187
2.8.4 請參閱 188
第3章 創建自定義語料庫 189
3.1 引言 189
3.2 建立自定義語料庫 190
3.2.1 準備工作 190
3.2.2 工作方式 190
3.2.3 工作原理 191
3.2.4 更多信息 192
3.2.5 請參閱 192
3.3 創建詞匯表語料庫 192
3.3.1 準備工作 192
3.3.2 工作方式 193
3.3.3 工作原理 193
3.3.4 更多信息 194
3.3.5 請參閱 194
3.4 創建已標記詞性單詞的
語料庫 195
3.4.1 準備工作 195
3.4.2 工作方式 195
3.4.3 工作原理 196
3.4.4 更多信息 196
3.4.5 請參閱 199
3.5 創建已組塊短語的語料庫 199
3.5.1 準備工作 199
3.5.2 工作方式 199
3.5.3 工作原理 201
3.5.4 更多信息 201
3.5.5 請參閱 203
3.6 創建已分類文本的語料庫 203
3.6.1 準備工作 204
3.6.2 工作方式 204
3.6.3 工作原理 204
3.6.4 更多信息 205
3.6.5 請參閱 206
3.7 創建已分類組塊語料庫
讀取器 206
3.7.1 準備工作 206
3.7.2 工作方式 207
3.7.3 工作原理 208
3.7.4 更多信息 209
3.7.5 請參閱 213
3.8 懶惰語料庫加載 213
3.8.1 工作方式 213
3.8.2 工作原理 214
3.8.3 更多信息 214
3.9 創建自定義語料庫視圖 215
3.9.1 工作方式 215
3.9.2 工作原理 216
3.9.3 更多信息 217
3.9.4 請參閱 218
3.10 創建基于MongoDB的
語料庫讀取器 218
3.10.1 準備工作 219
3.10.2 工作方式 219
3.10.3 工作原理 220
3.10.4 更多信息 221
3.10.5 請參閱 221
3.11 在加鎖文件的情況下編輯
語料庫 221
3.11.1 準備工作 221
3.11.2 工作方式 221
3.11.3 工作原理 222
第4章 詞性標注 224
4.1 引言 224
4.2 默認標注 225
4.2.1 準備工作 225
4.2.2 工作方式 225
4.2.3 工作原理 226
4.2.4 更多信息 227
4.2.5 請參閱 228
4.3 訓練一元組詞性標注器 228
4.3.1 工作方式 228
4.3.2 工作原理 229
4.3.3 更多信息 230
4.3.4 請參閱 231
4.4 回退標注的組合標注器 231
4.4.1 工作方式 231
4.4.2 工作原理 232
4.4.3 更多信息 232
4.4.4 請參閱 233
4.5 訓練和組合N元標注器 233
4.5.1 準備工作 233
4.5.2 工作方式 233
4.5.3 工作原理 234
4.5.4 更多信息 235
4.5.5 請參閱 236
4.6 創建似然單詞標簽的
模型 236
4.6.1 工作方式 236
4.6.2 工作原理 237
4.6.3 更多信息 237
4.6.4 請參閱 238
4.7 使用正則表達式標注 238
4.7.1 準備工作 238
4.7.2 工作方式 238
4.7.3 工作原理 239
4.7.4 更多信息 239
4.7.5 請參閱 239
4.8 詞綴標簽 239
4.8.1 工作方式 239
4.8.2 工作原理 240
4.8.3 更多信息 240
4.8.4 請參閱 241
4.9 訓練布里爾標注器 241
4.9.1 工作方式 241
4.9.2 工作原理 242
4.9.3 更多信息 243
4.9.4 請參閱 244
4.10 訓練TnT標注器 244
4.10.1 工作方式 244
4.10.2 工作原理 244
4.10.3 更多信息 245
4.10.4 請參閱 246
4.11 使用WordNet進行
標注 246
4.11.1 準備工作 246
4.11.2 工作方式 247
4.11.3 工作原理 248
4.11.4 請參閱 248
4.12 標注專有名詞 248
4.12.1 工作方式 248
4.12.2 工作原理 249
4.12.3 請參閱 249
4.13 基于分類器的標注 249
4.13.1 工作方式 250
4.13.2 工作原理 250
4.13.3 更多信息 251
4.13.4 請參閱 252
4.14 使用NLTK訓練器訓練
標注器 253
4.14.1 工作方式 253
4.14.2 工作原理 254
4.14.3 更多信息 258
4.14.4 請參閱 260
第5章 提取組塊 261
5.1 引言 261
5.2 使用正則表達式組塊和
隔斷 262
5.2.1 準備工作 262
5.2.2 工作方式 262
5.2.3 工作原理 263
5.2.4 更多信息 265
5.2.5 請參閱 267
5.3 使用正則表達式合並和拆分
組塊 267
5.3.1 工作方式 267
5.3.2 工作原理 269
5.3.3 更多信息 270
5.3.4 請參閱 271
5.4 使用正則表達式擴展和刪除
組塊 271
5.4.1 工作方式 271
5.4.2 工作原理 272
5.4.3 更多信息 273
5.4.4 請參閱 273
5.5 使用正則表達式進行部分
解析 273
5.5.1 工作方式 273
5.5.2 工作原理 274
5.5.3 更多信息 275
5.5.4 請參閱 276
5.6 訓練基于標注器的組塊器 276
5.6.1 工作方式 276
5.6.2 工作原理 277
5.6.3 更多信息 278
5.6.4 請參閱 279
5.7 基于分類的分塊 279
5.7.1 工作方式 279
5.7.2 工作原理 282
5.7.3 更多信息 282
5.7.4 請參閱 283
5.8 提取命名實體 283
5.8.1 工作方式 283
5.8.2 工作原理 284
5.8.3 更多信息 284
5.8.4 請參閱 285
5.9 提取專有名詞組塊 285
5.9.1 工作方式 286
5.9.2 工作原理 286
5.9.3 更多信息 286
5.10 提取部位組塊 287
5.10.1 工作方式 288
5.10.2 工作原理 290
5.10.3 更多信息 290
5.10.4 請參閱 290
5.11 訓練命名實體組塊器 290
5.11.1 工作方式 290
5.11.2 工作原理 292
5.11.3 更多信息 292
5.11.4 請參閱 293
5.12 使用NLTK訓練器訓練
組塊器 293
5.12.1 工作方式 293
5.12.2 工作原理 294
5.12.3 更多信息 295
5.12.4 請參閱 299
第6章 轉換組塊與樹 300
6.1 引言 300
6.2 過濾句子中無意義的
單詞 301
6.2.1 準備工作 301
6.2.2 工作方式 301
6.2.3 工作原理 302
6.2.4 更多信息 302
6.2.5 請參閱 303
6.3 糾正動詞形式 303
6.3.1 準備工作 303
6.3.2 工作方式 303
6.3.3 工作原理 305
6.3.4 請參閱 306
6.4 交換動詞短語 306
6.4.1 工作方式 306
6.4.2 工作原理 307
6.4.3 更多信息 307
6.4.4 請參閱 307
6.5 交換名詞基數 308
6.5.1 工作方式 308
6.5.2 工作原理 309
6.5.3 請參閱 309
6.6 交換不定式短語 309
6.6.1 工作方式 309
6.6.2 工作原理 310
6.6.3 更多信息 310
6.6.4 請參閱 310
6.7 單數化復數名詞 310
6.7.1 工作方式 310
6.7.2 工作原理 311
6.7.3 請參閱 311
6.8 鏈接組塊變換 311
6.8.1 工作方式 311
6.8.2 工作原理 312
6.8.3 更多信息 312
6.8.4 請參閱 313
6.9 將組塊樹轉換為文本 313
6.9.1 工作方式 313
6.9.2 工作原理 314
6.9.3 更多信息 314
6.9.4 請參閱 314
6.10 平展深度樹 314
6.10.1 準備工作 315
6.10.2 工作方式 315
6.10.3 工作原理 316
6.10.4 更多信息 317
6.10.5 請參閱 318
6.11 創建淺樹 318
6.11.1 工作方式 318
6.11.2 工作原理 320
6.11.3 請參閱 320
6.12 轉換樹標簽 320
6.12.1 準備工作 320
6.12.2 工作方式 321
6.12.3 工作原理 322
6.12.4 請參閱 322
第7章 文本分類 323
7.1 引言 323
7.2 詞袋特征提取 324
7.2.1 工作方式 324
7.2.2 工作原理 325
7.2.3 更多信息 325
7.2.4 請參閱 327
7.3 訓練樸素貝葉斯
分類器 327
7.3.1 準備工作 327
7.3.2 工作方式 328
7.3.3 工作原理 329
7.3.4 更多信息 330
7.3.5 請參閱 333
7.4 訓練決策樹分類器 334
7.4.1 工作方式 334
7.4.2 工作原理 335
7.4.3 更多信息 335
7.4.4 請參閱 337
7.5 訓練最大熵分類器 337
7.5.1 準備工作 337
7.5.2 工作方式 337
7.5.3 工作原理 338
7.5.4 更多信息 339
7.5.5 請參閱 340
7.6 訓練scikit-learn
分類器 340
7.6.1 準備工作 341
7.6.2 工作方式 341
7.6.3 工作原理 342
7.6.4 更多信息 343
7.6.5 請參閱 345
7.7 衡量分類器的精準率和
召回率 346
7.7.1 工作方式 346
7.7.2 工作原理 347
7.7.3 更多信息 348
7.7.4 請參閱 349
7.8 計算高信息量單詞 349
7.8.1 工作方式 350
7.8.2 工作原理 351
7.8.3 更多信息 352
7.8.4 請參閱 354
7.9 使用投票組合分類器 354
7.9.1 準備工作 355
7.9.2 工作方式 355
7.9.3 工作原理 356
7.9.4 請參閱 356
7.10 使用多個二元分類器
分類 357
7.10.1 準備工作 357
7.10.2 工作方式 357
7.10.3 工作原理 361
7.10.4 更多信息 362
7.10.5 請參閱 363
7.11 使用NLTK訓練器訓練
分類器 363
7.11.1 工作方式 363
7.11.2 工作原理 364
7.11.3 更多信息 365
7.11.4 請參閱 371
第8章 分布式進程和大型數據集的
處理 372
8.1 引言 372
8.2 使用execnet進行分布式
標注 372
8.2.1 準備工作 373
8.2.2 工作方式 373
8.2.3 工作原理 374
8.2.4 更多內容 375
8.2.5 請參閱 377
8.3 使用execnet進行分布式
組塊 377
8.3.1 準備工作 377
8.3.2 工作方式 377
8.3.3 工作原理 378
8.3.4 更多內容 379
8.3.5 請參閱 379
8.4 使用execnet並行處理
列表 379
8.4.1 工作方式 379
8.4.2 工作原理 380
8.4.3 更多內容 381
8.4.4 請參閱 381
8.5 在Redis中存儲頻率分布 382
8.5.1 準備工作 382
8.5.2 工作方式 382
8.5.3 工作原理 384
8.5.4 更多內容 385
8.5.5 請參閱 386
8.6 在Redis中存儲條件頻率
分布 386
8.6.1 準備工作 386
8.6.2 工作方式 386
8.6.3 工作原理 387
8.6.4 更多內容 388
8.6.5 請參閱 388
8.7 在Redis中存儲有序
字典 388
8.7.1 準備工作 388
8.7.2 工作方式 388
8.7.3 工作原理 390
8.7.4 更多內容 391
8.7.5 請參閱 392
8.8 使用Redis和execnet進行
分布式單詞評分 392
8.8.1 準備工作 392
8.8.2 工作方式 392
8.8.3 工作原理 393
8.8.4 更多內容 396
8.8.5 請參閱 396
第9章 解析特定的數據類型 397
9.1 引言 397
9.2 使用dateutil解析日期和
時間 398
9.2.1 準備工作 398
9.2.2 工作方式 398
9.2.3 工作原理 399
9.2.4 更多信息 399
9.2.5 請參閱 399
9.3 時區的查找和轉換 400
9.3.1 準備工作 400
9.3.2 工作方式 400
9.3.3 工作原理 402
9.3.4 更多信息 402
9.3.5 請參閱 403
9.4 使用lxml從HTML中提取
URL 403
9.4.1 準備工作 403
9.4.2 工作方式 403
9.4.3 工作原理 404
9.4.4 更多信息 404
9.4.5 請參閱 405
9.5 清理和剝離HTML 405
9.5.1 準備工作 405
9.5.2 工作方式 405
9.5.3 工作原理 405
9.5.4 更多信息 406
9.5.5 請參閱 406
9.6 使用BeautifulSoup轉換
HTML實體 406
9.6.1 準備工作 406
9.6.2 工作方式 406
9.6.3 工作原理 407
9.6.4 更多信息 407
9.6.5 請參閱 407
9.7 檢測和轉換字符編碼 407
9.7.1 準備工作 408
9.7.2 工作方式 408
9.7.3 工作原理 409
9.7.4 更多信息 409
9.7.5 請參閱 410
附錄A 賓州treebank詞性標簽 411
模塊3 使用Python掌握自然語言處理
第 1章 使用字符串 417
1.1 標記化 417
1.1.1 將文本標記為句子 418
1.1.2 其他語言文字的標記化 418
1.1.3 將句子標記為單詞 419
1.1.4 使用TreebankWordTokenizer
進行標記化 420
1.1.5 使用正則表達式進行
標記化 421
1.2 規范化 424
1.2.1 消除標點符號 424
1.2.2 轉化為小寫和大寫 425
1.2.3 處理停用詞 425
1.2.4 計算英語中的停用詞 426
1.3 替代和糾正標記 427
1.3.1 使用正則表達式替換
單詞 427
1.3.2 使用一個文本替換另一個
文本的示例 428
1.3.3 在標記化之前進行
替代 428
1.3.4 處理重復的字符 428
1.3.5 刪除重復字符的示例 429
1.3.6 使用單詞的同義詞替換
單詞 430
1.4 在文本上應用齊夫定律 431
1.5 相似性量度 431
1.5.1 使用編輯距離算法應用
相似性量度 432
1.5.2 使用杰卡德系數應用
相似性量度 434
1.5.3 使用史密斯-沃特曼算法
應用相似性量度 434
1.5.4 其他字符串相似性指標 435
1.6 本章小結 436
第 2章 統計語言模型 437
2.1 單詞頻率 437
2.1.1 對給定文本進行最大
似然估計 441
2.1.2 隱馬爾可夫模型估計 448
2.2 在MLE模型上應用平滑 450
2.2.1 加一平滑法 450
2.2.2 古德-圖靈算法 451
2.2.3 聶氏估計 456
2.2.4 威滕 貝爾估計 457
2.3 為MLE指定回退機制 457
2.4 應用數據插值獲得混合和
匹配 458
2.5 應用困惑度評估語言模型 458
2.6 在建模語言中應用
梅特羅波利斯-黑斯廷斯算法 459
2.7 在語言處理中應用
吉布斯采樣 459
2.8 本章小結 461
第3章 詞語形態學—試一試 462
3.1 詞語形態學 462
3.2 詞根還原器 463
3.3 詞形還原 466
3.4 開發用于非英語語言的詞根
還原器 467
3.5 詞語形態分析器 469
3.6 詞語形態生成器 471
3.7 搜索引擎 471
3.8 本章小結 475
第4章 詞性標注—識別單詞 476
4.1 詞性標注 476
4.2 創建POS標注的語料庫 482
4.3 選擇某個機器學習算法 484
4.4 涉及n元組方法的統計建模 486
4.5 使用POS標注的語料庫開發
組塊器 491
4.6 本章小結 494
第5章 解析—分析訓練數據 495
5.1 解析 495
5.2 構建樹庫 496
5.3 從樹庫中提取上下文無關文法的
規則 501
5.4 從CFG中創建概率上下文無關的
文法 507
5.5 CYK圖解析算法 509
5.6 厄雷圖解析算法 510
5.7 本章小結 516
第6章 語義分析—意義重大 517
6.1 語義分析 517
6.1.1 NER簡介 521
6.1.2 使用隱馬爾可夫模型的
NER系統 525
6.1.3 使用機器學習工具包訓練
NER 530
6.1.4 使用POS標注的
NER 531
6.2 從Wordnet中生成同義詞集
ID 534
6.3 使用Wordnet消除歧義 537
6.4 本章小結 541
第7章 情感分析—我很高興 542
7.1 情感分析 542
7.2 使用機器學習的情感分析 548
7.3 本章小結 572
第8章 信息檢索—訪問信息 573
8.1 信息檢索 573
8.1.1 停用詞刪除 574
8.1.2 利用向量空間模型進行
信息檢索 576
8.2 向量空間評分以及與查詢
操作器交互 583
8.3 利用隱含語義索引開發IR
系統 586
8.4 文本摘要 587
8.5 問答系統 588
8.6 本章小結 589
第9章 話語分析—知識就是信仰 590
9.1 話語分析 590
9.1.1 使用定中心理論進行
話語分析 595
9.1.2 回指解析 596
9.2 本章小結 601
第 10章 NLP系統的評估—
性能分析 602
10.1 對NLP系統進行評估的
需求 602
10.1.1 NLP工具(POS標注器、
詞干還原器和形態分析器)
的評估 603
10.1.2 使用黃金數據評估
解析器 613
10.2 IR系統的評估 614
10.3 錯誤識別的指標 614
10.4 基于詞匯匹配的指標 615
10.5 基于語法匹配的指標 619
10.6 使用淺層語義匹配的
指標 620
10.7 本章小結 621
參考書目 622
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。