商品簡介
本書從機器學習的角度系統地討論自然語言處理,提供了對NLP解決方案更深入的數學理解。學生可以利用這些知識來解決NLP任務,並建立更好的NLP模型。
作者簡介
張 岳
西湖大學教授。主要研究領域為自然語言處理、文本挖掘及相關的機器學習方法。研究成果包括機器學習引導搜索的結構預測算法、多任務聯合模型、文本表示和圖神經網絡、自然語言處理中的常識、邏輯推理以及泛化問題,因果機制引導的自然語言處理等。擔任國內外頂級會議CCL 2020、EMNLP 2022程序委員會共同主席。擔任Transactions for ACL期刊執行編輯,以及四個Transaction期刊副主編。獲多個國際會議最佳論文獎。
滕志揚
2011年本科畢業於東北大學,2014年碩士畢業於中國科學院大學,2018年博士畢業於新加坡科技與設計大學(SUTD),專業方向是自然語言處理和機器學習。他於2018-2022年在西湖大學擔任助理研究員。2022-2023年,在新加坡南洋理工大學計算機科學與工程學院的S-lab高級智能實驗室曾先後擔任研究員和研究型助理教授。在自然語言處理領域的國際和國內頂級會議及期刊上共發表論文30多篇,並在2014年的CCL/NABD會議上獲得最佳論文獎。此外,還曾在EMNLP 2021、AACL-IJCNLP 2022 和 EMNLP 2022擔任領域主席。
名人/編輯推薦
深入淺出,基於機器學習視角系統性梳理自然語言處理知識體系。學以致用,對理論方法的講解搭配數學推理、教學視頻,手把手教你輕鬆掌握自然語言處理核心技術。
序
前言
近年來,深度學習技術使智能系統能夠執行越來越複雜的任務,人工智能廣受社會關
注。自然語言處理作為人工智能的核心話題之一,主要研究的是自然語言文本的自動理解
與生成。語言會話能力被公認為人工智能性能評估的重要指標,自然語言處理技術的進步,
為語音翻譯、自動問答、寫作評分、自動審計、股市預測等應用帶來了新的突破。
自然語言處理的研究在計算機科學發展的早期便已開始,並經歷了三個主要發展階段,
基於規則的方法、基於統計的方法以及深度學習方法分別在不同階段占據主導地位。近幾
年中,深度學習的發展逐步取代了統計學習方法,研究人員和工程師的工作重點也隨之由
語言特徵工程轉變為參數調優。先進的深度學習算法不僅可以讓自然語言處理系統在句法
分析、機器翻譯等傳統任務上獲得更佳的性能,同時也擴展了更多的新型研究領域。
本書基於機器學習視角對自然語言處理技術展開系統性介紹,並深入討論各項技術所
涉及的數學及算法基礎。章節內容遵循由易到難的組織原則,同時也符合自然語言處理技
術的發展過程。在引入數學概念時,本書採用統一的符號表示方法以保證不同章節間的關
聯性與可讀性。
本書的目標讀者為計算機科學、人工智能或相關跨學科專業的高年級本科生及研究生,
自然語言處理工程師也可將本書作為理論參考書。閱讀本書時,讀者需要具備一定的線性
代數、微積分、概率論及算法基礎。完成本書的學習後,讀者將對自然語言處理任務及其
數學理論有更全面的了解,從而能夠輕鬆閱讀前沿會議與期刊中的論文文獻,並根據實際
場景創新性地探索及應用底層技術。
本書亮點
相較於其他自然語言處理教材,本書從機器學習基礎技術及算法的發展歷程出發,遵
循由易至難、循序漸進的編排原則,而非根據特定任務
(例如情感分類、立場檢測、詞性標
注和語義角色標注
)分塊編排。本書的編排主要考慮到以下兩點。首先,自然語言處理任
務所解決的語言學問題各不相同,但不同任務所涉及的前沿算法具有一定的共性,共性算
法的發展可歸結為機器學習技術,尤其是深度學習技術的發展。例如,情感分類與新聞分
類任務均可視為分類問題,詞性標注與語義角色標注任務均可視為序列標注問題,因此我
們將文本分類、序列標注等抽象問題作為本書的主要研究內容,在合適的場景下討論其與
特定自然語言處理任務的相關性。其次,自然語言處理研究領域的發展與機器學習技術的
發展密切相關,這為本書章節的組織提供了便利。例如,統計方法在
20世紀
80年代後期
成為主流研究方法,首先被應用於文本分類任務,隨後遷移至序列標注及更為複雜的結構
預測任務。在這期間,相同的機器學習原理被應用於不同的自然語言處理問題中,特徵工
VIII
程逐步取代語言規則。
21世紀
10年代,深度學習技術興起,研究者嘗試利用相同的表示
學習方法來解決各類問題。例如,基於大規模原始文本預訓練的上下文詞表示為句法、語
義、文本挖掘等一系列自然語言處理任務帶來了顯著的性能提升。
新技術在歷史研究成果的基礎上不斷發展,與傳統統計學習方法存在著密切聯繫。特
征、學習目標、優化策略、評估指標等概念在不同技術發展時期一脈相承,並且術語在過
去幾十年的文獻中基本一致。這使得本書的敘述順序也符合研究文獻的發展順序。
內容提要。本書試圖介紹所有與自然語言處理領域相關的重要內容,從機器學習視角
出發,內容覆蓋由統計模型到深度學習模型,由生成式模型到判別式模型,由分類模型到
結構預測模型,由精準推理算法到模糊推理算法,由監督模型到無監督模型等。對於每個
主題,我們力求選擇最具代表性的概念與算法,使得閱讀及教學過程深入淺出、通俗易懂。
某些任務或模型細節可能在本書中有所忽略,讀者可在了解本書內容後閱讀相關文獻進行
補充。
大綱。全書共
18個章節,可分為三個部分。
.第一部分(基礎知識:第
1~6章)討論自然語言處理建模的基本概念,並介紹文本表
示的基本思想、基礎模型及訓練算法。
.第二部分(結構研究:第
7~12章)討論基本技術在序列結構、樹結構等自然語言處
理常見結構中的應用。
.第三部分(深度學習:第
13~18章)重點介紹自然語言處理中的深度學習技術,包括
單層感知機模型、多層感知機模型、神經網絡分類模型、結構化預測模型以及其他前
沿神經網絡模型。
上述三部分內容各包含
6章,分別為:
.第
1章:概述自然語言處理領域,並羅列本書結構。
.第
2章:介紹自然語言處理建模的基本思想,並討論生成概率模型的基本形式。
.第
3章:介紹特徵向量的概念,以及兩類判別式線性文本分類器。
.第
4章:介紹用於文本分類的對數線性模型,並將各類線性分類模型歸納為廣義感知機。
.第
5章:介紹信息論在自然語言處理中的應用。
.第
6章:介紹隱變量建模的基本方法。
.第
7章:介紹用於序列標注的生成式概率模型。
.第
8章:介紹用於序列標注的判別式模型。
.第
9章:介紹用於序列分割的判別式模型。
.第
10章
目次
目錄
中文版序
譯者序
前言
符號表
第一部分 基礎知識
第1章 緒論 2
1.1 自然語言處理的概念 2
1.2 自然語言處理任務 3
1.2.1 基礎任務 4
1.2.2 信息抽取任務 12
1.2.3 應用 16
1.2.4 小結 18
1.3 機器學習視角下的自然語言
處理任務 18
總結 19
注釋 19
習題 19
參考文獻 21
第2章 相對頻率 35
2.1 概率建模 35
2.1.1 最大似然估計 35
2.1.2 詞概率建模 36
2.1.3 模型與概率分布 37
2.2 n元語言模型 41
2.2.1 一元語言模型 41
2.2.2 二元語言模型 43
2.2.3 三元及高階語言模型 46
2.2.4 生成式模型 48
2.3 樸素貝葉斯文本分類器 49
2.3.1 樸素貝葉斯文本分類 50
2.3.2 文本分類器的評估 52
2.3.3 邊緣概率的計算 53
2.3.4 特徵 53
總結 54
注釋 54
習題 54
參考文獻 56
第3章 特徵向量 57
3.1 文本在向量空間中的表示 57
3.1.1 聚類 59
3.1.2 k均值聚類 61
3.1.3 分類 62
3.1.4 支持向量機 63
3.1.5 感知機 65
3.2 多分類 66
3.2.1 定義基於輸出的特徵 67
3.2.2 多分類支持向量機 68
3.2.3 多分類感知機 69
3.3 線性判別式模型 70
3.3.1 判別式模型及其特徵 70
3.3.2 線性模型的點積形式 72
3.4 向量空間與模型訓練 72
3.4.1 可分性與泛化性 72
3.4.2 處理非線性可分數據 73
總結 74
注釋 74
習題 74
參考文獻 76
第4章 判別式線性分類器 78
4.1 對數線性模型 78
4.1.1 二分類對數線性模型的訓練 79
4.1.2 多分類對數線性模型的訓練 83
4.1.3 利用對數線性模型進行分類 85
4.2 基於隨機梯度下降法訓練支持向量機 85
4.2.1 二分類支持向量機的訓練 86
4.2.2 多分類支持向量機的訓練 87
4.2.3 感知機訓練的目標函數 88
4.3 廣義線性模型 88
4.3.1 統一在線訓練 89
4.3.2 損失函數 89
4.3.3 正則化 92
4.4 模型融合 92
4.4.1 模型性能比較 92
4.4.2 模型集成 93
4.4.3 半監督學習 95
總結 96
注釋 96
習題 97
參考文獻 99
第5章 信息論觀點 101
5.1 最大熵原理 101
5.1.1 樸素最大熵模型 103
5.1.2 條件熵 104
5.1.3 最大熵模型與訓練數據 105
5.2 KL散度與交叉熵 108
5.2.1 交叉熵和最大似然估計 109
5.2.2 模型困惑度 110
5.3 互信息 111
5.3.1 點互信息 112
5.3.2 基於點互信息的文本挖掘 113
5.3.3 基於點互信息的特徵選取 115
5.3.4 詞的點互信息與向量表示 115
總結 117
注釋 117
習題 117
參考文獻 120
第6章 隱變量 121
6.1 期望最大算法 121
6.1.1 k均值算法 123
6.1.2 期望最大算法介紹 125
6.2 基於期望最大算法的隱變量模型 127
6.2.1 無監督樸素貝葉斯模型 127
6.2.2 IBM模型1 130
6.2.3 概率潛在語義分析 136
6.2.4 生成模型的相對優勢 138
6.3 期望最大算法的理論基礎 138
6.3.1 期望最大與KL散度 139
6.3.2 基於數值優化的期
望最大算法推導 140
總結 141
注釋 142
習題 142
參考文獻 144
第二部分 結構研究
第7章 生成式序列標注任務 146
7.1 序列標注 146
7.2 隱馬爾可夫模型 147
7.2.1 隱馬爾可夫模型的訓練 149
7.2.2 解碼 149
7.3 計算邊緣概率 153
7.3.1 前向算法 154
7.3.2 後向算法 154
7.3.3 前向-後向算法 156
7.3.4 二階隱馬爾可夫模型的前向-後向算法 156
7.4 基於期望最大算法的無監督隱馬爾可夫模型訓練 158
總結 164
注釋 164
習題 165
參考文獻 166
第8章 判別式序列標注任務 168
8.1 局部訓練的判別式序列標注模型 168
8.2 標注偏置問題 171
8.3 條件隨機場 172
8.3.1 全局特徵向量 173
8.3.2 解碼 174
8.3.3 邊緣概率計算 175
8.3.4 訓練 178
8.4 結構化感知機 181
8.5 結構化支持向量機 184
總結 186
注釋 186
習題 186
參考文獻 188
第9章 序列分割 189
9.1 基於序列標注的序列分割任務 189
9.1.1 面向分詞的序列標注特徵 190
9.1.2 面向句法組塊分析的序列標注特徵 192
9.1.3 面向命名實體識別的序列標注特徵 192
9.1.4 序列分割輸出的評價方式 193
9.2 面向序列分割的判別式模型 193
9.2.1 分詞中的詞級別特徵 194
9.2.2 基於動態規劃的精確搜索解碼 195
9.2.3 半馬爾可夫條件隨機場 197
9.2.4 最大間隔模型 202
9.3 結構化感知機與柱搜索 203
9.3.1 放寬特徵局部約束 204
9.3.2 柱搜索解碼 205
總結 207
注釋 207
習題 207
參考文獻 208
第10章 樹結構預測 210
10.1 生成式成分句法分析 210
10.1.1 概率上下文無關文法 212
10.1.2 CKY解碼 213
10.1.3 成分句法解析器的性能評估 215
10.1.4 邊緣概率的計算 215
10.2 成分句法分析的特徵 218
10.2.1 詞匯化概率上下文無關文法 218
10.2.2 判別式成分句法分析模型 221
10.2.3 面向成分句法分析的對數線性模型 222
10.
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。