商品簡介
本書系統介紹了推薦算法的知識框架和技術細節,包括召回、粗排、精排和重排等模塊。第1章從用戶體驗、內容生產和平臺發展角度介紹為什麼需要推薦系統,並闡述推薦系統的分類及整體技術架構。第2章介紹推薦算法模型的基礎——數據樣本和特徵工程。第3章介紹傳統推薦算法。第4~7章介紹推薦系統中最複雜的部分——精排模塊,包括特徵交叉、用戶行為序列建模、Embedding表征學習和多任務學習。第8章介紹召回模塊,並詳細講解非個性化召回和個性化召回算法。第9章介紹粗排模塊,重點講解特徵蒸餾和輕量級特徵交叉等方法。第10章介紹重排模塊,包括打散和多樣性、上下文感知和端上重排等技術細節。
本書適用於推薦算法初學者、有一定工作經驗的推薦算法工程師,以及搜索、廣告和營銷等領域的從業者,也可作為高等院校計算機等相關專業師生的參考資料。
作者簡介
謝楊易,本科畢業於華中科技大學,碩士畢業於中國科學院大學。主要研究方向為推薦算法、個性化搜索和自然語言處理,歷任阿裡巴巴算法專家、騰訊應用算法研究員等職位,在搜索和推薦算法領域積累了豐富的經驗。CSDN博客專家,原創文章100余篇。發表專利15個,已授權6個。
名人/編輯推薦
- 體系化、全鏈路,覆蓋推薦算法核心模塊。
- 有前沿、有經典,詳解常用的模型和技術。
- 搜廣推、適用廣,輕鬆搞定入門面試進階。
- 可下載本書配套代碼,學習效果事半功倍。
- 加入本書讀者群,交流技術、offer選擇及職業規劃問題。
序
編寫背景
當前互聯網高速發展,用戶規模和內容規模均迅猛提升。身處信息嚴重過載的時代,如何讓用戶從海量信息中發現自己感興趣的內容,成了很多公司的核心問題。在此背景下,搜索系統和推薦系統應運而生。前者主要解決用戶主動尋找內容的問題,後者則將合適的內容分發給合適的用戶,偏被動型消費。它們是連接用戶和內容的橋梁,重要性不言而喻。
自從2012年AlexNet在ImageNet大規模視覺識別比賽中一舉奪魁後,深度學習就深入各大業務領域,推薦系統也不例外。基於深度學習的推薦系統,大幅提升了內容分發的準確性和用戶體驗,已被應用在各大推薦場景中。推薦算法工程師也由此步入了新的時代。
當前深度學習技術仍然在快速更新中,推薦算法也在飛速發展,因此,從業者必須持續學習新知識。同時,推薦系統鏈路很長,包括召回、粗排、精排和重排等諸多模塊,如何掌握整體架構,並深入每個模塊理解其細節,就成為一件困難且重要的事。
本書主要介紹推薦算法技術,覆蓋召回、粗排、精排和重排等模塊,目的是讓讀者熟悉推薦算法的全部鏈路,加深體系化理解,並掌握關鍵技術細節。另外,本書介紹的很多技術也可應用在搜索和廣告等領域。
本書既適合搜索、推薦和廣告算法領域的初學者,也適合有一定經驗的工程師進階學習。它能幫助你掌握推薦算法的整體架構、每個核心模塊的知識框架,以及一些工作常用的經典模型,同時,能幫助你深入理解它們的出發點和具體實現方案,在實際工作中融會貫通。
身處信息爆炸時代的推薦算法工程師是幸運的,但仍然需要不斷學習新知識,接受更多挑戰。希望本書分享的知識和經驗能夠助廣大讀者一臂之力!
本書特色
本書主要介紹推薦算法技術,特點如下。
(1)內容全面,結構合理。書中囊括推薦算法的所有核心模塊,涵蓋召回、粗排、精排和重排等內容,幫助讀者掌握完整鏈路,加深對推薦算法的整體理解。先介紹算法模塊的知識框架,使讀者對其有整體認知,再展開講解每個細節技術點,幫助讀者加深對該模塊的理解。
(2)由淺入深,深入本質。針對每個算法模塊的講解,都按照從基礎實現到複雜優化的思路,從簡到難,由淺入深。通過講解這些優化手段的出發點和具體實現,以及不同優化手段的關鍵點,讓讀者抓住算法本質。
(3)模型經典,代表性強。針對每個模塊都選取一些有代表性的經典模型進行重點講解,這些經典模型都是推薦算法工程師必須掌握的。
(4)貼近工作,實戰性強。本書不會利用大量篇幅講解理論,也不會只介紹一些入門知識。書中介紹的模型和技術細節大多已被應用在實際工作場景中,實戰性很強。
(5)代碼詳細,操作性強。本書為關鍵的算法模型和模塊配備了具體實現代碼,並附有詳細的注釋和運行流程講解,幫助讀者深入理解其運行機理和實現方法。
本書內容
本書包括10章,各章的具體內容如下。
第1章介紹為什麼需要推薦系統、推薦系統的分類及其主要技術架構。
第2章介紹如何構建數據樣本和特徵工程,從而訓練模型。這是推薦算法的基礎。
第3章介紹深度學習之前的主流推薦算法,包括協同過濾、矩陣分解、邏輯回歸和因子分解機等算法。
第4~7章講解精排模型算法。
第4章講解特徵交叉,並介紹Wide&Deep和DeepFM等經典模型。
第5章講解用戶行為序列建模,包括短序列建模和長序列建模方法,重點講解DIN、DIEN和SIM等模型。
第6章講解Embedding表征學習,並介紹Node2vec和GraphSAGE等模型。
第7章講解多任務學習,包括多任務建模和多任務融合,重點講解ESSM、MMOE和PLE等模型。
第8章介紹召回算法,包括非個性化召回和個性化召回,重點講解YouTubeDNN、ESAM和TDM等模型。
第9章介紹粗排算法,包括特徵蒸餾和輕量級特徵交叉等方法,重點講解PFD、COLD和FSCD等模型。
第10章介紹重排算法,包括打散和多樣性、上下文感知和端上重排等,重點講解PRM和EdgeRec等模型。
此外,本書會根據推薦算法的發展情況,在後續版本中增加一些新內容,歡迎讀者持續關注。
目次
第1章 推薦系統概述 1
1.1 為什麼需要推薦系統 1
1.1.1 推薦系統與用戶體驗 2
1.1.2 推薦系統與內容生產 3
1.1.3 推薦系統與平臺發展 4
1.2 推薦系統分類 5
1.2.1 業務領域分類 5
1.2.2 內容介質分類 5
1.2.3 交互形態分類 6
1.2.4 應用場景分類 6
1.3 推薦系統技術架構 7
1.4 本章小結 9
第2章 數據樣本和特徵工程 10
2.1 數據樣本 10
2.1.1 樣本不均衡問題 11
2.1.2 樣本不置信問題 14
2.1.3 離/在線樣本不一致問題 16
2.2 特徵工程 17
2.2.1 特徵類目體系 18
2.2.2 特徵處理範式 21
2.2.3 特徵重要性評估 22
2.3 本章小結 23
第3章 傳統推薦算法 25
3.1 協同過濾 25
3.1.1 基於用戶的協同過濾 26
3.1.2 基於物品的協同過濾 27
3.1.3 協同過濾的優點和局限性 28
3.2 矩陣分解 29
3.2.1 矩陣分解實現方法 30
3.2.2 矩陣分解的優點和局限性 31
3.3 邏輯回歸 31
3.3.1 邏輯回歸求解過程 33
3.3.2 邏輯回歸的優點和局限性 34
3.4 因子分解機 35
3.4.1 因子分解機模型簡化 35
3.4.2 因子分解機的優點和局限性 36
3.5 組合模型 37
3.5.1 GBDT LR組合模型結構 38
3.5.2 GBDT特徵轉換過程 39
3.5.3 組合模型的思考和總結 40
3.6 本章小結 40
第4章 特徵交叉 42
4.1 特徵交叉概述 43
4.1.1 特徵交叉的意義 43
4.1.2 特徵交叉基本範式 44
4.1.3 特徵交叉的難點 45
4.2 Deep Crossing:經典DNN框架模型 46
4.2.1 業務背景和特徵體系 46
4.2.2 模型結構 48
4.2.3 實現方法 52
4.3 FNN 54
4.3.1 為什麼Embedding收斂慢 55
4.3.2 模型結構 55
4.4 PNN 58
4.4.1 模型結構 58
4.4.2 特徵交叉實現方法 59
4.5 Wide&Deep:異構模型奠基者 61
4.5.1 “記憶”和“泛化” 61
4.5.2 模型結構 62
4.5.3 系統實現 64
4.5.4 代碼解析 66
4.6 DeepFM:異構模型Wide側引入FM 68
4.6.1 模型結構 68
4.6.2 代碼解析 70
4.7 DCN:異構模型Wide側引入高階交叉 74
4.8 NFM:異構模型Deep側引入顯式交叉 77
4.9 xDeepFM:異構模型引入子分支 79
4.10 本章小結 83
第5章 用戶行為序列建模 85
5.1 用戶行為序列建模概述 86
5.1.1 行為序列建模的意義 87
5.1.2 行為序列建模的基本範式 87
5.1.3 行為序列建模的主要難點 88
5.1.4 行為序列特徵工程 89
5.2 DIN:基於注意力機制建模用戶行為序列 90
5.2.1 背景 90
5.2.2 模型結構 92
5.2.3 模型訓練方法 95
5.2.4 代碼解析 98
5.3 DIEN:GRU建模用戶行為序列 100
5.3.1 模型結構:興趣抽取層 100
5.3.2 模型結構:興趣進化層 103
5.4 BST:Transformer建模用戶行為序列 105
5.4.1 模型結構 105
5.4.2 代碼解析 109
5.5 DSIN:基於Session建模用戶行為序列 114
5.6 MIMN:基於神經圖靈機建模長周期行為序列 117
5.6.1 工程設計:UIC模塊 118
5.6.2 MIMN模型結構 119
5.7 SIM:基於檢索建模長周期行為序列 123
5.8 ETA:基於SimHash實現檢索索引在線化 126
5.8.1 ETA模型結構 127
5.8.2 SimHash原理 128
5.9 本章小結 129
第6章 Embedding表征學習 131
6.1 Embedding表征學習概述 132
6.1.1 Embedding概述 133
6.1.2 Embedding表征學習的意義 134
6.1.3 Embedding表征學習的基本範式 134
6.1.4 Embedding表征學習的主要難點 135
6.2 基於序列的Embedding建模方法 135
6.2.1 Word2vec任務定義:CBOW和Skip-gram 136
6.2.2 Word2vec模型結構 137
6.2.3 Word2vec訓練方法 138
6.2.4 Item2vec:推薦系統引入序列Embedding 139
6.2.5 序列建模總結和思考 139
6.3 基於同構圖遊走的Graph Embedding 139
6.3.1 DeepWalk:同構圖遊走算法開山之作 140
6.3.2 LINE:一階相似度和二階相似度探索 141
6.3.3 Node2vec:同質性和結構等價性探索 142
6.3.4 同構圖遊走的優缺點 144
6.4 基於異構圖遊走的Graph Embedding 145
6.4.1 Metapath2vec 145
6.4.2 EGES 146
6.4.3 異構圖遊走的優缺點 149
6.5 圖神經網絡 149
6.5.1 GCN:圖神經網絡開山之作 149
6.5.2 GraphSAGE:圖神經網絡工業應用的高潮 152
6.5.3 圖神經網絡總結 153
6.6 向量檢索技術 153
6.6.1 向量距離計算方法 154
6.6.2 向量檢索算法 156
6.6.3 向量檢索常用工具:Faiss 161
6.7 本章小結 162
第7章 多任務學習 165
7.1 多任務學習發展歷程 166
7.1.1 為什麼需要多任務學習 166
7.1.2 多任務學習的基本框架 167
7.1.3 多任務學習的難點和挑戰 168
7.2 ESMM模型:解決SSB和DS問題的利器 169
7.2.1 樣本選擇偏差和數據稀疏問題 169
7.2.2 ESMM模型結構 170
7.2.3 ESMM核心代碼 172
7.3 MMOE模型:多專家多門控網絡 174
7.3.1 MMOE模型結構 174
7.3.2 MMOE核心代碼 177
7.4 PLE模型:解決負遷移和蹺蹺板現象的利器 179
7.4.1 負遷移和蹺蹺板現象 180
7.4.2 單層CGC模型結構 180
7.4.3 PLE模型結構 183
7.4.4 PLE核心代碼 184
7.5 多任務融合 188
7.5.1 網格搜索 189
7.5.2 排序模型 190
7.5.3 強化學習 190
7.6 本章小結 192
第8章 召回算法 194
8.1 召回概述 196
8.1.1 推薦底池 196
8.1.2 多路召回 197
8.1.3 召回的難點 198
8.1.4 召回評價體系 199
8.2 個性化召回 200
8.2.1 基於內容的個性化召回 200
8.2.2 基於協同過濾的個性化召回 201
8.2.3 基於社交關係的個性化召回 203
8.3 向量召回 203
8.3.1 實現方法 204
8.3.2 YouTube DNN 204
8.3.3 Facebook EBR 206
8.3.4 百度MOBIUS 208
8.4 用戶行為序列類向量召回 209
8.4.1 多峰興趣建模的意義 210
8.4.2 MIND的模型結構 210
8.4.3 膠囊網絡 212
8.5 樣本選擇偏差問題 213
8.5.1 召回樣本構建方法 213
8.5.2 ESAM和遷移學習 215
8.6 召回檢索優化和TDM 218
8.6.1 TDM在線檢索過程 218
8.6.2 TDM索引構建和模型訓練過程 220
8.6.3 JTM 221
8.6.4 OTM 222
8.7 本章小結 223
第9章 粗排算法 226
9.1 粗排概述 228
9.1.1 粗排樣本和特徵 228
9.1.2 粗排發展歷程 228
9.1.3 粗排的難點 230
9.1.4 粗排評價體系 230
9.2 PFD模型:知識蒸餾學習交叉特徵 231
9.2.1 PFD模型結構 231
9.2.2 PFD模型原理 232
9.2.3 PFD與傳統蒸餾相結合 233
9.2.4 PFD在精排中的應用 234
9.3 COLD模型:顯式特徵交叉 235
9.3.1 雙塔內積模型 235
9.3.2 COLD模型 237
9.4 FSCD模型:效果和效率聯合優化 238
9.4.1 FSCD特徵選擇原理 239
9.4.2 FSCD訓練步驟 241
9.5 本章小結 242
第10章 重排算法 243
10.1 重排概述 245
10.1.1 為什麼需要重排 245
10.1.2 重排的難點和挑戰 245
10.1.3 流量調控 246
10.2 打散和多樣性 246
10.2.1 打散 247
10.2.2 多樣性 248
10.2.3 多樣性發展歷程 248
10.3 上下文感知和PRM模型 249
10.3.1 什麼是上下文感知 250
10.3.2 PRM模型結構 250
10.3.3 其他上下文感知實現方案 253
10.4 實時性和延遲反饋問題 254
10.4.1 推薦系統實時性的意義 254
10.4.2 推薦系統實時性分類 255
10.4.3 延遲反饋問題 256
10.4.4 延遲反饋優化方案 257
10.5 端上重排和EdgeRec 257
10.5.1 為什麼需要端上模型 258
10.5.2 端上推理引擎 259
10.5.3 EdgeRec系統架構 259
10.5.4 EdgeRec模型結構 260
10.6 本章小結 262
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。