商品簡介
作者簡介
序
目次
相關商品
商品簡介
本書是暢銷書升級版,向讀者提供了一套完整的大數據時代背景下的搜索引擎解決方案,詳盡地介紹了搜索引擎的技術架構、算法體系及取得的成果,並以模塊化的方式進行組織。本書著重介紹了機器學習在搜索引擎中的應用,包括中文分詞、聚類、分類等核心的機器學習算法,並結合示例加以介紹和分析,使讀者可以更好地理解機器學習在搜索引擎中的價值;同時,闡述了大數據給搜索引擎帶來的新特性,結合目前大數據分析的主流工具,在搜索引擎中構建知識圖譜,以及進行日誌反饋學習,可以使得搜索引擎更加智能。本書不僅適合作為互聯網行業從業者的技術參考書,也適合作為搜索引擎愛好者的參考讀物。
作者簡介
劉凡平,碩士,畢業于中國科學技術大學軟件系統設計專業。曾任職微軟亞太研發集團、百度(中國)有限公司。現任薇問(北京)科技有限公司首席技術官,負責搜索引擎技術與大數據人工智能平臺研發工作。擅長搜索引擎、大數據分析、分布式計算等相關研發工作,是Iveely開源搜索引擎的主要貢獻者之一。
序
搜索引擎本身作為一門綜合性的互聯網技術,在行業中一直具備較高的關注度。隨著近幾年大數據的發展,人們對於搜索引擎的關注度越來越高,原因在於搜索引擎技術是大數據應用的前沿領域,也是最容易產生價值的大數據應用。大數據存儲、大數據計算都是從搜索引擎中衍生出來的新領域。目前,搜索引擎技術的發展不僅以大數據為基礎,還利用分布式實時計算對數據進行高性能處理,以及利用機器學習將數據變得更具價值,在行業中吸引了搜索研發工程師、算法研發工程師、大數據分析工程師、自然語言處理工程師、計算平臺架構師、數據挖掘工程師等各類精英的關注,這些工程師佔據了整個互聯網研發體系的50%~60%,而在BAT中,甚至超過60%的工作人員是研發人員。
這類群體的薪資水平處於互聯網研發人員薪資水平的較高位。獵聘網公佈的數據顯示,北京地區搜索引擎研發工程師的年薪為35萬~60萬元,大數據工程師的年薪為20萬~25萬元,大數據架構師的年薪為40萬~70萬元。也正是由於薪資水平處於較高位,所以很多互聯網相關從業者也積極關注大數據搜索引擎領域的動態。
本書通過介紹大數據下的自然語言處理框架、大數據存儲引擎、搜索引擎的分布式實時計算、高性能可擴展爬蟲,以及利用大數據構建知識圖譜、基於大數據日誌的搜索引擎反饋學習等相關內容,不僅使讀者對當代搜索引擎研發體系有了一定的認識,還使讀者在搜索引擎領域及大數據領域進行深入思考。
本書特色
本書以當前搜索引擎主流技術為基礎,密切結合前沿技術發展趨勢,行文流暢,通俗易懂,由初步的原理性瞭解到各模塊應用示例,並結合分布式存儲、實時計算等,向讀者提供了一套完整的大數據時代背景下人工智能搜索引擎的解決方案。
(1)內容循序漸進、行文有條有序地介紹搜索引擎知識。
由於充分考慮了不同層次的讀者對搜索引擎的理解程度,因此本書由淺入深的寫作方式、獨特的技術寫作視角符合廣大讀者對於技術類讀物的理解需求,使得讀者能夠在掌握搜索引擎基礎的情況下,不斷按照搜索引擎的設計深入理解。
(2)技術前瞻性強,注重最新主流技術在現代搜索引擎中的應用。
本書充分利用了最新技術發展的應用成果,在自然語言處理的基礎上不僅結合大數據分析,還包括分布式計算、機器學習、知識圖譜等當前大數據應用與分析處理的主流技術,摒棄了傳統過時的研發體系及算法。本書介紹的相關研發成果在當前甚至在未來3~5年都具有實際意義。
(3)將技術理論與應用範例結合,具備較高的商業實用價值。
本書內容緊密結合當前一線工程師的研究成果,對眾多的技術理論以實際工作經驗的方式展示應用效果。本書介紹的內容也廣泛結合工作中的應用示例,並且用搜索引擎工程實踐的脈絡流程介紹技術要點,使讀者能夠在短時間內掌握當前搜索引擎研發的技術理論。
本書結構
本書按照由淺入深、循序漸進的順序對現代搜索引擎的原理和實現進行介紹。全書分為10章,各章的主要內容如下。
第1章通過對搜索引擎的過去、現在、未來的相關概要介紹,以及現代搜索引擎與大數據、人工智能的相互關係,使廣大讀者能夠在瞭解現代搜索引擎的前提下學習本書的後續內容。
第2章是對搜索引擎原理與技術的初步分析,從模塊方面大致介紹爬蟲、索引、緩存、搜索、日誌等服務,從技術方面大致介紹自然語言處理、知識圖譜、海量數據存儲、分布式計算、搜索排序等,目的是使讀者對搜索引擎的體系結構、部分技術有一定的認識,便於深入瞭解後續章節。
第3章從自然語言角度深入分析搜索引擎的原理。自然語言是搜索引擎進行文本處理的基礎,其中包括分詞、詞性標注、語義分析、文檔關鍵詞提取、文檔核心句提取、文本的分類與聚類等。讀者將會從本章中獲得當前主流的自然語言處理技術的相關知識。
第4章主要是針對大數據存儲引擎的介紹。大數據存儲是搜索引擎最先遇到的問題,解決大數據存儲問題可以使搜索引擎在數據分析、索引構建、知識圖譜構建等方面的工作持續進行。讀者將會從本章中瞭解到大數據存儲引擎的架構體系、數據存儲模型、數據壓縮、負載均衡、數據存儲邏輯視圖等知識。
第5章介紹了分布式實時計算。由於搜索引擎處理的是海量數據,數據分析必須依靠具有較強數據處理能力的計算平臺,因此搜索引擎通過分布式實時計算去處理大數據,並在盡可能短的時間內返回處理結果。讀者將會從本章中瞭解到分布式實時計算設計架構、負載均衡及通信設計等相關知識。
第6章對爬蟲進行了深入分析。讀者在本章中將會深入理解分布式可擴展爬蟲的體系架構,以及對網頁如何進行解析,並抽取結構化的數據信息。本章還涉及鏈接去重、網頁去重、廣告識別等相關算法的原理。
第7章詳細介紹了知識圖譜構建。知識圖譜是智能化搜索引擎的重要組成部分,利用大數據分析構建較為合理的知識圖譜是當前主流的方式。讀者將會從本章中深入瞭解到知識圖譜的詳細構建過程。
第8章詳細分析了索引構建機制。索引的設計與構造是搜索引擎能夠進行快速檢索的核心要件,本章不僅對倒排索引進行了深入分析,對倒排索引的壓縮、分布式存儲等也進行了詳細介紹。
第9章深入分析了搜索引擎的整個對外服務工作流程,包括大數據分布式緩存、搜索智能提示、個性化搜索、圖片搜索、搜索與廣告等內容。讀者將會從本章中詳細瞭解到文本糾錯算法、動態摘要算法、網頁排序算法及搜索引擎的評價
體系。
第10章探討和分析了基於用戶日誌的反饋學習。用戶搜索日誌記錄了用戶與搜索系統交互的整個流程。通過日誌挖掘,不僅可以發現用戶的自有特徵和行為規律,還可以有效地幫助搜索引擎提升性能和效果。日誌作為搜索引擎的核心數據之一,促使搜索引擎技術中的各類算法不斷向前發展。讀者在本章中將學會通過搜索日誌分析用戶特徵、用戶的部分搜索意圖等。
讀者對象
適合對自然語言處理及機器學習應用領域有興趣的讀者。
適合對現代搜索引擎相關算法有興趣的讀者。
適合對大數據分析、數據挖掘應用有興趣的讀者。
適合互聯網行業不同層次的從業者。
適合從事搜索引擎優化的網絡營銷讀者。
適合計算機、軟件工程等相關專業的讀者。
這類群體的薪資水平處於互聯網研發人員薪資水平的較高位。獵聘網公佈的數據顯示,北京地區搜索引擎研發工程師的年薪為35萬~60萬元,大數據工程師的年薪為20萬~25萬元,大數據架構師的年薪為40萬~70萬元。也正是由於薪資水平處於較高位,所以很多互聯網相關從業者也積極關注大數據搜索引擎領域的動態。
本書通過介紹大數據下的自然語言處理框架、大數據存儲引擎、搜索引擎的分布式實時計算、高性能可擴展爬蟲,以及利用大數據構建知識圖譜、基於大數據日誌的搜索引擎反饋學習等相關內容,不僅使讀者對當代搜索引擎研發體系有了一定的認識,還使讀者在搜索引擎領域及大數據領域進行深入思考。
本書特色
本書以當前搜索引擎主流技術為基礎,密切結合前沿技術發展趨勢,行文流暢,通俗易懂,由初步的原理性瞭解到各模塊應用示例,並結合分布式存儲、實時計算等,向讀者提供了一套完整的大數據時代背景下人工智能搜索引擎的解決方案。
(1)內容循序漸進、行文有條有序地介紹搜索引擎知識。
由於充分考慮了不同層次的讀者對搜索引擎的理解程度,因此本書由淺入深的寫作方式、獨特的技術寫作視角符合廣大讀者對於技術類讀物的理解需求,使得讀者能夠在掌握搜索引擎基礎的情況下,不斷按照搜索引擎的設計深入理解。
(2)技術前瞻性強,注重最新主流技術在現代搜索引擎中的應用。
本書充分利用了最新技術發展的應用成果,在自然語言處理的基礎上不僅結合大數據分析,還包括分布式計算、機器學習、知識圖譜等當前大數據應用與分析處理的主流技術,摒棄了傳統過時的研發體系及算法。本書介紹的相關研發成果在當前甚至在未來3~5年都具有實際意義。
(3)將技術理論與應用範例結合,具備較高的商業實用價值。
本書內容緊密結合當前一線工程師的研究成果,對眾多的技術理論以實際工作經驗的方式展示應用效果。本書介紹的內容也廣泛結合工作中的應用示例,並且用搜索引擎工程實踐的脈絡流程介紹技術要點,使讀者能夠在短時間內掌握當前搜索引擎研發的技術理論。
本書結構
本書按照由淺入深、循序漸進的順序對現代搜索引擎的原理和實現進行介紹。全書分為10章,各章的主要內容如下。
第1章通過對搜索引擎的過去、現在、未來的相關概要介紹,以及現代搜索引擎與大數據、人工智能的相互關係,使廣大讀者能夠在瞭解現代搜索引擎的前提下學習本書的後續內容。
第2章是對搜索引擎原理與技術的初步分析,從模塊方面大致介紹爬蟲、索引、緩存、搜索、日誌等服務,從技術方面大致介紹自然語言處理、知識圖譜、海量數據存儲、分布式計算、搜索排序等,目的是使讀者對搜索引擎的體系結構、部分技術有一定的認識,便於深入瞭解後續章節。
第3章從自然語言角度深入分析搜索引擎的原理。自然語言是搜索引擎進行文本處理的基礎,其中包括分詞、詞性標注、語義分析、文檔關鍵詞提取、文檔核心句提取、文本的分類與聚類等。讀者將會從本章中獲得當前主流的自然語言處理技術的相關知識。
第4章主要是針對大數據存儲引擎的介紹。大數據存儲是搜索引擎最先遇到的問題,解決大數據存儲問題可以使搜索引擎在數據分析、索引構建、知識圖譜構建等方面的工作持續進行。讀者將會從本章中瞭解到大數據存儲引擎的架構體系、數據存儲模型、數據壓縮、負載均衡、數據存儲邏輯視圖等知識。
第5章介紹了分布式實時計算。由於搜索引擎處理的是海量數據,數據分析必須依靠具有較強數據處理能力的計算平臺,因此搜索引擎通過分布式實時計算去處理大數據,並在盡可能短的時間內返回處理結果。讀者將會從本章中瞭解到分布式實時計算設計架構、負載均衡及通信設計等相關知識。
第6章對爬蟲進行了深入分析。讀者在本章中將會深入理解分布式可擴展爬蟲的體系架構,以及對網頁如何進行解析,並抽取結構化的數據信息。本章還涉及鏈接去重、網頁去重、廣告識別等相關算法的原理。
第7章詳細介紹了知識圖譜構建。知識圖譜是智能化搜索引擎的重要組成部分,利用大數據分析構建較為合理的知識圖譜是當前主流的方式。讀者將會從本章中深入瞭解到知識圖譜的詳細構建過程。
第8章詳細分析了索引構建機制。索引的設計與構造是搜索引擎能夠進行快速檢索的核心要件,本章不僅對倒排索引進行了深入分析,對倒排索引的壓縮、分布式存儲等也進行了詳細介紹。
第9章深入分析了搜索引擎的整個對外服務工作流程,包括大數據分布式緩存、搜索智能提示、個性化搜索、圖片搜索、搜索與廣告等內容。讀者將會從本章中詳細瞭解到文本糾錯算法、動態摘要算法、網頁排序算法及搜索引擎的評價
體系。
第10章探討和分析了基於用戶日誌的反饋學習。用戶搜索日誌記錄了用戶與搜索系統交互的整個流程。通過日誌挖掘,不僅可以發現用戶的自有特徵和行為規律,還可以有效地幫助搜索引擎提升性能和效果。日誌作為搜索引擎的核心數據之一,促使搜索引擎技術中的各類算法不斷向前發展。讀者在本章中將學會通過搜索日誌分析用戶特徵、用戶的部分搜索意圖等。
讀者對象
適合對自然語言處理及機器學習應用領域有興趣的讀者。
適合對現代搜索引擎相關算法有興趣的讀者。
適合對大數據分析、數據挖掘應用有興趣的讀者。
適合互聯網行業不同層次的從業者。
適合從事搜索引擎優化的網絡營銷讀者。
適合計算機、軟件工程等相關專業的讀者。
目次
第1章?引論 1
1.1?搜索引擎的過去 1
1.2?搜索引擎的現在 2
1.3?搜索引擎的未來 4
1.4?大數據與搜索引擎 6
1.4.1?搜索價值提升 6
1.4.2?用戶價值提升 7
1.5?大數據與人工智能 7
1.5.1?人工智能的發展 7
1.5.2?人工智能技術 9
1.6 搜索引擎與人工智能 11
1.7?本章小結 13
第2章?搜索引擎原理與技術 14
2.1?基本工作原理 14
2.2?基本模塊結構 15
2.2.1?網絡爬蟲服務 16
2.2.2?索引服務 17
2.2.3?緩存服務 18
2.2.4?搜索服務 19
2.2.5?日誌服務 21
2.3?技術概要 22
2.3.1?自然語言處理 22
2.3.2?知識圖譜 23
2.3.3?海量數據存儲 25
2.3.4?分布式計算 27
2.3.5?搜索排序 28
2.4 開源技術 29
2.4.1 Apache Lucene 29
2.4.2 Apache Nutch 31
2.4.3 Sphinx 32
2.4.4 Elastic Search 34
2.5?本章小結 36
第3章?自然語言處理框架 37
3.1?英文分詞 37
3.2?中文分詞 39
3.2.1?中文分詞概述 39
3.2.2?基於詞庫的分詞技術 40
3.2.3?基於條件隨機場模型的中文分詞 42
3.2.4?分詞粒度 49
3.3?詞性標注 50
3.3.1?隱馬爾科夫模型概要 51
3.3.2?隱馬爾科夫模型與詞性標注 52
3.4?語義相似度 60
3.5?依存句法分析 62
3.5.1?依存句法分析概要 62
3.5.2?依存句法分析實現 65
3.6?情感傾向分析 68
3.7?文檔關鍵詞提取 70
3.7.1?文檔關鍵詞提取概述 70
3.7.2?基於TF-IDF算法 71
3.7.3?基於TextRank算法 73
3.8?文檔句子相似度分析 76
3.8.1?句子相似度 77
3.8.2?文檔相似度 79
3.9?文檔核心句提取 80
3.10?文本的分類與聚類 83
3.10.1?文本分類 84
3.10.2?文本聚類 89
3.11?語種檢測 96
3.12?本章小結 98
第4章?構建大數據存儲引擎 99
4.1?架構體系 100
4.1.1?結構概要 100
4.1.2?服務器上線 103
4.1.3?服務器下線 103
4.1.4?數據讀取 104
4.2?數據存儲模型 105
4.3?數據壓縮 107
4.4?負載均衡 108
4.5?數據存儲邏輯視圖 111
4.6?本章小結 114
第5章?構建分布式實時計算 115
5.1?概述 115
5.2?設計架構 117
5.2.1?設計思想 117
5.2.2?基本框架 119
5.3?運行模式 121
5.4?負載均衡 122
5.5?通信設計 123
5.5.1?基本方式 124
5.5.2?分布式遠程服務調用 124
5.6?容災恢復 125
5.7?數據容錯原理 126
5.8?數據處理設計示例 128
5.9?本章小結 129
第6章?分布式可擴展爬蟲 130
6.1?爬蟲體系架構 130
6.1.1?主從分布式結構爬蟲 131
6.1.2?對等分布式結構爬蟲 131
6.1.2?基於分布式計算平臺爬蟲 132
6.2?網頁解析 133
6.2.1?狀態碼處理 134
6.2.2?鏈接去重 134
6.2.3?廣告識別 136
6.2.4?網站地圖 139
6.2.5?非網頁數據獲取 140
6.2.6?網頁去重 141
6.2.7?鏈接提取 145
6.2.8?爬蟲協議 146
6.3?網頁結構化 148
6.3.1?網頁的編碼信息 148
6.3.2?網頁的正文信息 149
6.3.3?網頁的關鍵詞信息 153
6.3.4?網頁的標題 153
6.3.5?網頁的發佈時間 155
6.3.6?網頁的語言檢測 155
6.3.7?其他結構化數據 156
6.4?網頁抓取策略 157
6.5?爬蟲權限應對 158
6.6?深網抓取 161
6.7?抓取更新策略 162
6.8?本章小結 164
第7章?大數據構建知識圖譜 165
7.1?概述 165
7.1.1 開放知識圖譜 165
7.1.2 知識圖譜與認知智能 167
7.1.3 圖數據庫:Neo4j 168
7.1.4 資源描述框架:RDF 172
7.2?搜索引擎與知識圖譜 174
7.3?可靠數據源選擇 176
7.4?實體抽取 177
7.5?關係抽取 178
7.5.1?關係抽取概述 179
7.5.2?隱藏關係抽取 180
7.5.3?結構化確定關係抽取 183
7.5.4?非結構化確定關係抽取 185
7.6?知識圖譜檢測 190
7.6.1?實體關係修正 190
7.6.2?實體對齊 191
7.6.3?實體歧義分析 193
7.7?知識推理與知識計算 194
7.7.1?知識推理 194
7.7.2?知識計算 195
7.8?知識聚類 198
7.9?智能搜索實現 200
7.9.1?模式匹配 200
7.9.2?知識拆解 201
7.9.3?合併求解 203
7.10?智能搜索擴展 205
7.10.1?常識性智能搜索 205
7.10.2?實時信息智能搜索 206
7.10.3?可交互式智能搜索 207
7.11 知識圖譜應用 208
7.11.1 問答系統 208
7.11.2 情報分析 211
7.11.3 智慧醫療 214
7.11.4 推薦系統 215
7.12?本章小結 217
第8章?索引構建機制 218
8.1?倒排索引 218
8.1.1?倒排索引概述 219
8.1.2?索引結構 220
8.1.3?構建過程 222
8.1.4?排序規則 223
8.1.5?索引壓縮 224
8.1.6?更新策略 230
8.2?分布式存儲 230
8.2.1?存儲劃分方式 231
8.2.2?存儲平衡策略 232
8.3?存儲索引 237
8.3.1?二叉搜索樹 238
8.3.2?B樹 239
8.3.3?B+樹 241
8.3.4?B+樹與文件索引 242
8.4?字典樹索引 244
8.4.1?字典樹索引概述 245
8.4.2?字典樹索引構建 247
8.4.3?字典樹查詢優化 249
8.5?本章小結 250
第9章?搜索服務構建 251
9.1?概述 251
9.1.1?體系結構 251
9.1.2?七何分析法 252
9.1.3?搜索語法 253
9.1.4?相關性排序 255
9.1.5?不安全信息過濾 259
9.2?大數據分布式緩存 263
9.2.1?緩存結構設計 263
9.2.2?緩存更新策略 264
9.3?文本糾錯算法 265
9.3.1?中文文本糾錯 265
9.3.2?英文文本糾錯 269
9.4?結果顯示算法 270
9.4.1?動態摘要 271
9.4.2?關鍵詞高亮算法 274
9.4.3?網頁快照 278
9.5?搜索智能提示 278
9.6?網頁排序 282
9.6.1?基於PageRank的網頁重要性評價 282
9.6.2?基於HITS算法的網頁權威性評價 285
9.6.3?HillTop算法 287
9.6.4?網頁作弊評價 288
9.6.5?網頁排序調試 291
9.7?個性化搜索 292
9.7.1?個性化搜索示例 292
9.7.2?BP神經網絡與個性化搜索 293
9.7.3?地理位置搜索 294
9.8?圖片搜索 299
9.8.1?基於內容的圖片搜索 299
9.8.2?基於文本的圖片搜索 300
9.9?搜索與廣告 302
9.9.1?廣告投放策略 303
9.9.2?基於User-Based協同過濾的廣告投放 303
9.9.3?基於Item-Based協同過濾的廣告投放 305
9.9.4?基於混合模式的廣告投放 306
9.9.5?廣告投放評價 307
9.10?搜索引擎評價 310
9.10.1?搜索引擎評價概述 310
9.10.2?基於準確率、召回率及F值評價 311
9.10.3?歸一化折扣累計增益 313
9.11?本章小結 316
第10章?基於用戶日誌的反饋學習 318
10.1?基於用戶搜索詞語的分析 318
10.1.1?發現搜索詞的價值 319
10.1.2?發現不明意圖下的用戶行為 320
10.2?基於用戶點擊日誌的分析 321
10.2.1?時間與搜索意圖的關係 321
10.2.2?地理位置與搜索意圖的關係 322
10.2.3?點擊日誌與同義詞 324
10.2.4?點擊日誌與詞語權重 325
10.2.5?點擊日誌與新詞分類 326
10.2.6?點擊日誌與知識圖譜 328
10.2.7?點擊日誌與網頁重排序 329
10.2.8?點擊日誌與網頁評價 331
10.3?基於用戶的特徵分析 332
10.3.1?用戶跟蹤 333
10.3.2?用戶群體特徵 334
10.3.3?用戶個體特徵 336
10.4?本章小結 337
致謝 338
1.1?搜索引擎的過去 1
1.2?搜索引擎的現在 2
1.3?搜索引擎的未來 4
1.4?大數據與搜索引擎 6
1.4.1?搜索價值提升 6
1.4.2?用戶價值提升 7
1.5?大數據與人工智能 7
1.5.1?人工智能的發展 7
1.5.2?人工智能技術 9
1.6 搜索引擎與人工智能 11
1.7?本章小結 13
第2章?搜索引擎原理與技術 14
2.1?基本工作原理 14
2.2?基本模塊結構 15
2.2.1?網絡爬蟲服務 16
2.2.2?索引服務 17
2.2.3?緩存服務 18
2.2.4?搜索服務 19
2.2.5?日誌服務 21
2.3?技術概要 22
2.3.1?自然語言處理 22
2.3.2?知識圖譜 23
2.3.3?海量數據存儲 25
2.3.4?分布式計算 27
2.3.5?搜索排序 28
2.4 開源技術 29
2.4.1 Apache Lucene 29
2.4.2 Apache Nutch 31
2.4.3 Sphinx 32
2.4.4 Elastic Search 34
2.5?本章小結 36
第3章?自然語言處理框架 37
3.1?英文分詞 37
3.2?中文分詞 39
3.2.1?中文分詞概述 39
3.2.2?基於詞庫的分詞技術 40
3.2.3?基於條件隨機場模型的中文分詞 42
3.2.4?分詞粒度 49
3.3?詞性標注 50
3.3.1?隱馬爾科夫模型概要 51
3.3.2?隱馬爾科夫模型與詞性標注 52
3.4?語義相似度 60
3.5?依存句法分析 62
3.5.1?依存句法分析概要 62
3.5.2?依存句法分析實現 65
3.6?情感傾向分析 68
3.7?文檔關鍵詞提取 70
3.7.1?文檔關鍵詞提取概述 70
3.7.2?基於TF-IDF算法 71
3.7.3?基於TextRank算法 73
3.8?文檔句子相似度分析 76
3.8.1?句子相似度 77
3.8.2?文檔相似度 79
3.9?文檔核心句提取 80
3.10?文本的分類與聚類 83
3.10.1?文本分類 84
3.10.2?文本聚類 89
3.11?語種檢測 96
3.12?本章小結 98
第4章?構建大數據存儲引擎 99
4.1?架構體系 100
4.1.1?結構概要 100
4.1.2?服務器上線 103
4.1.3?服務器下線 103
4.1.4?數據讀取 104
4.2?數據存儲模型 105
4.3?數據壓縮 107
4.4?負載均衡 108
4.5?數據存儲邏輯視圖 111
4.6?本章小結 114
第5章?構建分布式實時計算 115
5.1?概述 115
5.2?設計架構 117
5.2.1?設計思想 117
5.2.2?基本框架 119
5.3?運行模式 121
5.4?負載均衡 122
5.5?通信設計 123
5.5.1?基本方式 124
5.5.2?分布式遠程服務調用 124
5.6?容災恢復 125
5.7?數據容錯原理 126
5.8?數據處理設計示例 128
5.9?本章小結 129
第6章?分布式可擴展爬蟲 130
6.1?爬蟲體系架構 130
6.1.1?主從分布式結構爬蟲 131
6.1.2?對等分布式結構爬蟲 131
6.1.2?基於分布式計算平臺爬蟲 132
6.2?網頁解析 133
6.2.1?狀態碼處理 134
6.2.2?鏈接去重 134
6.2.3?廣告識別 136
6.2.4?網站地圖 139
6.2.5?非網頁數據獲取 140
6.2.6?網頁去重 141
6.2.7?鏈接提取 145
6.2.8?爬蟲協議 146
6.3?網頁結構化 148
6.3.1?網頁的編碼信息 148
6.3.2?網頁的正文信息 149
6.3.3?網頁的關鍵詞信息 153
6.3.4?網頁的標題 153
6.3.5?網頁的發佈時間 155
6.3.6?網頁的語言檢測 155
6.3.7?其他結構化數據 156
6.4?網頁抓取策略 157
6.5?爬蟲權限應對 158
6.6?深網抓取 161
6.7?抓取更新策略 162
6.8?本章小結 164
第7章?大數據構建知識圖譜 165
7.1?概述 165
7.1.1 開放知識圖譜 165
7.1.2 知識圖譜與認知智能 167
7.1.3 圖數據庫:Neo4j 168
7.1.4 資源描述框架:RDF 172
7.2?搜索引擎與知識圖譜 174
7.3?可靠數據源選擇 176
7.4?實體抽取 177
7.5?關係抽取 178
7.5.1?關係抽取概述 179
7.5.2?隱藏關係抽取 180
7.5.3?結構化確定關係抽取 183
7.5.4?非結構化確定關係抽取 185
7.6?知識圖譜檢測 190
7.6.1?實體關係修正 190
7.6.2?實體對齊 191
7.6.3?實體歧義分析 193
7.7?知識推理與知識計算 194
7.7.1?知識推理 194
7.7.2?知識計算 195
7.8?知識聚類 198
7.9?智能搜索實現 200
7.9.1?模式匹配 200
7.9.2?知識拆解 201
7.9.3?合併求解 203
7.10?智能搜索擴展 205
7.10.1?常識性智能搜索 205
7.10.2?實時信息智能搜索 206
7.10.3?可交互式智能搜索 207
7.11 知識圖譜應用 208
7.11.1 問答系統 208
7.11.2 情報分析 211
7.11.3 智慧醫療 214
7.11.4 推薦系統 215
7.12?本章小結 217
第8章?索引構建機制 218
8.1?倒排索引 218
8.1.1?倒排索引概述 219
8.1.2?索引結構 220
8.1.3?構建過程 222
8.1.4?排序規則 223
8.1.5?索引壓縮 224
8.1.6?更新策略 230
8.2?分布式存儲 230
8.2.1?存儲劃分方式 231
8.2.2?存儲平衡策略 232
8.3?存儲索引 237
8.3.1?二叉搜索樹 238
8.3.2?B樹 239
8.3.3?B+樹 241
8.3.4?B+樹與文件索引 242
8.4?字典樹索引 244
8.4.1?字典樹索引概述 245
8.4.2?字典樹索引構建 247
8.4.3?字典樹查詢優化 249
8.5?本章小結 250
第9章?搜索服務構建 251
9.1?概述 251
9.1.1?體系結構 251
9.1.2?七何分析法 252
9.1.3?搜索語法 253
9.1.4?相關性排序 255
9.1.5?不安全信息過濾 259
9.2?大數據分布式緩存 263
9.2.1?緩存結構設計 263
9.2.2?緩存更新策略 264
9.3?文本糾錯算法 265
9.3.1?中文文本糾錯 265
9.3.2?英文文本糾錯 269
9.4?結果顯示算法 270
9.4.1?動態摘要 271
9.4.2?關鍵詞高亮算法 274
9.4.3?網頁快照 278
9.5?搜索智能提示 278
9.6?網頁排序 282
9.6.1?基於PageRank的網頁重要性評價 282
9.6.2?基於HITS算法的網頁權威性評價 285
9.6.3?HillTop算法 287
9.6.4?網頁作弊評價 288
9.6.5?網頁排序調試 291
9.7?個性化搜索 292
9.7.1?個性化搜索示例 292
9.7.2?BP神經網絡與個性化搜索 293
9.7.3?地理位置搜索 294
9.8?圖片搜索 299
9.8.1?基於內容的圖片搜索 299
9.8.2?基於文本的圖片搜索 300
9.9?搜索與廣告 302
9.9.1?廣告投放策略 303
9.9.2?基於User-Based協同過濾的廣告投放 303
9.9.3?基於Item-Based協同過濾的廣告投放 305
9.9.4?基於混合模式的廣告投放 306
9.9.5?廣告投放評價 307
9.10?搜索引擎評價 310
9.10.1?搜索引擎評價概述 310
9.10.2?基於準確率、召回率及F值評價 311
9.10.3?歸一化折扣累計增益 313
9.11?本章小結 316
第10章?基於用戶日誌的反饋學習 318
10.1?基於用戶搜索詞語的分析 318
10.1.1?發現搜索詞的價值 319
10.1.2?發現不明意圖下的用戶行為 320
10.2?基於用戶點擊日誌的分析 321
10.2.1?時間與搜索意圖的關係 321
10.2.2?地理位置與搜索意圖的關係 322
10.2.3?點擊日誌與同義詞 324
10.2.4?點擊日誌與詞語權重 325
10.2.5?點擊日誌與新詞分類 326
10.2.6?點擊日誌與知識圖譜 328
10.2.7?點擊日誌與網頁重排序 329
10.2.8?點擊日誌與網頁評價 331
10.3?基於用戶的特徵分析 332
10.3.1?用戶跟蹤 333
10.3.2?用戶群體特徵 334
10.3.3?用戶個體特徵 336
10.4?本章小結 337
致謝 338
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。