評論

滿額折

深度學習圖像搜索與識別（簡體書）

ISBN13：9787121407499
出版社：電子工業出版社
作者：潘攀
出版日：2021/04/01
裝訂／頁數：平裝／209頁
規格：24cm*17cm (高/寬)
版次：一版
關鍵字：深度學習圖像搜索與識別（簡體書）、深度、學習、圖像、搜索、識別、簡體、電子工業出版社、潘攀、簡體書、電腦〈計算機〉、電腦入門、

人民幣定價：109 元

定價

：NT$ 654 元

優惠價

：87 折 569 元

領券後再享89折起

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：17 點

相關商品

商品簡介

作者簡介

名人/編輯推薦

序

商品簡介

圖像搜索和識別是計算機視覺領域一個非常重要且基礎的題目。本書對構成圖像搜索和識別系統的各個算法基礎模組一一做了介紹，並在最後一章以拍立淘為例說明了各個模組是怎樣一起工作的。針對每個算法模組，本書不僅深入淺出地解釋了算法的工作原理，還對算法背後的演進機理和不同方法的特點進行了說明，在第2章至第8章最後均提供了經典算法的PyTorch 代碼和相關參考資料。

本書既適合圖像搜索和識別領域的初學者，也適合在某個單一任務方面有經驗但是想擴充知識面的讀者。

作者簡介

潘攀，花名啟磐。

阿裡巴巴集團資深算法專家，達摩院視覺理解&互動視覺負責人，負責電商領域的視覺技術研發。

拍立淘以圖搜圖的負責人和創始人之一，為拍立淘、淘寶直播&短視頻、虛擬主播、閑魚等業務提供核心技術。

博士畢業於美國伊利諾大學芝加哥分校，研究領域包括深度學習和計算機視覺等。

曾先後在美國三菱研究院和北京富士通研發中心從事視覺技術研發工作。

已發表20餘篇論文，擁有10餘授權專利，並獲得WebVision分類，COCO檢測，DAVIS分割等國際計算機視覺競賽冠軍。

名人/編輯推薦

拍立淘是阿裡巴巴推出的以圖搜圖產品，率先改變了消費者購物的方式，影響深遠。

本書圍繞該產品的技術、工程實踐，多角度、立體化地揭示了背後的技術機理：

1、首度剖析基於深度學習的億級圖像檢索技術平臺，揭示精準推薦的技術奧秘

2、深度分析計算機視覺重要算法原理與應用場景，配以詳盡的PyTorch代碼

3、闡述構建大規劃圖像搜索平臺思路、技巧與落地經驗

作者潘攀是阿裡巴巴集團資深算法專家，達摩院視覺理解&互動視覺負責人，負責電商領域的視覺技術研發；拍立淘以圖搜圖的負責人和創始人之一，為拍立淘、淘寶直播&短視頻、虛擬主播、閑魚等業務提供核心技術。

《深度學習圖像搜索與識別》總結了計算機視覺領域重大的落地產品實踐，獲得業界的一致好評與推崇，達摩院金榕院長、賈揚清等大咖紛紛力薦！

乾貨滿滿，誠意十足，先入為快！

序

推薦序2

基於圖像內容的搜索，也就是Content Based Image Retrieval（CBIR）是一個有著悠久研究歷史，需要跨越圖像理解、機器學習和搜尋引擎等技術的交叉研究方向。

首先很高興看到這本圍繞最新深度學習技術的圖像搜索應用實踐之作問世。經過6年之久的持續打磨，阿裡巴巴的視覺算法團隊在超大規模圖像搜索方向取得了引人注目的成績。

回顧阿裡巴巴以圖搜圖技術的演進過程，在超大規模分類（Extreme Classification）、領域自我調整的表徵學習、端側高效的檢測和分割、高維向量空間索引，以及多模態表徵融合等一系列課題上都取得了實質性的突破，並在實際的業務系統中發揮了重要作用。整本書圍繞圖像搜索技術，從底層的視覺感知、向量表徵到高維向量空間索引都進行了體系性的介紹，相信本書無論對於初學圖像搜索的學生，還是對於希望在圖像搜索領域深耕的研發人員都將大有裨益，也期待更多優秀的成果應運而生。

本書基本按照構建一個圖像搜索系統所必備的技術能力逐一展開系統性的介紹，詳盡地介紹近年來具有代表性的工作並給出清晰的指引，其中涉及的核心模組有：

第一，原始圖像集合的結構化理解，從單標籤/多標籤分類，到針對圖像細細微性分類模型的建立，兼顧圖像全域信息和局部細節的表徵模型構建，書中對近年來具有代表性的工作做了詳細的介紹。

第二，針對查詢圖與資料庫圖的有效距離度量的表徵學習，系統性地介紹了基於分類識別和度量學習的特徵學習方法，基本涵蓋了目前業界有代表性的工作。

第三，高維向量空間索引是圖像搜尋引擎所必備的核心模組，本書圍繞近鄰和近似近鄰方法，對近幾年具有代表性的工作做了細緻的闡述，並且給出了不同索引方法在系統建設層面的優缺點，供研發人員參考。

第四，構建一個高價值圖像搜索系統所要解決的一個問題是，如何能夠從圖中捕捉和匹配用戶興趣點，這背後需要進一步深化對圖像內容細節的理解。毋庸置疑，圖像檢測和分割技術是不可或缺的能力，是促進圖像搜索系統實現交互智能的關鍵組成部分。本書系統介紹了近年來檢測和分割技術方向的最新進展。

第五，在圖文理解章節，介紹了多模態領域中圖像搜索系統的一些學術和工業界有代表性的工作，起到拋磚引玉的作用。在視頻為主流消費內容的時代，多模態領域的研究是一個重要的方向。有理由相信，未來會有大量工作圍繞如何突破多模態融合、多模態映射、多模態對齊、多模態表徵以及多模態學習這五個關鍵課題展開。

圖像/視頻搜索雖然是一個有很長研究歷史的技術方向，但仍然有很多值得我們思考和挑戰的問題，比如如何構建任意物體的實例搜索能力，如何解決搜索結果的可解釋性（Scene Graph Understanding），如何解決多模態交互、多模態匹配和多模態排序，如何在系統層面解決索引表徵模型的低成本構建和更新，這些都有待同人持續地研究並在實際應用領域開花結果。

徐盈輝，阿裡巴巴集團研究員，達摩院機器智能技術視覺技術負責人

序

近些年，隨著深度學習技術的發展，以及GPU和雲計算等運算力的增強，計算機視覺技術逐漸進入實用階段。無論是在電商、安防、娛樂，還是在醫療、自動駕駛等領域，計算機視覺技術都扮演著重要的角色。計算機視覺技術是一個很廣的題目，涵蓋圖像搜索和識別、視頻理解、三維視覺等領域。圖像搜索和識別是計算機視覺裡一個非常重要且基礎的題目。在深度學習的推動下，圖像搜索和識別的精度和效率都有了極大提升，使其不僅在學術圈非常火熱，在工業界也引人注目。

在阿裡巴巴廣闊的商業和資料生態的發展中，圖像搜索和識別的技術研發與商業化落地一直密不可分。比如拍立淘利用圖像搜索和識別技術，幫助淘寶、天貓、AliExpress、Lazada等電商App的用戶在移動端通過拍照就能找到相同或相似的商品，從而方便購物；比如在線下新零售領域，阿裡巴巴研發了人的追蹤和空間定位、貨架商品SKU識別等技術，以推動商場、超市、酒店的人—貨—場數字化，並在此基礎上做進一步的商業分析。在安防領域，阿裡巴巴研發了人和車輛的搜索和識別等技術，幫助識別城市交通事故、判斷人流軌跡以及匯總交通資料樣本等。

2014年初我加入阿裡巴巴。兩個月之後，阿裡巴巴圖像搜索和識別產品拍立淘啟動，我非常有幸成為算法和項目負責人，見證了拍立淘從誕生到發展的過程。從拍立淘2014年首次上線開始，我們不斷打磨產品/工程/算法，以給使用者提供更精準和更高質量的搜索結果，至今，它已經成為每天的獨立訪客數超過兩千萬的應用。對於拍立淘，我們從第一天就使用深度學習技術來進行算法研發和系統設計。這些年，隨著拍立淘業務的發展，自己和團隊也在基於深度學習的圖像搜索和識別領域不斷學習、積累和創新。

相比2014年初，現在學習技術的條件好了很多。arxiv.org和各個學術會議上層出不窮的論文、深度學習的多種開源框架，以及開源社區上的各種代碼，都極大地降低了技術學習和研發的成本。但也因為現在是一個知識大爆炸的時代，初學者會感覺無從下手。僅CVPR2019就收錄了1294篇論文，如果每天看3篇，全部看完也需要大概一年多的時間。豐富的信息在提供便利的同時，給信息的篩選和迅速掌握帶來了一些困難。

當電子工業出版社的劉皎編輯聯繫我寫一本圖像搜索和識別的書時，“回歸基礎”四個字首先浮現在我的腦海。本書對構成圖像搜索和識別系統的各個算法基礎模組做了介紹，並在最後一章以拍立淘為例說明了各個模組是怎樣一起工作的。對於每個算法模組，本書不僅深入淺出地解釋算法的工作原理，還對算法背後的演進機理和不同方法的特點進行了說明，在第2至第8章最後均提供了經典算法的PyTorch代碼和相關參考資料。因此，本書既適合圖像搜索和識別領域的初學者，也適合在某個單一任務方面有經驗但是想擴充知識面的讀者。

本書的寫作過程耗時一年，在這期間拍立淘的技術和業務都取得了不錯的增長。感謝公司對我寫書的支持，感謝拍立淘算法團隊在技術討論中不斷幫助我提升技術水準。感謝謝晨偉、趙黎明、趙康、張嚴浩、張迎亞、王彬、鄭贇在本書寫作和修改過程中的幫助。感謝我的父母、愛人和女兒一直以來的支持。

當下的計算機視覺技術無疑是AI浪潮中火熱的題目，廣受關注。視覺技術的滲透，既可能改造傳統商業、帶來新的商業機會，也可能創造全新的商業需求和市場。好的視覺技術不僅需要有好的方法指引，還需要在實際場景中形成資料閉環，並不斷打磨。未來的計算機視覺技術一定是理論探索和資料實踐的共同推進。希望本書能拋磚引玉，給學術界和工業界提供一些輸入，從而共同推進計算機視覺技術的發展。學海無涯，個人的知識有限，書中如有疏漏，還請各位讀者見諒和指正。

潘攀（啟磐）

阿裡巴巴集團資深算法專家

2020年6月於北京

1 概述 1
1．1 圖像搜索與識別概述 1
1．2 圖像搜索與識別技術的發展和應用 3
1．3 深度學習與圖像搜索和識別 4
1．4 本書結構 6
2 深度卷積神經網絡 8
2．1 概述 8
2．1．1 深度學習背景 8
2．1．2 深度卷積神經網絡 9
2．2 CNN基礎操作 11
2．2．1 卷積操作 11
2．2．2 池化操作 12
2．2．3 全連接層 13
2．2．4 啟動層 14
2．2．5 批歸一化層 14
2．2．6 小結 16
2．3 常見的CNN模型結構 16
2．3．1 網絡結構超參數 17
2．3．2 單分支網絡結構 19
2．3．3 多分支網絡結構 24
2．3．4 小結 38
2．4 常見目標損失函數 38
2．5 本章總結 40
2．6 參考資料 40
3 圖像分類 43
3．1 概述 43
3．2 單標記分類 44
3．2．1 常用資料集及評價指標 44
3．2．2 損失函數 45
3．2．3 提升分類精度的實用技巧 47
3．2．4 基於搜索的圖像分類 50
3．3 細細微性圖像分類 51
3．3．1 概述 51
3．3．2 基於部件對齊的細細微性分類方法 52
3．3．3 基於高階特徵池化的細細微性分類方法 55
3．3．4 小結 56
3．4 多標記圖像分類 56
3．4．1 概述 56
3．4．2 baseline：一階方法 58
3．4．3 標記關係建模 59
3．4．4 小結 60
3．5 代碼實踐 61
3．6 本章總結 63
3．7 參考資料 63
4 目標檢測 66
4．1 概述 66
4．2 兩階段目標檢測算法 68
4．2．1 候選框生成 69
4．2．2 特徵抽取 71
4．2．3 訓練策略 73
4．2．4 小結 76
4．3 單階段目標檢測算法 76
4．3．1 YOLO算法 76
4．3．2 SSD算法 78
4．3．3 RetinaNet算法 81
4．3．4 無錨點框檢測算法 83
4．3．5 小結 87
4．4 代碼實踐 88
4．5 本章總結 91
4．6 參考資料 92
5 圖像分割 95
5．1 概述 95
5．2 語義分割 96
5．2．1 概述 96
5．2．2 全卷積神經網絡 97
5．2．3 空洞卷積 99
5．2．4 U-Net結構 100
5．2．5 條件隨機場關係建模 101
5．2．6 Look Wider to See Better 103
5．2．7 Atrous Spatial Pyramid Pooling算法 104
5．2．8 Context Encoding for Semantic Segmentation 104
5．2．9 多卡同步批歸一化 107
5．2．10 小結 107
5．3 實例分割 108
5．3．1 概述 108
5．3．2 FCIS 109
5．3．3 Mask R-CNN 111
5．3．4 Hybrid Task Cascade框架 113
5．3．5 小結 115
5．4 代碼實踐 115
5．5 本章總結 120
5．6 參考資料 120
6 特徵學習 124
6．1 概述 124
6．2 基於分類識別的特徵訓練 126
6．2．1 Sigmoid函數 127
6．2．2 Softmax函數 128
6．2．3 Weighted Softmax函數 129
6．2．4 Large-Margin Softmax函數 130
6．2．5 ArcFace函數 132
6．2．6 小結 133
6．3 基於度量學習的特徵訓練 134
6．3．1 Contrastive損失函數 135
6．3．2 Triplet損失函數 137
6．3．3 三元組損失函數在行人再識別中的應用 139
6．3．4 Quadruplet損失函數 140
6．3．5 Listwise Learning 141
6．3．6 組合損失函數 142
6．3．7 小結 142
6．4 代碼實踐 143
6．5 本章總結 143
6．6 參考資料 144
7 向量檢索 147
7．1 概述 147
7．2 局部敏感雜湊算法 149
7．2．1 預處理 150
7．2．2 搜索 151
7．2．3 小結 152
7．3 乘積量化系列算法 152
7．3．1 PQ算法 153
7．3．2 IVFPQ算法 155
7．3．3 OPQ算法 156
7．3．4 小結 157
7．4 圖搜索算法 157
7．4．1 NSW算法 158
7．4．2 Kgraph算法 161
7．4．3 HNSW算法 163
7．4．4 圖搜索算法實驗對比 165
7．4．5 小結 165
7．5 代碼實踐 166
7．6 本章總結 167
7．7 參考資料 168
8 圖文理解 171
8．1 概述 171
8．2 圖文識別 172
8．2．1 概述 172
8．2．2 資料集和評測標準 174
8．2．3 特徵融合方法 176
8．2．4 小結 182
8．3 圖文搜索 182
8．3．1 概述 182
8．3．2 資料集和評測標準 184
8．3．3 Dual Attention Networks 185
8．3．4 Bottom-Up Attention 187
8．3．5 圖文搜索的損失函數 189
8．3．6 小結 190
8．4 代碼實踐 191
8．5 本章總結 194
8．6 參考資料 194
9 阿裡巴巴圖像搜索識別系統 197
9．1 概述 197
9．2 背景介紹 198
9．3 圖像搜索架構 200
9．3．1 類目預測模組 200
9．3．2 目標檢測和特徵聯合學習 201
9．3．3 圖像索引和檢索 205
9．4 實驗和結果分析 207
9．5 本章總結 210
9．6 參考資料 211

主題書展

主題書展

更多書展

本週66折

教練激推！健身新手重訓攻略（完全圖解版）：槓片啞鈴×阻力帶×健身器材，新手必學的五大重訓，教你正確施力、精準增肌

人間佛教的播種者(精)

天涯縱橫－三民叢刊183

我喜歡綠色

打開話匣子：SmallTalk一下！(精)

咪咪蝴蝶茉莉花：用歌劇訴說愛的普契尼－音樂家系列

漂鳥集[中英雙語版]

從伯利恆到全世界：神的兒子耶穌

Carolina玩轉扭蛋紙機關：獨角獸篇

遺忘力大腦最強本能：忘掉想忘的，記得該記的，重新校正腦力健康

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

熱搜：

深度學習圖像搜索與識別（簡體書）

商品資訊

ISBN13：9787121407499

出版社：電子工業出版社

作者：潘攀

出版日：2021/04/01

裝訂／頁數：平裝／209頁

規格：24cm*17cm (高/寬)

版次：一版

商品簡介

作者簡介

名人/編輯推薦

序

目次

主題書展

簡體書新到貨

魅力．花火特展

悅讀紀特展

簡體新書搶先報

簡體新生代華文原創小說特展

領券專區

文具禮品大賞

2024暑期閱讀書展

泰戈爾經典詩集與小說戲劇集

洪萬生套書限時優惠

本週66折

教練激推！健身新手重訓攻略（完全圖解版）：槓片啞鈴×阻力帶×健身器材，新手必學的五大重訓，教你正確施力、精準增肌

人間佛教的播種者(精)

天涯縱橫－三民叢刊183

我喜歡綠色

打開話匣子：SmallTalk一下！(精)

咪咪蝴蝶茉莉花：用歌劇訴說愛的普契尼－音樂家系列

漂鳥集[中英雙語版]

從伯利恆到全世界：神的兒子耶穌

Carolina玩轉扭蛋紙機關：獨角獸篇

遺忘力 大腦最強本能： 忘掉想忘的，記得該記的，重新校正腦力健康

您曾經瀏覽過的商品

購物須知

遺忘力大腦最強本能：忘掉想忘的，記得該記的，重新校正腦力健康