商品簡介
作者簡介
名人/編輯推薦
書摘/試閱
相關商品
商品簡介
主要以作者十餘年在工業控制網搜索與挖掘領域所作的研究與應用工作為內容,全面介紹我們在工業控制網資訊預處理、挖掘(包括:工業控制網路分析、新特徵抽取、分類等)、搜索等方面的研究成果,並介紹在工業網,包括中國郵政、中國證監會、四維圖新等單位的實際應用案例。專著突出自己的研究成果為主,理論與實踐並重,強調技術工程實現與實際應用。
作者簡介
名人/編輯推薦
《信息科學技術學術著作叢書:大數據搜索與挖掘》可為高校計算機專業、計算機語言學專業和人工智能專業等師生的教學和科研工作提供幫助,也可為從事大數據搜索與挖掘、中文自然語言處理、信息檢索與搜索引擎技術研發的工程技術人員和希望了解上述技術的愛好者等提供參考。
書摘/試閱
第2章大數據搜索挖掘綜述
本章將對大數據搜索與挖掘中的相關技術(特別是自然語言理解與處理中涉及的相關技術)進行綜述,內容涵蓋文本分析與挖掘、自然語言理解與處理、中文詞法分析中的分詞處理、未登錄詞及其識別、有意義串及其識別、詞典組織與管理、文本分類、文本聚類、話題識別與跟蹤、信息檢索的基本原理、句子級檢索與新信息檢測等內容。
2.1常用的信息檢索模型
當用戶以一定的方式表示出其信息需求后,系統應根據用戶的需求,在表示信息的數據(特別是非結構化的文本數據)中進行檢索,獲取與用戶需求相關的結果集并按一定次序輸出,對這個過程建模就產生了各種不同的信息檢索模型。
一般地,一個信息檢索模型要確定文檔的表示方式、用戶查詢的表示方式及用戶查詢與文檔間相關度的計算方法,包括文檔表示、查詢表示、匹配函數和結果輸出等。其中,文檔表示反映文檔在系統中的存儲形式,查詢表示反映用戶想要表達的信息需求,匹配函數用于把經過處理的文檔表示和查詢表示進行匹配計算并得到結果集,結果輸出則是將檢索結果集按照其和用戶需求的相關性排序輸出。信息檢索模型是將文檔、查詢及其關系進行建模的框架,一般可由三元組F(D,Q,R(qi,dj))表示,其中D是文檔邏輯視圖,Q是用戶信息需求的邏輯視圖,R(qi,dj)是一個與查詢qi∈Q和文檔dj∈D有關的函數,以便決定結果集的輸出順序(孫建軍等,2004;凌云,2003;徐寶文,2003;焦玉英等,2003;Baeza—Yatesetal.,1999)。
相關工作中,由Salton等提出的向量空間模型成功地應用于SMART系統中,Salton等(1983)在20世紀80年代末又提出了擴展布爾檢索模型;Wong等(1985)建立的廣義矢量模型考慮了詞與詞的相依性;Cooper和Bookstein利用集合論建立了信息檢索的一般社會模型;Maron、Roberton和SparkJones于20世紀60~80年代先后建立了三個概率檢索模型;Raedchi在模糊檢索理論方面進行了研究。下面,對一些信息檢索模型及常用的檢索性能評價指標進行綜述(高凱等,2010)。
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。