TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
信息檢索與智能處理(簡體書)
滿額折

信息檢索與智能處理(簡體書)

人民幣定價:39.8 元
定  價:NT$ 239 元
優惠價:87208
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:6 點
相關商品
商品簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

本書包括緒論、 信息檢索與處理的基本原理及技術、網絡信息獲取及其動態採集算法、網絡信息去噪與正文提取、實體關係抽取、命名實體識別研究及其在話題跟蹤中的應用、基於遺傳算法的主題概念自動標引、基於主題詞標引的網頁分類算法、信息聚類及其實現、基於語句相似度的自動文摘、信息可視化技術及其實現、搜索引擎的設計與實現、 數字圖書館的設計與實現等內容。

名人/編輯推薦

《信息檢索與智能處理》可為高校相關專業(如計算機科學與技術、軟件工程、情報學、圖書館學、信息管理與信息系統)學生的學習和科研工作提供幫助,同時對于從事信息檢索與智能處理技術、社會網絡計算的工程技術人員和希望了解網絡信息檢索技術的愛好者,《信息檢索與智能處理》也具有較高的參考價值。

目次

第1篇背景知識
第1章緒論
1.1信息及其分類
1.2信息檢索的起源和發展
1.2.1手工檢索
1.2.2脫機批處理檢索
1.2.3聯機檢索
1.2.4光盤檢索
1.2.5網絡信息檢索
1.3信息檢索與其他學科的關系
1.4本書主要關注的內容及知識點間的聯系
1.5本章小結
參考文獻
第2章信息智能處理關鍵技術綜述
2.1自然語言處理及中文分詞
2.1.1基于詞典匹配的中文分詞法
2.1.2基于詞頻統計的無詞典中文分詞法
2.2異構信息處理與內容表示
2.3文本挖掘
2.4實體關系抽取
2.5命名實體識別
2.6話題跟蹤
2.7文本分類
2.7.1基于統計和分詞的方法
2.7.2基于向量空間模型的方法
2.7.3基于知識工程的分類方法
2.8文本情感分析
2.9文本聚類
2.10自動摘要
2.11全文檢索
2.12語義Web與信息集成
2.13大數據處理與Hadoop開源系統
2.13.1 Hadoop簡介
2.13.2 HBase簡介
2.13.3 Hive簡介
2.13.4 Pig簡介
2.13.5 Cassandra簡介
2.13.6 Chukwa簡介
2.14本章小結
參考文獻
第3章搜索引擎與信息檢索綜述
3.1搜索引擎概述
3.2搜索引擎的發展歷程
3.3搜索引擎的分類
3.3.1目錄索引式搜索引擎
3.3.2自動式搜索引擎
3.3.3元搜索引擎
3.3.4分布式搜索引擎
3.4網絡信息檢索與處理的基本流程
3.4.1網絡信息獲取
3.4.2信息抽取
3.4.3信息加工
3.4.4信息檢索與結果提供
3.5開源研發工具
3.5.1Lucene
3.5.2Lemur
3.5.3 UUS
3.5.4Egothor
3.5.5 Xapian
3.5.6 Sphinx
3.6信息檢索評測
3.6.1TREC評測
3.6.2其他評測:NTCIR、CLEF、SEWM
3.7信息檢索模型與基本方法
3.7.1布爾檢索模型
3.7.2概率檢索模型
3.7.3向量空間模型
3.7.4模糊檢索模型
3.7.5邏輯檢索模型
3.7.6概念檢索
3.7.7案例檢索
3.8信息檢索系統的性能評價指標
3.9信息檢索系統的體系結構
3.10本章小結
參考文獻
第2篇信息處理
第4章海量異構信息采集
4.1概述
4.2相關工作綜述與擴展閱讀
4.3海量異構信息的獲取與處理
4.3.1異構數據整合
4.3.2爬蟲設計
4.3.3異構數據處理
4.4基于網站優先級調整的信息動態采集算法
4.4.1網頁時新度的確定
4.4.2基于網頁時新度的網站優先級調整思路
4.4.3基于網站優先級的多線程網頁信息采集技術
4.4.4根據網頁類別確定優先級
4.4.5實驗及結果分析
4.5本章小結
參考文獻
第5章網頁正文提取與解析
5.1概述
5.2相關工作綜述與擴展閱讀
5.3基于DOM的網頁正文提取與解析
5.3.1DOM規范簡述
5.3.2算法描述
5.4基于文字密度的網頁正文提取
5.4.1算法流程圖
5.4.2網頁源碼預處理
5.4.3網頁正文源碼行中文密度的計算
5.4.4網頁源碼正文分塊
5.4.5網頁正文識別
5.4.6網頁原始格式的保留問題
5.4.7實驗設計與數據分析
5.5本章小結
參考文獻
第6章實體關系抽取
6.1概述
6.2相關工作綜述與擴展閱讀
6.2.1基于模板的方法
6.2.2基于特征的實體關系抽取
6.2.3基于Kernel的實體關系抽取
6.2.4基于無指導的學習方法
6.3核函數
6.3.1核函數的基本數學性質
6.3.2常用的核函數
6.4特征核函數
6.4.1定義
6.4.2句法核函數
6.4.3組合核函數
6.5未使用Bootstrapping算法的實體關系自動抽取
6.5.1系統模型
6.5.2實驗數據集
6.5.3實驗結果
6.6基于Bootstrapping算法的實體關系自動抽取
6.6.1系統模型
6.6.2實驗結果
6.7本章小結
參考文獻
第7章命名實體識別及話題跟蹤
7.1概述
7.2相關工作綜述與擴展閱讀
7.2.1命名實體識別研究概況及發展趨勢
7.2.2話題跟蹤的相關研究
7.3將時間信息用于話題跟蹤
7.3.1時間信息識別
7.3.2時間信息的規范
7.3.3時間信息的相似度計算
7.3.4時間信息抽取性能評估
7.4標題信息用于話題跟蹤
7.5話題跟蹤模型
7.6實驗結果與分析
7.6.1新聞正文抽取
7.6.2新聞標題抽取
7.6.3新聞發布時間的抽取
7.6.4實驗結果
7.7本章小結
參考文獻
第8章主題概念自動標引
8.1概述
8.2相關工作綜述與擴展閱讀
8.3基于概念分析的主題詞自動標引
8.3.1文章模型建立
8.3.2主題詞自動標引算法
8.3.3主題概念權值的設定
8.3.4同(近)義詞、忽略詞和用戶自定義詞的處理
8.3.5基于頻率統計和規則過濾的未登錄詞識別與處理
8.4基于遺傳算法的主題概念權值學習與調整算法
8.4.1編碼設計
8.4.2適應性函數
8.4.3選擇策略
8.4.4變異策略
8.4.5雜交策略
8.4.6學習算法
8.5算法實驗與性能分析
8.5.1實驗環境與實驗數據
8.5.2實驗評價標準
8.5.3各領域標引結果滿意度測試
8.5.4基于遺傳算法的主題概念權值學習與調整實驗
8.6下一步的研究計劃
8.7本章小結
參考文獻
第9章文本自動摘要
9.1概述
9.2相關工作綜述與擴展閱讀
9.3基于主題標引相似計算的文本自動摘要
9.3.1文檔結構模型表示
9.3.2主題詞串的向量化與構建文檔向量空間模型
9.3.3計算文檔結構各部分的權重
9.3.4正規則、負規則、用戶傾向性詞表的定義與應用
9.3.5基于語句相似度的語句冗余度算法以及摘要句冗余度閾值的使用
9.3.6摘要和原文比例的確定以及摘要生成
9.3.7預處理網頁正文對提高摘要準確性的作用
9.3.8提高摘要算法實時性的措施
9.4算法實驗及性能分析
9.5本章小結
參考文獻
第10章文本自動分類
10.1概述
10,2相關工作綜述與擴展閱讀
10.3算法流程
10.4文本表示模型
10.4.1基于主題詞向量模板的文本表示模型
10.4.2基于特征詞哈希表的文本表示模型
10.5兩種輔助算法
10.5.1改進的向量內積算法
10.5.2改進的相似度算法
10.6類別中心向量分類算法
10.6.1算法主要步驟
10.6.2類別中心向量修正
10.7算法性能分析
10.7.1兩種向量表示方法的性能比較
10.7.2類別中心向量分類算法的實驗及分析
10.8無分詞分類算法
10.8.1基于單字計算的文本分類算法
10.8.2特征向量生成
10.8.3相似度計算
10.8.4實驗結果分析
10.9本章小結
參考文獻
……
第3篇應用

書摘/試閱



上面介紹的機器學習方法需要有標注的訓練樣例進行有指導的學習。然而無指導機器學習方法通過未標注數據的使用可以大大減少指導學習的必要。同時,無指導的學習方法還非常適用于類別眾多的實體識別任務,如本體中概念的識別,因為對于上百個概念標記,若使用指導的學習方法,將需要更加龐大的訓練樣例,這似乎是不可能的。
但機器學習的方法也似乎并不能解決所有問題,它同樣存在自身缺陷。首先,由于統計模型設定的許多統計假設在實際語言現象中很難成立,如“符號統計獨立”等,語言符號之間原則上不可能真正獨立。其次,語料規模再大也是有限的,可能導致統計的非遍歷性,并且在更為龐大的自然語言現象面前,也會經常出現數據稀疏問題。最后,統計方法本身帶有的“統計平均性質”,只能保證統計平均意義上的正確,不能保證每一個具體事件的結果在實際中的正確性,而非統計的因素在語言處理問題中經常會出現,因而統計方法不能完全解決。因此,現在普遍使用的是兩者結合的混合方法,即規則和統計相結合,將它們的優缺點進行互補。
相關工作中,漢語命名實體識別的研究主要集中于人名、地名和組織機構的識別技術,如Intel中國研究中心的Zhang Yi—Min和Zhou Joe F等人在ACL—2000上演示了他們開發的一個抽取中文命名實體以及這些實體間相互關系的信息抽取系統,該系統利用基于記憶的學習算法,獲取規則用以抽取命名實體及它們之間的關系。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 208
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區