TOP
0
0
2025新年快樂!買書領券省荷包
Web數據挖掘(第2版)(簡體書)
滿額折

Web數據挖掘(第2版)(簡體書)

商品資訊

人民幣定價:59.50 元
定價
:NT$ 357 元
優惠價
87311
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點:9 點
商品簡介
名人/編輯推薦
目次
書摘/試閱
相關商品

商品簡介

過去幾十年裡,Web的迅速發展使其成為世界上規模最大的公共數據源。Web挖掘的目標是從Web超鏈接、網頁內容和使用日誌中探尋有用的信息。《世界著名計算機教材精選:Web數據挖掘(第2版)》旨在闡述Web數據挖掘的概念及其核心算法,使讀者獲得相對完整的關於Web數據挖掘的算法和技術知識。本書不僅介紹了搜索、頁面爬取和資源探索以及鏈接分析等傳統的Web挖掘主題,而且還介紹了結構化數據的抽取、信息整合、觀點挖掘和Web使用挖掘等內容,這些內容在已有書籍中沒有提及過,但它們在Web數據挖掘中卻佔有非常重要的地位。全書分為兩大部分:第一部分包括第2章到第5章,介紹數據挖掘的基礎,第二部分包括第6章到第12章,介紹Web相關的挖掘任務。從本書自第1版出版之後,很多領域已經有了重大的進展。新版大部分的章節都已經添加了新的材料來反應這些進展,主要的改動在第11章和第12章中,這兩章已經被重新撰寫並做了重要的擴展。《世界著名計算機教材精選:Web數據挖掘(第2版)》不僅可作為本科生的教科書,也是在Web數據挖掘和相關領域研讀博士學位的研究生的重要參考用書,同時對Web挖掘研究人員和實踐人員獲取知識、信息、甚至是創新想法也很有幫助。

名人/編輯推薦

《世界著名計算機教材精選:Web數據挖掘(第2版)》不僅可作為本科生的教科書,也是在Web數據挖掘和相關領域研讀博士學位的研究生的重要參考用書,同時對Web挖掘研究人員和實踐人員獲取知識、信息、甚至是創新想法也很有幫助。

目次

第1章概述1.1什麼是萬維網1.2萬維網和互聯網的歷史簡述1.3Web數據挖掘1.3.1什麼是數據挖掘1.3.2什麼是Web數據挖掘1.4各章概要1.5如何閱讀本書文獻評注參考文獻第1部分數據挖掘基礎第2章關聯規則和序列模式2.1關聯規則的基本概念2.2Apriori算法2.2.1頻繁項目集生成2.2.2關聯規則生成2.3關聯規則挖掘的數據格式2.4多最小支持度的關聯規則挖掘2.4.1擴展模型2.4.2挖掘算法2.4.3規則生成2.5分類關聯規則挖掘2.5.1問題描述2.5.2挖掘算法2.5.3多最小支持度分類關聯規則挖掘2.6序列模式的基本概念2.7基於GSP挖掘序列模式2.7.1GSP算法2.7.2多最小支持度挖掘2.8基於PrefixSpan算法的序列模式挖掘2.8.1PrefixSpan算法2.8.2多最小支持度挖掘2.9從序列模式中產生規則2.9.1序列規則2.9.2標簽序列規則2.9.3分類序列規則文獻評注參考文獻第3章監督學習3.1基本概念3.2決策樹歸納3.2.1學習算法3.2.2混雜度函數3.2.3處理連續屬性3.2.4其他一些問題3.3評估分類器3.3.1評估方法3.3.2查準率、查全率、F-score和平衡點(BreakevenPoint)3.3.3受試者工作特徵曲線3.3.4提升曲線3.4規則歸納3.4.1順序化覆蓋3.4.2規則學習:Learn-One-Rule函數3.4.3討論3.5基於關聯規則的分類3.5.1使用類關聯規則進行分類3.5.2使用類關聯規則作為分類屬性3.5.3使用古典的關聯規則分類3.6樸素貝葉斯分類3.7樸素貝葉斯文本分類3.7.1概率框架3.7.2樸素貝葉斯模型3.7.3討論3.8支持向量機3.8.1線性支持向量機:可分的情況3.8.2線性支持向量機:數據不可分的情況3.8.3非線性支持向量機:核方法總結3.9A、近鄰學習3.10分類器的集成3.10.1Bagging3.10.2Boosting文獻評注參考文獻第4章無監督學習4.1基本概念4.2A-均值聚類4.2.1A-均值算法4.2.2A-均值算法的硬盤版本4.2.3優勢和劣勢4.3聚類的表示4.3.1聚類的一般表示方法4.3.2任意形狀的聚類4.4層次聚類4.4.1單連結方法4.4.2全連結方法4.4.3平均連結方法4.4.4優勢和劣勢4.5距離函數4.5.1數字屬性4.5.2布爾屬性和名詞性屬性4.5.3文本文檔4.6數據標準化4.7混合屬性的處理4.8採用哪種聚類算法4.9聚類的評估4.10發現數據區域和數據空洞文獻評注參考文獻第5章部分監督學習5.1從已標注數據和無標注數據中學習5.1.1使用樸素貝葉斯分類器的EM算法5.1.2Co-naining5.1.3自學習5.1.4直推式支持向量機5.1.5基於圖的方法5.1.6討論5.2從正例和無標注數據中學習5.2.1PU學習的應用5.2.2理論基礎5.2.3建立分類器:兩步方法5.2.4建立分類器:偏置SVM5.2.5建立分類器:概率估計5.2.6討論……第2部分Web挖掘

書摘/試閱



5.2.1 PU學習的應用
由于人們在大多數情況下僅僅對某個特定類別的網頁或文本文檔感興趣,所以在網頁和文本文檔的檢索中PU學習問題經常出現。例如,某些人可能只對與旅游相關的網頁(正例網頁)有興趣,這時所有其他網頁都可以被看成是反例網頁。下面讓我們通過一個具體的例子來看看PU學習應用的真實場景。
例1:我們想要建立一個關于數據挖掘研究的論文庫。首先,我們可以從一些數據挖掘的會議或者期刊上選取一些論文作為初始的論文集。然后,我們希望從一些在線的關于數據庫和人工智能領域的會議和期刊中尋找關于數據挖掘的論文。在這些領域的會議和期刊論文中都包含有一些數據挖掘的論文。同樣它們也包含很多其他研究領域的論文。問題就成了怎樣從這些會議和期刊論文中抽取數據挖掘的論文,即怎樣在沒有進行任何反例文檔標注的情況下把這些文章分類成數據挖掘論文和非數據挖掘論文。
在實際應用中,正例文檔對于那些已經從事某項特定工作很長時間的人來說是很容易得到的,因為他們在工作過程中可能會積累很多相關文檔。即使一開始沒有正例文檔的話,直接從Web或者其他資源中收集一些正例文檔是相對容易的。這樣人們就可以在沒有任何反例標注的情況下,通過使用這個初始正例集從其他一些數據來源中去發現相同類別的文檔。PU學習在以下這些情況下十分有用:
(1)從多個無標注集中學習:在一些應用中,人們需要從大量文檔集中發現正例文檔。例如,我們希望分辨那些銷售打印機的網頁。首先,我們可以很容易從某個在線交易網站中獲得一些正例網頁,如amazon.com。然后我們希望從其他一些交易網站中找到打印機網頁。為此,我們需要一一爬下每個網站的內容,然后使用PU學習算法從每個網站中抽出打印機網頁。我們不需要對任何網站中的反例網頁進行人工標注。
盡管為一個網站標注一些反例網頁并不是太難,但是如果要對每個網站都進行標注的話就很困難了。由于站點S1中的反例網頁可能與站點S,中的反例網頁十分不同,所以基于S2中的反例網頁學習得到的分類器可能不能用于對站點S2的網頁分類。這個原因在于,盡管兩個站點都銷售打印機,但是它們出售的其他產品可能大相徑庭。因此使用從S1上學習得到的分類器對S2中的網頁分類可能會違背機器學習的基本假設:訓練數據和測試數據符合相同的數據分布。從而,我們可能會得到很差的分類精度。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 311
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區