TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
數據挖掘:原理與實踐(進階篇)(簡體書)
滿額折

數據挖掘:原理與實踐(進階篇)(簡體書)

人民幣定價:79 元
定  價:NT$ 474 元
優惠價:87412
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次

商品簡介

本書中文版分為基礎篇和進階篇,深入探討了數據挖掘的各個方面,從基礎知識到復雜的數據類型及其應用,涉及數據挖掘的各種問題領域。它超越了傳統上對數據挖掘問題的關注,引入了高級數據類型,例如文本、時間序列、離散序列、空間數據、圖數據和社交網絡數據。到目前為止,還沒有一本書以如此全面和綜合的方式探討所有這些主題。 基礎篇(包括原書的第1-13章)詳細介紹了針對數據挖掘的四個主要問題(聚類、分類、關聯模式挖掘和異常分析)的各種解決方法、用於文本數據領域的特定挖掘方法,以及對於數據流的挖掘應用。 進階篇(包括原書的第14-20章)主要討論了用於不同數據領域(例如時序數據、序列數據、空間數據、圖數據)的特定挖掘方法,以及重要的數據挖掘應用(例如Web數據挖掘、排名、推薦、社交網絡分析和隱私保護)。 本書在直觀解釋和數學細節上取得了很好的平衡,既包含研究人員需要的數學公式,又以簡單直觀的方式呈現出來,方便學生和從業人員(包括數學背景有限的人)閱讀。本書包括大量插圖、示例和練習,並把重點放在語義可解釋的示例上,特別適合作為高級數據挖掘課程的教材。

作者簡介

查魯C. 阿加沃爾(Charu C. Aggarwal)是IBM TJ Watson研究中心的傑出研究人員,於1996年獲麻省理工學院博士學位。他對數據挖掘領域有著廣泛的研究,在國際會議和期刊上發表了250多篇論文,擁有80多項專利。他曾三次被評為IBM的“傑出發明人”,並曾獲得IBM公司獎、IBM傑出創新獎和兩項IBM傑出技術成就獎。他因為提出基於冷凝的數據挖掘中的隱私保護技術而獲得EDBT2014的時間檢驗獎。他還獲得了IEEE ICDM研究貢獻獎(2015),這是數據挖掘領域對具有突出貢獻的研究的兩個*高獎項之一。.他曾多次擔任ACM/IEEE知名國際學術會議的主席或程序委員會主席,並擔任大數據相關多個知名期刊的主編或編委。由於在知識發現和數據挖掘算法上的貢獻,他入選SIAM、ACM和IEEE的會士。

 

譯者簡介:

王曉陽復旦大學特聘教授、博士生導師,中國計算機學會會士,ACM會員,IEEE高級會員。主要研究興趣為大數據分析、數據安全等。於復旦大學獲得計算機科學學士、碩士學位,於美國南加州大學獲得計算機科學博士學位。曾在美國喬治梅森大學、美國佛蒙特大學、美國國家科學基金會任職。2011年至今在復旦大學任職。主持多項美國國家科學基金項目、中國國家重點研發計劃項目、自然科學基金重點項目、上海市重大科研項目等,並發表過百餘篇高質量學術論文,現任Springer DSE期刊主編,IEEE ICDE會議系列、IEEE BigComp會議系列指導委員會委員,曾任CCF上海分部主席,IEEE ICDE 2012及ACM CIKM 2014總主席,WAIM會議系列指導委員會主席。曾獲得美國國家科學基金CAREER Award。

王建勇清華大學計算機系教授,國際電器與電子工程師協會會士(IEEE Fellow),中國人工智能學會會士(CAAI Fellow),江蘇省大數據安全與智能處理重點實驗室首屆學術委員會副主任。主要研究領域為數據挖掘及知識發現。迄今發表論文100餘篇(其中單篇*高引用2000餘次)。曾擔任IEEE ICDM'19、WISE'15、BioMedCom'14、WAIM'13、ADMA'11、NDBC'10等會議的程序委員會聯合主席以及IEEE TKDE、ACM TKDD和《軟件學報》等期刊的編委。入選2007年度教育部“新世紀優秀人才”支持計劃和2009年度日本大川研究基金資助計劃。獲得WWW'08的Best Posters Award、2009年度和2010年度HP實驗室創新研究獎以及教育部2013年度自然科學獎二等獎。

禹曉輝南京大學學士、香港中文大學碩士、加拿大多倫多大學博士,加拿大約克大學副教授,山東大學兼職教授、博士生導師,中國計算機學會大數據專委會委員、數據庫專委會委員。研究工作主要集中在大數據管理和分析領域,研究方向涵蓋時空大數據處理與挖掘、面向人工智能的數據管理、社交媒體挖掘等。主持加拿大自然科學與工程理事會基金、中國國家自然科學基金等多項國家和工業界資助的科研項目。在IEEE Trans. on Knowl. & Data Eng.及SIGMOD、VLDB、ICDE等國內外期刊和會議上發表高質量論文近100篇,是3項美國專利的發明人。曾任WAIM2015、CloudDM2015等知名國際會議的程序委員會主席,是國際期刊Information Systems(Elsevier)的編委、加拿大自然科學與工程理事會NSERC特邀評審專家。

陳世敏中科院計算所研究員,中國科學院大學崗位教師,分別於1997年和1999年獲得清華大學計算機系學士和碩士學位,於2005年在美國卡內基梅隆大學獲得計算機科學博士學位。主要研究方向為數據庫系統和大數據系統。曾在SIGMOD、ISCA、VLDB、ASPLOS、ICDE、CIDR等頂級國際會議和ACM TODS、IEEE TKDE等頂級國際期刊發表過論文,並獲得ICDE'04 Best Paper、SIGMOD'01 Runner-up Best Paper和2008年體系結構國際會議年度頂級論文獎(Top Picks'08)。曾擔任PVLDB 2017、ICDE 2018、ICDCS 2016、CIKM 2014等會議的PC Area Chair,長期擔任大數據新硬件技術的主要Workshop HardBD的Co-Chair。

名人/編輯推薦

本書中文版分為基礎篇和進階篇,深入探討了數據挖掘的各個方面,從基礎知識到復雜的數據類型及其應用,涉及數據挖掘的各種問題領域。全書既有基本方法,也有進階內容,彼此融為一體,這使得本書既可以作為數據挖掘領域的工具書,也可以作為數據科學、人工智能、計算機等相關專業本科及研究生教材。

1、大數據和人工智能時代的數據挖掘教材,將數據挖掘歸納成四個基本問題:聚類、分類、關聯模式挖掘和異常分析,不僅詳解數據挖掘的基礎知識,而且還介紹高級數據類型,結合複雜多樣的實際數據環境,探討數據挖掘的應用場景和使用方法。

2、作譯者均為數據挖掘領域資深學者。作者是IBM TJ Watson研究中心傑出研究員阿加沃爾博士,他擅長將計算機科學問題提煉成數學問題,而且又能用計算機科學方法解決實際問題,本書是他的代表作之一。翻譯工作由國內四位數據挖掘領域的翹楚,復旦大學王曉陽教授、清華大學王建勇教授、加拿大約克大學禹曉輝教授、中科院計算所陳世敏研究員歷時5年時間完成,字斟句酌,精益求精。

3、全書注重原理和方法,既有基本方法,也有進階內容,幫助讀者在數據挖掘及人工智能應用方面打下良好基礎。

譯者序

Data Mining: The Textbook

在當今的人工智能時代,數據分析和挖掘似乎已經是一個很古老的話題。這也難怪,對數據的分析甚至可以追溯到中國第一經—《易經》這部遠古文明的產物,至少17世紀就開始的數理統計學為數據分析準備了齊全的數學工具,而領域公認的第一個數據挖掘算法也早在27年前就發表了。相關領域現在流行的是機器學習,尤其是深度學習。那麼在這個時候出版這本幾年前就出版的原著譯本,意義又何在?

事實上,目前的人工智能的發展是由數據驅動的。從數據中挖掘得到的知識在很大程度上成就了人工智能的奇妙,比如機器翻譯、人臉識別、對話機器人等。目前人工智能所面臨的問題是推廣,也就是需要在各行各業將人工智能的能力發揮出來。這個能力的發揮在很大程度上依賴於數據的使用能力。而數據使用的難度源於數據的複雜性和多樣性,我們需要一系列處理數據的工具,也就是數據挖掘工具,它是人工智能、機器學習任務的一個重要部分。

本書的一個特點是篇幅長、字數多,但它更重要的特點是打破了數據挖掘就是幾個算法的錯覺。它將數據挖掘工具放在實際的、複雜多樣的數據環境中,總結各種方法的使用場景、使用方法,乃至可能的使用效果。各種方法與各種場景的組合縱橫交錯,形成了豐富的內容。

本書將數據挖掘歸納成四個基本問題:聚類、分類、關聯模式挖掘和異常分析。同時作者對數據類型從多個方面進行考慮,包括是連續的還是離散的、是定量的還是定性的、是依賴於上下文的還是非依賴的,有文本數據和圖數據,也有時間序列、與時間無關的序列、多維時間序列、數據流,以及各種交叉組合等,而且各種組合下的數據可能都需要進行聚類、分類、關聯模式挖掘和異常分析。這就使數據挖掘任務變得異常複雜及困難,需要在本質上把這些類型之間的關係、各基本方法之間的關係,以及各類型與各方法之間的關係做一個梳理。另外,本書特別強調在解決上述問題時的計算及存儲效率問題,在數據挖掘的實用性方面也有很好的分析。這些內容可幫助讀者在數據挖掘及人工智能應用方面打下良好的基礎。從這個角度來講,本書對數據挖掘領域的描述相當完整。

本書作者是一位嚴謹的計算機科學家和高產的作家。譯者在研究生涯中多次接觸過他,他擅長將計算機科學問題提煉成數學問題,而且又能用計算機科學方法解決實際問題。從他撰寫的書籍來看,他是一個在科研方面十分細緻且思路寬廣的人。本書注重原理、方法,有助於讀者深入理解數據挖掘的各個方面,同時本書也可以作為一本“原理型菜單”,為各類數據的轉換及四個基本方法的使用提供解決思路。既有基本方法,也有進階內容,彼此融為一體,這使得本書既可以作為數據挖掘領域的工具書,也可以作為本科及研究生各個年級的教科書。

本書的翻譯由本人與三位領域內翹楚王建勇、禹曉輝、陳世敏共同完成。整個翻譯過程經過了較長的時間,其間得到了很多同事、學生的幫助,在這裡一併感謝。同時也感謝機械工業出版社華章公司編輯們的極大耐心,“苦苦”等待本書翻譯成稿。特別感謝本書策劃編輯朱劼的支持與鼓勵,使得冗長的翻譯過程變得不再那麼無望。最後,還要感謝本書責任編輯遊靜的出色工作,她使本書的成書質量得到了明顯的提升。感謝各位。

 

王曉陽

2020年5月於上海

 

 

 

 

前言

Data Mining: The Textbook

“數據是新時代的石油。”

—Clive Humby

在過去二十多年中,數據挖掘領域取得了很大的進步,從計算機科學的角度來看尤其明顯。儘管傳統的概率與統計領域對數據分析已經有了廣泛和深入的研究,但數據挖掘這個術語是由計算機科學相關的社區所創立的。對計算機科學家來說,計算的可擴展性、可用性和計算的執行都是極為重要的。

作為一門學科,數據科學需要一本超越傳統的、僅專注於基本數據挖掘的教科書。最近幾年,“數據科學家”這樣的工作職位已經在市場上出現,這些人的工作職責就是從海量數據中窺探知識。在典型的應用中,數據類型傾向於異構及多樣,基於多維數據類型的基本方法可能會失去效用,因此我們更需要將重點放在這些不同的數據類型以及使用這些數據類型的應用上。一本全面覆蓋數據挖掘內容的書必須探索數據挖掘的不同方面,從基本技術出發,進而探討複雜的數據類型,以及這些數據類型與基本技術的關係。雖然基本技術構成數據挖掘的良好基礎,但它們並沒有展示出數據分析真正複雜的全貌。本書在不影響介紹基本技術的情況下,研究這些高級的話題,因此本書可以同時用於初級和高級數據挖掘課程。到目前為止,還沒有一本書用這種全面、綜合的方式來覆蓋所有這些話題。

本書假設讀者已經有了​​一些概率統計和線性代數方面的基礎知識,一般掌握了理工科本科時期學習的相關內容就足夠了。對業界的從業者來說,只要對這些基礎知識有一定的實際經驗,就可以使用本書。較強的數學背景對學習那些高級話題的章節顯然會有所幫助,但並不是必需的。有些章節專門介紹特殊的數據挖掘場景,比如文本數據、時序數據、離散序列、圖數據等,這種專門的處理是為了更好地展示數據挖掘在多種應用領域有用武之地。

本書的章節可以分為三類。

基礎章節:數據挖掘主要有四個“超級問題”,即聚類、分類、關聯模式挖掘和異常分析,它們的重要性體現為許許多多的實際應用把它們當成基本構件。由此,數據挖掘研究者和實踐者非常重視為這些問題設計有效且高效的方法。這些基礎章節詳細地討論了數據挖掘領域針對這幾個超級問題所提出的各類解決方法。

領域章節:這些章節討論不同領域的特殊方法,包括文本數據、時序數據、序列數據、圖數據、空間數據等。這些章節多數可以認為是應用性章節,因為它們探索特定領域的特殊性問題。

應用章節:計算機硬件技術和軟件平台的發展導致了一些數據密集型應用的產生,如數據流系統、Web挖掘、社交網絡和隱私保護。應用章節對這些話題進行了詳細的介紹。前面所說的那些領域章節其實也集中討論了由這些不同的數據類型而產生的各類應用。

給使用本書的教師的一點建議

本書的撰寫特點使得它特別適用於數據挖掘基礎和高級兩門課程的教學。通過對不同重點的關注,本書也可用於不同類型的數據挖掘課程。具體來說,使用各種章節組合可提供的課程包括下面幾種。

基礎課程:數據挖掘基礎課程應側重於數據挖掘的基礎知識。這門課可以使用本書的第1、2、3、4、6、8、10章。事實上,一門課可能無法覆蓋這些章節中的所有內容,任課教師可根據需要從這些章節中選擇他們感興趣的話題。這門課也可以考慮使用本書的第5、7、9、11章的部分內容,這些章節確實是為高級課程準備的,但不妨在基礎課程中引入一部分。

高級課程(基礎):這門課將涵蓋數據挖掘基礎中的高級話題,並假定學生已經熟悉了本書第1~3章的內容,及第4、6、8、10章中的部分內容。這門課將主要關注第5、7、9、11章,如集成分析這樣的內容對一門高級課程是有益的。此外,在基礎課程中沒來得及教授的第4、6、8、10章中的內容也可以在這門課中使用,並考慮增加第20章的隱私話題。

高級課程(數據類型):這門課可以教授文本挖掘、時序、序列、圖數據和空間數據等內容,使用本書的第13、14、15、16、17章。也可以考慮增加第19章(如圖聚類部分)和第12章(數據流)的內容。

高級課程(應用):應用課程可以與數據類型課程有所重疊,但有不同的側重點。例如,在一個以應用為中心的課程中,重點應該放在建模而非算法方面。因此,第13、14、15、16、17章中的內容可以保留,但可以跳過一些算法細節。因為對具體算法關注得少些,這幾章可以比較快地介紹​​,建議把省下來的時間分配給重要的三章,即數據流(第12章)、Web挖掘(第18章)以及社交網絡分析(第19章)。

本書的撰寫風格簡單,便於數學背景不多的本科生和業界從業人員使用。因此,對於學生、業界從業者以及科研人員,本書既可以作為初級的介紹性課本,也可以作為高級課程的課本。

在本書中,向量與多維數據點(包括類別型屬性)都用上劃線標註,如或y。向量或多維數據點可以由小寫字母或大寫字母來表示,只要有上劃線標註即可。向量點積由中心點表示,如。矩陣用大寫字母表示,不用上劃線標註,如R。在整本書中,n×d的數據矩陣用D表示,包含n個d維的點,因此D中的各個數據點是一個d維列向量。若數據點是只包含一項的向量(即一維向量),那麼n個數據點即可表示為一個n維列向量。比如,n個數據點的類別變量就是一個n維的列向量y。

致謝

感謝太太及女兒,感謝她們在我寫這本書時所表達的愛與支持。寫這本書需要大量的時間,這些時間都是從我的家人那裡拿來的,所以這本書也是這段時間她們對我耐心支持的結果。

也感謝我的經理Nagui Halim,他給了我莫大的幫助,他在專業方面的支持對本書以及過去我所寫的多本書都至關重要。

在撰寫本書時,我得到了很多人的幫助,特別是下列人士給了我很好的反饋:Kanishka Bhaduri、Alain Biem、Graham Cormode、Hongbo Deng、Amit Dhurandhar、Bart Goethals、Alexander Hinneburg、Ramakrishnan Kannan、 George Karypis、Dominique LaSalle、Abdullah Mueen、Guojun Qi、Pierangela Samarati、Saket Sathe、Karthik Subbian、Jiliang Tang、Deepak Turaga、Jilles Vreeken、Jieping Ye和Peixiang Zhao。感謝他們給了我很多具有建設性的反饋和建議。在過去的許多年中,我受益於許多合作者的真知灼見,這些對本書都有直接或間接的影響。首先要感謝我的長期合作者Philip S. Yu,我們一起合作了多年。其他與我有過深度合作關係的研究者還包括Tarek F. Abdelzaher、Jing Gao、Quanquan Gu、Manish Gupta、Jiawei Han、Alexander Hinneburg、Thomas Huang、Nan Li、Huan Liu、Ruoming Jin、Daniel Keim、Arijit Khan 、Latifur Khan、Mohammad M. Masud、Jian Pei、Magda Procopiuc、Guo-jun Qi、Chandan Reddy、Jaideep Srivastava、Karthik Subbian、Yizhou Sun、Jiliang Tang、Min-Hsuan Tsai、Haixun Wang、Jianyong Wang、Min Wang、Joel Wolf、Xifeng Yan、Moha-mmed Zaki、ChengXiang Zhai和Peixiang Zhao。

還要感謝我的導師James B. Orlin,感謝他在我早期研究中所給予的指導。儘管我已經不在原來的研究領域里工作,但我從他那裡學到的東西形成了我解決問題的關鍵方式,特別是他告訴我在科研中依賴直覺並使用簡潔思路是很重要的。這種做法在科研中的重要性其實還沒有受到廣泛的重視。本書就是用了一種簡單、直觀的方法撰寫的,這樣科研人員及業界從業者都能更容易理解本領域的研究內容。

感謝Lata Aggarwal幫我用微軟的PowerPoint畫了書中的一些圖。

作者簡介

Charu C. Aggarwal 在紐約約克頓高地的IBM托馬斯·J.沃森研究中心工作,是一位傑出研究員(DRSM)。他於1993年從坎普爾理工學院(IIT)獲得學士學位,於1996年從麻省理工學院獲得博士學位,並長期耕耘在數據挖掘領域。他發表了250多篇論文,撰寫了80多篇專利文獻,並編著和撰寫了14本著作,其中包括第一部完整從計算機科學角度撰寫的異常分析著作。由於他的專利具有很好的商用價值,IBM三次授予他“創新大師”稱號。另外,他在生物威脅探測方面的工作於2003年獲得IBM企業獎,在隱私技術方面的工作於2008年獲得IBM傑出創新獎,在數據流方面的工作於2009年獲得IBM傑出技術成就獎,在系統S中的貢獻於2008年獲得IBM研究部門獎。他的基於冷凝方法進行隱私保護下的數據挖掘方法獲得了EDBT會議於2014年頒發的“久經考驗”獎。

他曾擔任2014年IEEE大數據會議的聯席總主席,並從2004年至2008年擔任IEEE Transactions on Knowledge and Data Engineering(TKDE)的副主編。他目前是ACM Transac-tions on Knowledge Discovery from Data(TKDD)的副主編,Data Mining and Knowledge Dis-

covery(DMKD)的執行主編,ACM SIGKDD Explorations的主編,以及Knowledge and Information Systems(KAIS)的副主編。他同時還擔任由Springer出版的社交網絡系列叢刊(LNSN)的顧問委員會成員。他曾擔任過SIAM數據挖掘工作組的副主任。他由於對知識發現和數據挖掘算法的貢獻而當選為ACM會士和IEEE會士。

目次

目錄

Data Mining: The Textbook

出版者的話

譯者序

前言

第14章時間序列數據挖掘1

14.1 引言1

14.2 時間序列的前期準備和相似性度量2

14.2.1 缺失值處理2

14.2.2 噪聲去除3

14.2.3 歸一化4

14.2.4 數據轉換和約簡5

14.2.5 時間序列相似性度量6

14.3 時間序列預測7

14.3.1 自回歸模型9

14.3.2 自回歸移動平均模型10

14.3.3 帶有隱含變量的多元預測11

14.4 時間序列模體13

14.4.1 基於距離的模體14

14.4.2 轉換為序列模式挖掘15

14.4.3 週期模式16

14.5 時間序列聚類16

14.5.1 共同演化序列的在線聚類17

14.5.2 基於形狀的聚類19

14.6 時間序列異常檢測20

14.6.1 點異常21

14.6.2 形狀異常22

14.7 時間序列分類23

14.7.1 有監督事件檢測23

14.7.2 全時序分類26

14.8 小結27

14.9 文獻註釋27

14.10 練習題28

第15章離散序列挖掘29

15.1 引言29

15.2 序列模式挖掘30

15.2.1 頻繁模式到頻繁序列32

15.2.2 約束的序列模式挖掘34

15.3 序列聚類35

15.3.1 基於距離的方法36

15.3.2 基於圖的方法36

15.3.3 基於序列的聚類37

15.3.4 概率聚類37

15.4 序列中的異常檢測40

15.4.1 位置異常40

15.4.2 組合異常44

15.5 隱馬爾可夫模型45

15.5.1 HMM的正式定義47

15.5.2 評估:計算觀察序列的擬合概率48

15.5.3 說明:確定觀察序列的最優狀態序列49

15.5.4 訓練:鮑姆韋爾奇算法49

15.5.5 應用50

15.6 序列分類51

15.6.1 最近鄰分類器51

15.6.2 基於圖的方法51

15.6.3 基於規則的方法52

15.6.4 內核SVM52

15.6.5 概率方法:隱馬爾可夫模型54

15.7 小結54

15.8 文獻註釋55

15.9 練習題55

第16章空間數據挖掘57

16.1 引言57

16.2 上下文空間屬性的挖掘58

16.2.1 形狀到時間序列的轉換58

16.2.2 使用小波分析的空間數據到多維數據的轉換61

16.2.3 共址空間模式62

16.2.4 形狀聚類63

16.2.5 異常檢測64

16.2.6 形狀分類66

16.3 軌跡挖掘67

16.3.1 軌跡數據和多變量時間序列的等價性67

16.3.2 將軌跡轉換為多維數據68

16.3.3 軌跡模式挖掘68

16.3.4 軌跡聚類70

16.3.5 軌跡異常檢測72

16.3.6 軌跡分類73

16.4 小結74

16.5 文獻註釋74

16.6 練習題75

第17章圖數據挖掘76

17.1 引言76

17.2 圖匹配和距離計算77

17.2.1 同構子圖問題的Ullman算法79

17.2.2 最大公共子圖問題82

17.2.3 用於距離計算的圖匹配方法82

17.3 基於轉換的距離計算86

17.3.1 基於頻繁子結構的轉換和距離計算86

17.3.2 拓撲描述量87

17.3.3 基於內核的轉換和計算89

17.4 圖數據的頻繁子結構挖掘90

17.4.1 基於節點的連接92

17.4.2 基於邊的連接92

17.4.3 頻繁模式挖掘到圖模式挖掘93

17.5 圖聚類93

17.5.1 基於距離的方法94

17.5.2 基於頻繁子結構的方法94

17.6 圖分類96

17.6.1 基於距離的方法96

17.6.2 基於頻繁子結構的方法97

17.6.3 內核SVM98

17.7 小結98

17.8 文獻註釋99

17.9 練習題99

第18章挖掘Web數據101

18.1 引言101

18.2 Web爬取和資源發現102

18.2.1 基本爬蟲算法102

18.2.2 偏好爬蟲103

18.2.3 多線程104

18.2.4 爬蟲陷阱應對方法104

18.2.5 檢測近似重複的覆蓋104

18.3 搜索引擎索引和查詢處理105

18.4 排名算法107

18.4.1 PageRank107

18.4.2 HITS111

18.5 推薦系統112

18.5.1 基於內容的推薦114

18.5.2 協同過濾基於鄰域的方法115

18.5.3 基於圖的方法116

18.5.4 聚類方法117

18.5.5 潛在因素模型118

18.6 Web使用記錄的挖掘119

18.6.1 數據預處理120

18.6.2 應用120

18.7 小結121

18.8 文獻註釋121

18.9 練習題122

第19章社交網絡分析123

19.1 引言123

19.2 社交網絡:預備知識與特性124

19.2.1 同質性124

19.2.2 三元閉合和聚類係數124

19.2.3 網絡構成的動態性125

19.2.4 符合冪定律的度分佈126

19.2.5 中心度和聲望的度量126

19.3 社區發現129

19.3.1 Kernighan-Lin算法131

19.3.2 Girvan-Newman算法132

19.3.3 多層次的圖劃分:METIS135

19.3.4 譜聚類137

19.4 協同分類140

19.4.1 迭代分類算法141

19.4.2 隨機遊走方式的標籤傳播142

19.4.3 有監督的譜方法145

19.5 鏈接預測147

19.5.1 基於鄰域的度量148

19.5.2 Katz度量149

19.5.3 基於隨機遊走的度量150

19.5.4 鏈接預測作為分類問題150

19.5.5 鏈接預測作為缺失值估計問題150

19.5.6 討論151

19.6 社交影響分析151

19.6.1 線性閾值模型152

19.6.2 獨立級聯模型153

19.6.3 影響函數求值153

19.7 小結153

19.8 文獻註釋154

19.9 練習題155

第20章隱私保護數據挖掘157

20.1 引言157

20.2 數據採集期間的隱私保護158

20.2.1 重建聚合分佈158

20.2.2 利用聚合分佈來進行數據挖掘160

20.3 數據發布期間的隱私保護160

20.3.1 k匿名模型162

20.3.2 ?多樣性模型172

20.3.3 t相近性模型173

20.3.4 維度災難175

20.4 輸出隱私保護176

20.5 分佈式隱私保護177

20.6 小結178

20.7 文獻註釋178

20.8 練習題179

參考文獻181

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區