TOP
0
0
閱讀全壘打,夢想象前行,滿額再拿門票!
第四範式:數據密集型科學發現(簡體書)
滿額折

第四範式:數據密集型科學發現(簡體書)

商品資訊

人民幣定價:90 元
定價
:NT$ 540 元
優惠價
87470
絕版無法訂購
相關商品
商品簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

《第四範式:數據密集型科學發現》系統介紹了地球與環境科學、生命與健康科學、數字信息基礎設施和數字化學術信息交流等方面基於海量數據的科研活動、過程、方法和基礎設施,生動揭示了在海量數據和無處不在網絡上發展起來的與實驗科學、理論推演、計算機仿真這三種科研範式相輔相成的科學研究第四範式——數據密集型科學發現,進一步探討了這種新範式的內涵和內容,包括利用多樣化工具不間斷採集科研數據、建立系統化工具和設施來管理整個數據生命週期、開發基於科學研究問題的數據分析及可視化工具與方法等,並深入探討了這種新範式對科學研究、科學教育、學術信息交流及科學家群體的長遠影響。《第四範式:數據密集型科學發現》將幫助從事科學研究、科技研究規劃、科技政策等領域的科研人員和管理者理解和把握科研環境與科研方法的革命性變化,也將為學術出版、文獻情報、科學數據及其他從事信息與知識管理的人士提供未來的戰略視角,同時也有助於有志於科學研究和學術信息交流管理的高層次學生瞭解未來的挑戰和需求。

名人/編輯推薦

Tony Hey、Stewart Tansley、Kristin Tolle、潘教峰、張曉林等編譯的《第四范式:數據密集型科學發現》以吉姆·格雷提出科學研究第四范式的著名演講開篇,邀請國際著名科學家對數據密集型科學發現的理念、應用和影響進行了全面分析。第一部分,Dan Fay等人介紹了地球、環境、海洋、空間等領域的大數據環境與科學應用;第二部分,Simon Mercer等人分析了醫學、認知科學、生物系統、醫療服務等領域的數據密集型科學發現;第三部分,Daron Green等人提出了適應大數據時代的科學信息與科學計算基礎設施面臨的挑戰;第四部分,Lee Dirks等人對數據密集型科學發現給學術信息交流帶來的深刻變化做了描述。全書視野開闊、思考深邃,既把握大勢,又深入具體,為把握第四范式的要旨與含義提供了堅實的基礎。

目次

譯者的話前言吉姆·格雷論eScience:科學方法的一次革命第一章 地球與環境一、引言二、格雷法則:以數據庫為中心的科學計算三、正在興起的環境應用科學四、用數據重新定義生態科學五、海洋科學2020年遠景六、拉近夜空:海量數據中的發現七、裝備地球:下一代傳感器網絡與環境科學第二章 健康與幸福一、引言二、醫療奇點與語義醫學時代三、發展中國家的醫療服務:面臨的挑戰及可能的解決之道四、大腦神經回路圖譜探索五、用於神經生物學研究的計算顯微鏡六、數據密集型醫療保健的統一建模方法七、生物系統進程代數模型的可視化第三章 科學的基礎框架一、引言二、科學新路徑?三、超越數據海嘯:發展基礎設施,處理生命科學數據四、多核計算與科學發現五、並行計算和雲六、工作流工具對以數據為中心的研究的作用七、語義eScience:在下一代數字化推動的科學研究中實現語義編碼八、數據密集科學可視化九、所有知識的平臺:創建知識驅動的研究基礎設施第四章 學術信息交流一、引言二、吉姆·格雷的第四範式和科學記錄的構建三、以數據為中心的世界中的文本四、開船了:走向機器友好的學術信息交流體系五、數據政策的未來之路六、我已經看到了範式轉變,就是我們自己七、從Web2.0走向全球數據庫第五章 結語一、未來之路二、結論三、下一步四、致謝五、關於吉姆·格雷詞匯表照片和圖片鳴謝

書摘/試閱

大多數的科學數據分析以分級步驟進行。在第一步中,對數據子集進行抽取,這一工作要通過過濾某些屬性(如去除錯誤的數據)或抽取數據列的垂直子集完成。在接下來的步驟中,通常以某種方式轉換或聚合數據。當然,在更復雜的數據集中,這些模式往往伴隨著多個數據集的復雜連接,如外部校準或抽取和分析一個基因序列的不同部分[8]。隨著數據集的日益增大,進行大多數這些計算的最有效方法顯然是盡可能地使分析功能與數據密切結合,這也使大多數的模式很容易通過集合型的表述語言來表達,這種語言的運用可以從基于成本的查詢優化、自動并行化和索引中獲得巨大收益。
格雷及其合作者展示了幾個現有關系數據庫技術成功應用于這方面的項目[9]。有一些項目以無縫的方法來整合用程序語言編寫的復雜類庫,并將其作為底層數據庫引擎的擴展[10, 11]。
近年來,MapReduce2已經成為分布式數據分析和計算的普遍范式[12]。這種范式的原理類似于分布式分組和聚合的能力,這些能力已經在并行關系數據庫系統中存在了一段時間。新一代的并行數據庫系統,如Teradata 、Aster Data 和Vertica ,已經將這些能力重塑為“數據庫中的MapReduce”,并開發出可以比較每種方法優點的新基準[13]。
與科學家連接
設計科學數據庫面臨的最具挑戰性的問題是在數據庫建設者和對分析感興趣的專門領域科學家(domain scientists )之間建立起有效的交流。但大多數項目犯下了竭力追求“為所有人做所有事”(everything for everyone )的錯誤。顯然,有一些特征要比其他一些特征更重要。因此,有必要對不同設計進行折中,當然,這也導致性能的折中。
吉姆?格雷提出了“20個詢問”的啟發式規則。在他參與的每一個項目中,他都尋求研究人員想讓數據系統回答的最重要的20個問題。他認為,5個問題不足以識別廣泛的模式,100個問題將導致重點不突出。由于與人2 譯者注:MapReduce 是Google 開發的分布式計算模型,在處理T 級別以上巨量數據業務時有顯著優勢。
類選擇有關的大多數決定都遵循“長尾理論”(或所謂的1/f 分布),詢問中的相關信息根據重要性排序顯然是呈對數分布,大約在20(24.5)~100(26.5) 范圍內實現增益是適中的[14]。
“20個詢問”規則是一種設計步驟的別稱,這種步驟使專門領域科學家和數據庫設計者可以對話,填補科學領域中使用的名詞和動詞之間,以及數據庫中存儲的實體和關系之間的語義鴻溝。這些詢問定義了專門領域科學家期望對數據庫提出的有關實體和關系方面的精確問題集。這種重復實踐的結果是:專門領域科學家和數據庫之間可以使用共同的語言。
這種方法非常成功地使設計過程聚焦于系統必須支持的最重要特征,同時幫助專門領域科學家理解數據庫系統的折中,從而限制“特征的蠕變”。
另一個設計法則是從工作版本向工作版本的轉移。格雷非常清楚數據驅動的計算體系結構變化有多么迅速,尤其當它涉及分布式數據的時候。新的分布式計算范式每年都出現并發生變化,使其很難停留于多年的、自上而下的設計和實施周期中。當這樣一個項目完成之時,最初的假設已經變得過時。如果我們要建立一個只有在每個組件都正常發揮作用的情況下才能開始運行的系統,那么我們將永遠無法完成這個系統。
在這樣的背景下生存并取得進展的唯一方式就是構建模塊化系統。隨著潛在技術的發展,這些模塊化系統中的單一組件可以被代替,如今以服務為導向的體系結構是模塊化系統的很好范例。網絡服務已經經歷了幾個主要的發展階段,其發展的終點還無法預見。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 470
絕版無法訂購

暢銷榜

客服中心

收藏

會員專區