TOP
0
0
古典詩詞的女兒-葉嘉瑩
文本挖掘:基於R語言的整潔工具(簡體書)
滿額折
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)
文本挖掘:基於R語言的整潔工具(簡體書)

文本挖掘:基於R語言的整潔工具(簡體書)

商品資訊

人民幣定價:59 元
定價
:NT$ 354 元
優惠價
87308
缺貨無法訂購
商品簡介
作者簡介
目次
相關商品

商品簡介

全書共9章,主要介紹如何使用基於R的整潔工具來進行文本分析。首先介紹了整潔文本的格式,以及如何獲取整潔文本數據集;並通過tidytext中的情感數據集來進行情緒分析;接著介紹了如何根據tf-idf統計量來識別特定文檔中的重要單詞,以及如何利用n-gram來分析文本中的文字網絡;之後介紹了如何將整潔文本轉換為文檔詞項矩陣和Corpus對象格式,並給出了主題建模的概念;後通過整合多種已知的整潔文本挖掘方法,給出了一些研究案例,這些案例涉及Twitter歸檔文件、NASA數據集以及來自新聞組的即時通信信息。

作者簡介

責任者Silge規範漢譯姓: 斯拉格 ;責任者Robinson規範漢譯姓: 羅賓遜

目次

目錄
前言1
第1章 整潔文本格式7
比較整潔文本結構與其他數據結構8
unnest_tokens函數8
整理Jane Austen的作品10
gutenbergr包13
詞頻13
總結17
第2章 基於整潔數據的情感分析18
情感數據集18
內連接的情感分析21
比較三個情感詞典24
最常見的正面單詞和負面單詞26
Wordclouds模塊 28
除單詞外的其他文本單元30
總結32
第3章 分析詞和文件頻率:tf-idf33
Jane Austen小說中的詞項頻率34
Zipf定律35
bind_tf_idf函數38
物理學語料庫41
總結45
第4章 詞之間的關係:n-gram及相關性46
n-gram詞條化46
用widyr包對單詞對計數並計算相關性60
總結66
第5章 非整潔格式轉換67
使文檔–詞項矩陣整潔67
將整潔文本數據轉換為矩陣74
總結84
第6章 主題建模85
LDA 86
示例:博大的圖書館館藏91
LDA方法的替代實現 101
總結102
第7章 案例研究:Twitter歸檔文件比較103
單詞使用情況的比較107
單詞使用情況的變化109
收藏和轉發113
總結 117
第8章 案例研究:NASA元數據挖掘118
NASA如何組織數據118
共現單詞與相關單詞123
計算描述字段的tf-idf129
總結142
第9章 案例研究:分析Usenet文本143
預處理143
新聞組中的單詞146
情感分析151
總結159
參考文獻160

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 308
缺貨無法訂購

暢銷榜

客服中心

收藏

會員專區