TOP
0
0
2025新年快樂!買書領券省荷包
語音識別:模式、算法設計與實踐(簡體書)
滿額折

語音識別:模式、算法設計與實踐(簡體書)

商品資訊

人民幣定價:99 元
定價
:NT$ 594 元
優惠價
87517
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點:15 點
商品簡介
作者簡介
名人/編輯推薦
相關商品

商品簡介

隨著深度學技術和計算機硬件設備的發展,作為自然語言處理領域重要課題的語音識別技術發展迅速,部分應用開始落地,實踐流程也日漸成熟。 本書凝聚作者多年實踐心得和經驗,力求用抽絲剝繭的方式幫讀者梳理出語音識別的學與提升之路,涉及語音識別發展脈絡、知識地圖、模式識別、核心算法和實踐案例,最終形成“基礎知識—算法理論—實踐”的完整閉環,旨在幫助剛入行的語音識別從業人員梳理知識框架,熟悉開發流程,積累實踐經驗。

作者簡介

董雪燕,北京聯合大學講師,澳大利亞昆士蘭科技大學計算機科學博士,主要研究領域為語音識別,以第一作者身份發表數十篇SCI,EI英文文章,國內核心期刊文章2篇;回國後參加設計和編寫多個自然語言處理(偏重於語音識別模塊)的實踐項目。

名人/編輯推薦

(1)理論與實踐相結合讀者不僅可以看到理論模型的設計思想 ,還可以通過代碼實踐加深對算法的理解 , 更可以看到算法是如何去解決具體的語音識別問題的。
(2)語言有親和力在不失嚴謹的前提下 ,增加文字表達的活潑度和內容表達的圖形化展示程度,保證讀者能夠 一步 一步地深入理解 , 而不是僅僅停留在數學公式的簡單介紹層面。
(3)分享作者多年的經驗 ,讓內容“有血有肉”在書中適當位置嵌入過來人的思考和經驗,一 來讓讀者避坑 , 二 來提供 一 些問題的解決思路。
(4)案例豐富本書融入了多個案例 , 目的是展示算法是如何解決實際問題的 。 同時 ,橫向算法的比較也很必要 ,這樣能幫助讀者透徹理解不同算法的優缺點。

說起人工智能 ,大家都不會感到陌生 ,科學家 一直在致力於讓計算機能夠像人類 一 樣處理各類信息 ,並且能夠做出合理的決策 ,最終讓計算機與人類 一樣無差別的工作和 交流 。最初 ,借鑒仿生學的思想 ,人們希望打造出的智能計算機 ,是能夠像人 一樣具有眼 睛看到事物 ,擁有耳朵聽到聲音 ,具有發聲器官可以說話 ,還要學會閱讀並書寫文字 ,未 來還能“ 長”出鼻子聞到氣味 。總之 , 只要能夠發明出收集所有信息的傳感器 ,通過數字 化的處理和強大的算法分析能力 , 理論上是可以讓計算機做到和人類 一 樣智能化的。 當然更理想的是“ 超越人類”,這需要發揮計算機擅長的大規模運算能力和算法的客觀 化分析能力 ,避免人類由於體力不支和主觀情感造成的失誤 ,最終計算機工作的效率 一 定會比人類高出很多倍 ,從而解放許多從事重復性工作的勞動力 ,讓人們有更多時間去 享受生活。
目前來看 ,這仍然是 一種理想化目標 , 雖然每年都有大批科技創新者投入人工智能 的相關研究 ,也取得了不錯的進展 。但是某些社會學家和人文學家對人工智能提出質 疑 ,並擔心計算機會取代人類 ,扼殺人類的文化 。無論怎樣 , 有討論總是好的 ,科技是需 要發展的 , 因為新技術能解決許多問題 , 當然我們更希望計算機是為人類服務的 。 因此 , 對人工智能的發展 ,我們應該努力讓它更好 , 同時保持敬畏之心 , 不讓它偏離為人類服 務的總目標。
語音識別屬於人工智能中 一個十分重要的課題 ,終極目標是讓計算機與人類能夠 通過 口語“ 溝通”,讓計算機聽懂我們說的話 。從技術上說 ,研究語音識別算法是為了實 現“ 計算機準確地將人類發出的語音翻譯成文字”,這看上去是 一項並不複雜的任務 , 然 而 , 由於口語表達的個性化和說話場景的複雜化 , 比如方言、說話人的個性特徵 , 以及嘈 雜環境下的口語交流等因素 ,導致計算機接收到的信息是十分複雜的 ,這無疑增加了語 音識別的難度。
從學科發展來看 ,語音識別是 一個典型的綜合性學科 , 涉及語音學、數字信號處理、 模式識別和人工智能等諸多學科 。每 一個學科的學習都具有 一 定的難度 ,這是讓許多 初學者對語音識別望而卻步的 一個主要原因 。另外 ,從數據驅動為主的算法研究來看 , 公共的語音識別的數據量是較小的 , 尤其是與圖像識別研究中的公共數據集相比更是 少得可憐 ,這也讓許多從業者和研究人員再次打起退堂鼓 , 畢竟數據收集的成本是很高 的 ,不僅要滿足數據個體化的多樣性 ,還要滿足大體量的要求 ; 同時 , 高昂的人工標注成 本也是讓許多研究者不敢涉足的主要原因。
不過我們也要看到 ,語音識別經過了多年的發展 , 隨著深度學習技術和計算機硬件設備的發展 ,其發展速度十分迅猛 ,在實際生活中已經得到了廣泛應用 。現在生活中隨 處可見語音識別的應用 , 比如微信中的語音轉文字 , 以及 一 些語音輸入法的工 具 , 甚至 一 些大型的網站也為發表評論的用戶提供了語音轉文字的輸入方式 。可喜的是 ,在發 音清晰的情況下 , 目前的技術可以做到與人類匹敵的水平 ,但是在 一 些對安全性和及時 性要求很高的場景下 ,語音識別仍然不是完美的 , 比如嘈雜環境、多人交談環境等 ,仍舊 無法與人類的水平相適應 。 因此 ,還需要更多人投身到語音識別的研究中 , 不斷克服困 難 ,讓計算機能夠更懂人類的 口語 ,從而提供更好的服務。
本書的寫作初衷是希望鼓勵更多人加入語音識別研究的隊伍中 , 以幫助語音識別 技術發展得更好。
本書特色
(1)理論與實踐相結合
對語音識別領域中的重要算法做了詳細說明 , 並輔以代碼實踐 , 幫助讀者更好地理 解 。本書不是只講理論 ,而是讓理論與實踐相結合 ,讀者不僅可以看到理論模型的設計 思想 ,更重要的是可以通過代碼實踐 , 加深對算法的理解 , 同時可以看到算法是如何去 解決具體的語音識別問題的。
(2)語言有親和力
站在讀者的角度 ,本書對算法中的理論給出更具親和力的講解方式 ,在不失嚴謹的 前提下 ,保證讀者能夠更好地理解算法本身 。作者不惜長篇文字介紹 , 目的是搭建一個個小梯子 ,保證讀者能夠一步 一步地深入理解 , 而不是僅僅停留在數學公式的簡單介紹 層面 ,在必要的時候也有 一 些圖形化的展示 , 這 一 切都是為了保證內容不枯燥且易於 理解。
(3)分享作者多年的經驗 ,讓內容“有血有肉”
根據筆者的經驗,一 些初學者在剛接觸語音識別技術時 , 因過於糾結一個小問題不 知如何下手 ,導致無法繼續進行 。筆者從事語音識別研究多年,有一些個人見解 ,在書中適當位置 ,以過來人的思考和經驗分享出來,一來讓讀者避坑,二來也提供一些問題的解決思路 ,這對於初學者在學習中遇到“ 攔路虎”時將大有幫助。
(4)案例豐富
算法的理解是為了解決問題 ,如果只停留在單個算法的理論學習層面 , 顯然無法發 揮學習真正的價值 。 因此 ,本書融入了多個案例 ,目的是展示算法是如何解決實際問題的 。 同時 ,橫向算法的比較也很必要 ,這樣能幫助讀者透徹理解不同算法的優缺點 ,從而更好地選擇對自己有用的算法 ,形成科學的實驗思維。
本書內容
概括來看 ,本書的內容主要分為四個部分 ,詳細如下 :
第一部分為語音識別概述( 第 1 章) 。在了解 一個研究領域之前,先從整體上把握 這個領域的全貌是十分必要的。對語音識別的發展脈絡給出詳盡的闡述,這對剛進入 語音識別研究的讀者大有裨益,也可為已經從事語音識別工作的人員提供一份知識地圖,可以隨時從中選取感興趣的內容。
第二部分為學習語音識別應該了解的基礎知識( 第 2-5 章)。如開篇所講 ,語音識 別涉及多個學科 ,要想真正理解並從事相關研究 , 必須要掌握這些基本的知識。因此 ,第2-4章以語音識別涉及的數學理論基礎、模式識別理論、語音信號的背景知識為脈絡,向讀者揭示重要的基礎知識。第5章是關於代碼實踐的準備章節,因為本書主打算法的實踐講解,因此 ,提前搭建好相關的Python編程環境,並做好代碼實踐準備是十分必 要的。
第三部分為語音識別系統中核心算法的梳理( 第 6-9 章) 。語音識別系統的實現 中是有一個公認的處理框架的 ,在框架中的每一個階段都有一套核心的算法,即數據預處理、特徵提取和分類,因此 ,本部分內容就是在圍繞這些核心算法展開闡述 , 並輔以實 踐代碼。
第四部分為兩個語音識別系統的具體案例( 第 10 -11 章)。基於上一部分算法的闡述 ,本書最後兩章綜合案例的重點是告訴讀者算法是如何應用到一個具體的語音識別問題中的,這樣有助於讀者理解算法的實踐應用。最終形成“基礎知識—算法理論—實踐”的完整閉環。
為讀者制定的學習路徑和職業規劃
(1)語音識別的學習者
如果你是本科生或者在讀研究生 ,希望選擇語音識別作為自己的研究方向 ,那麼建 議你將語音識別所涉及的基礎學科知識先理清楚 , 畢竟想要深入研究一門學問 ,打好基礎是十分重要的 。如果想要鎖定語音識別領域中 一個感興趣的問題 , 可以參考頂級會 議的論文進展和學術圈的發展動態 。例如對某一類算法或應用感興趣 , 那麼圍繞該問題 ,找到已有的算法實現,不斷實驗和試錯,並提出更好的改進算法 ,應用於特定數據 ,最 終橫向對比已有的算法 , 如果你的算法取得的效果比別人的好 , 那麼恭喜你 , 一篇學術論文就此誕生了 ,研究之路也就隨之展開。
(2)語音識別的從業者
如果你在某公司或科研機構任職 ,恰好有發展語音識別的業務需要 ,那麼本書也可 以作為你的學習參考資料 。建議快速瀏覽開篇的語音識別概述,然後迅速梳理一下中間的基礎知識點 ,找到自己的知識盲區 , 然後針對一個具體問題,去尋找可能的解決方案 ,哪裡缺就專攻哪裡,因為你的時間有限且目標明確,所以沒有必要把所有基礎知識都學習一遍。畢竟工作中更看重的是效率和解決當下的問題 ,時間和成本都是寶貴的 , 沒有太多時間去試錯。
(3)對語音識別感興趣的讀者
如果你只是正好路過 , 聽聞語音識別很火 ,想要進來 一探究竟 ,看看是什麼情況 。那 麼建議你從本書的第 1 章看起 ,先對語音識別的發展有個大致了解 ,再去重點看看最後 的實踐環節 ,看看自己對語音識別是否真的感興趣 , 興趣若深厚到想要從事相關方面的 研究和工作 ,那麼建議再去學習前面的理論基礎和重要算法 , 然後不斷探索 , 能在一個方向努力做下去 ,會取得不錯的進展。
寫作心路歷程
本書的寫作之路並非一帆風順 ,從最初框架的設定到每一篇章的謀篇布局 ,都經過了至少三次以上的改動 ,歷經大概兩年的時間 ,才完稿成型 ,直到呈現出今天的樣子。這兩年間最深刻且讓人抓狂的事情大概有三件。
第一,Python 版本和算法中需要用到的框架和庫之間的衝突。本書的所有代碼都是 採用Python編碼實現的 ,考慮到目前很多算法都有Python 框架的支持 ,Python實踐是一個最佳選擇 。但是這個選擇在真正寫作書中的案例時 ,卻讓筆者感受到極大的痛苦。因 為不同章節中的算法對於 Python支持的版本是不一樣的 ,有的需要Python3.7 , 有的則 是高於Python3.9 版本就不支持 ,於是中間需要多次卸載Python環境 ,又重新安裝所需 的 Python 版本 。而卸載的過程一不小心 ,可能導致依賴的其他包需要重新安裝 ,甚至是 Anaconda 環境或 Jupyter 編譯內核的刪除與安裝 。這些過程極其考驗一個人的耐心 , 不僅耗時且容易讓人感到十分沮喪。
第二,基於Python 的深度學習模型的訓練對個人計算機或含有GPU的服務器是一個考驗 。在運行深度學習算法時 ,筆者的個人計算機配置在Windows系統中算是比較高的 ,但是仍然在最後一章深度學習算法實踐中遇到了計算機崩潰的一刻 。這也是深度 學習算法必然要經歷的過程 ,原因可能是梯度爆炸導致計算量過大,於是導致云服務器上的GPU集群或實驗室中共享的深度學習服務器 ,在模型訓練過程中斷或耗時過長 , 導 致整個訓練不得不重新來過 。然後再局部調整代碼 , 重新開啟一輪訓練 ,這時筆者往往心中暗自祈求別再出問題。
第三,寫作 一本關於語音識別算法的書籍並不容易 , 因為語音識別涉及的學科眾 多 ,如何更合理地將不同內容展開介紹需要花很多心思 。好在筆者在讀博期間就堅定了好東西是改出來的信念 , 所以就堅信 一遍遍完善 , 總能有些新思路 , 也總會比前一個 版本更好 一 些。
最後 ,這些難熬的過程都走完之後,回頭看 ,發現原來筆者也成長了, 畢竟這也算是一次新的學習過程,無論是溫故,還是新內容的學習 ,都是一次又一次的挑戰,最終都將成為筆者寶貴的經驗。
源代碼與數據集下載包
為方便讀者學習 ,筆者把書中的源代碼和數據集整理打包相贈。
勘誤和鳴謝
結合多年的教學和科研經驗,筆者力圖做到用簡潔的語言揭示深奧的算法原理。但受限於自身的水平 ,難免存在個人理解上的偏差,或者文字表達上的錯誤 ,還望得到廣大讀者的批評指正 ,筆者將虛心接受您的建議 ,使其日臻完善。
最後 ,要感謝中國鐵道出版社有限公司所有編輯在本書出版過程中的辛勤付出。 還要感謝家人在我寫作期間給予的生活方面的照顧,沒有他們的支持與理解 ,本書不可能在今年完稿。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 517
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區