語音識別理論與實踐

-
【作 者】主編 莫宏偉
【I S B N 】978-7-5226-1902-6
【責任編輯】高輝
【適用讀者群】本科
【出版時間】2023-11-23
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】188
【千字數】257
【印 張】11.75
【定 價】¥42
【叢 書】普通高等教育人工智能專業系列教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
內 容 提 要
本書主要介紹語音識別原理及其相關應用。全書共9章,分為五大部分:第一部分(第1章)介紹語音識別的發展歷史和語音識別領域常用的數據集與工具箱;第二部分(第2章)介紹在語音識別領域常用的語音信號基礎知識和聲學特征的提取;第三部分(第3章至第7章)詳細介紹語音識別的聲學模型、語言模型、解碼工具,并對語音識別領域的研究熱點(端到端語音識別)進行探討;第四部分(第8章)利用語音識別開源工具包Kaldi進行語音識別實戰,包括Kaldi的安裝以及如何訓練aishell語音識別工程;第五部分(第9章)結合序列到序列的語音識別模型和序列到序列的問答模型來構建語音交互系統。
本書既可作為計算機科學與技術、電子科學與技術、控制工程與科學、智能科學與技術等專業的本科教材和研究生教材,也可供從事語音識別、人工智能等研究的科研人員參考。
精選內容 系統介紹語音識別原理及相關應用,突出研究熱點。
配合實戰 結合語音識別模式和問答模型構建語音交互系統,理論結合實踐。
配套資源 配有微課視頻,讀者可掃碼觀看學習。
前 言
隨著科技的發展和社會的進步,人工智能產品已經廣泛應用于各個領域,其中語音識別技術得到了廣泛應用。語音識別是一種將語音信號轉化為可識別的文本形式的技術,其研究領域包括聲音特征提取、語音識別、自然語言理解等多個方面。
語音識別技術在現代醫療中也得到了廣泛應用。醫療工作者需要對患者的語音信息進行分析,以便對病情進行診斷和治療。利用語音識別技術,可以快速準確地將語音信息轉換為文本,為醫護人員提供更高效、更便捷的工作方式。
通過搭建神經網絡和利用深度學習算法,人工智能系統可以對大量的語音信號進行訓練以獲得準確識別語音的能力。醫療工作者可以通過語音識別技術對患者的語音信息進行分析,以獲得關鍵的醫療數據。這種技術可以大大提高醫護人員的工作效率和診療質量。
在醫療領域,語音識別技術也被用于智能醫療助理、醫療記錄、藥品管理等方面。醫護人員可以通過語音命令快速地完成醫療記錄和藥品管理等任務,提高醫療工作的效率和準確性。
隨著語音技術的不斷提升,語音識別在機器人領域也逐漸開始發揮重要作用。將人工智能技術與語音識別技術相結合可以實現智能語音交互,使機器人能夠更好地理解人類語言,并且能夠進行語音指令的識別、理解和響應。這種技術不僅能夠提高機器人的使用體驗,還能夠降低用戶對使用機器人的技術門檻,同時能夠在一定程度上減少人類操作機器人的誤操作問題。
此外,利用語音識別技術還可以實現自然語言的語音合成,使機器人能夠通過語音向用戶提供反饋信息。這種技術不僅可以提高機器人的交互能力,而且可以增加機器人與人類之間的情感聯系。
本書是在作者近三年圍繞用于移動機器人的語音識別技術所開展的相關研究和開發工作基礎上編寫而成的,首先介紹了語音識別的發展歷史和語音識別領域常用數據集與工具箱;其次介紹了在語音識別領域常用的語音信號基礎知識和聲學特征的提取;隨后介紹了語音識別的聲學模型、語言模型、解碼工具,并對語音識別領域的研究熱點(端到端語音識別)進行探討;最后利用語音識別開源工具包Kaldi進行語音識別實戰,包括Kaldi的安裝以及如何訓練aishell語音識別工程,結合序列到序列的語音識別模型和序列到序列的問答模型來構建可用于移動機器人的語音交互系統。
本書在介紹主要知識和方法后提供了適量的習題,使讀者不僅能掌握一些初級的知識和方法,還能進一步掌握語音識別原理及相關技術,加深理解。
本書由莫宏偉任主編,徐立芳任副主編。感謝袁志龍、閆景運、周紅亮、郭子穎、溫峰、張圣胤、張茜、胡家家等同學在內容編寫和圖片繪制方面提供的協助。
由于編者水平所限,書中難免存在不妥甚至錯誤之處,懇請讀者批評指正。
編 者
2023年5月
前言
第1章 緒論 1
1.1 語音識別簡史 2
1.1.1 語音識別早期探索 2
1.1.2 概率模型一統江湖 2
1.1.3 神經網絡異軍突起 3
1.1.4 商業應用推波助瀾 5
1.2 國內發展現狀 6
1.3 語音識別框架 9
1.3.1 經典方法 9
1.3.2 概率模型 10
1.3.3 深度神經網絡—隱馬爾可夫(DNN-HMM)模型 12
1.3.4 端到端語音識別 12
1.4 開源工具與數據集 14
1.4.1 深度學習框架 14
1.4.2 開源工具 19
1.4.3 數據集 19
本章小結 19
課后習題 20
第2章 語音基礎知識 21
2.1 語音信號基礎 21
2.1.1 聲波的特性 22
2.1.2 聲音的采集裝置 22
2.1.3 聲音的采樣 24
2.1.4 聲音的量化 25
2.1.5 語音的編碼 26
2.2 聲學特征提取 29
2.2.1 預處理 29
2.2.2 傅里葉變換 30
2.2.3 聽覺特性 31
2.2.4 線性預測 32
2.2.5 倒譜分析 33
2.2.6 聲學特征 34
本章小結 36
課后習題 36
第3章 聲學模型 37
3.1 高斯混合模型 38
3.1.1 概率統計 38
3.1.2 高斯分布 39
3.1.3 GMM的組成和表示 40
3.2 隱馬爾可夫模型 43
3.2.1 隱馬爾可夫模型基本概念 43
3.2.2 隱馬爾可夫模型的定義 45
3.2.3 隱馬爾可夫模型的三個基本問題 46
3.3 高斯混合模型—隱馬爾可夫模型 52
3.4 基于隱馬爾可夫模型的語音識別 55
3.4.1 建模單元 55
3.4.2 發音過程與隱馬爾可夫模型狀態 57
3.4.3 串接隱馬爾可夫模型 58
本章小結 61
課后習題 61
第4章 語言模型 62
4.1 n-gram模型 64
4.2 評價指標 67
4.3 平滑技術 68
4.3.1 Good-Turing折扣法 68
4.3.2 Jelinek-Mercer插值法 69
4.3.3 Kneser-Ney插值法 69
4.3.4 Katz回退法 70
4.4 語言模型的訓練 72
4.5 預訓練語言模型 74
4.5.1 基于自回歸語言模型的預訓練技術 76
4.5.2 基于自編碼語言模型的預訓練技術 78
4.5.3 基于序列到序列語言模型的預訓練技術 79
4.5.4 基于前綴語言模型的預訓練技術 80
4.5.5 基于排列語言模型的預訓練技術 82
4.5.6 預訓練技術的改進方法 83
本章小結 84
課后習題 84
第5章 加權有限狀態解碼器 85
5.1 基于動態網絡的Viterbi解碼 86
5.2 加權有限狀態轉換器理論 89
5.2.1 基本概念 89
5.2.2 半環 93
5.3 HCLG構建 95
5.3.1 語料準備 95
5.3.2 構建語法模型 96
5.3.3 構建發音詞典模型 97
5.3.4 合并發音詞典與語法模型 99
5.3.5 構建上下文模型與發音詞典模型和語法模型 100
5.3.6 構建HCLG 100
本章小結 101
課后習題 102
第6章 深度神經網絡模型 103
6.1 深度學習 104
6.2 神經網絡 105
6.2.1 人腦神經網絡 105
6.2.2 人工神經網絡 107
6.2.3 神經網絡的發展歷史 107
6.2.4 深度神經網絡 109
6.3 正向學習過程 111
6.3.1 正向學習概述 112
6.3.2 正向傳播的流程 112
6.3.3 正向傳播的原理 113
6.4 反向調整過程 115
6.4.1 反向調整概述 115
6.4.2 反向傳播過程詳解 116
6.4.3 深層模型反向調整的問題與對策 117
6.5 神經網絡結構 118
6.5.1 卷積神經網絡 118
6.5.2 長短時記憶網絡 121
6.5.3 門控循環單元 123
6.5.4 時延神經網絡 123
本章小結 125
課后習題 125
第7章 端到端語音識別 126
7.1 CTC 127
7.2 RNN-T 130
7.3 Encoder-Decoder框架和Attention模型 131
7.4 Hybrid CTC/Attention 136
7.5 Transformer 137
本章小結 139
課后習題 139
第8章 Kaldi實戰 140
8.1 下載與安裝Kaldi 141
8.1.1 獲取源代碼 141
8.1.2 編譯 141
8.2 創建與配置基本的工程目錄 142
8.3 aishell語音識別工程 143
8.3.1 數據映射目錄準備 143
8.3.2 詞典準備和lang目錄生成 145
8.3.3 語言模型訓練 147
8.3.4 聲學特征提取與倒譜均值歸一化 148
8.3.5 聲學模型訓練與強制對齊 149
8.3.6 解碼測試與指標計算 151
本章小結 152
課后習題 153
第9章 語音交互系統 154
9.1 語音識別模塊 154
9.1.1 LAS 155
9.1.2 Transformer 156
9.1.3 數據分析 157
9.1.4 LAS模型對比實驗 159
9.1.5 Focal loss 161
9.2 基于序列到序列模型的問答系統 164
9.2.1 數據分析 164
9.2.2 詞向量 165
9.2.3 模型設計 166
9.2.4 實驗結果與分析 170
9.3 語音交互系統的構建 171
9.3.1 系統搭建 171
9.3.2 系統測試 173
本章小結 174
課后習題 175
參考文獻 176
附錄 課后習題答案 178
- 實用運籌學 [主編 邢育紅 于晉臣]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數學 [主編 郭立娟 王海]
- 武術基礎教程 [主編 李代勇 謝志民]
- 計算機網絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- 電工電子技術基礎 [主編 劉 軍 楊國龍 劉天成]
- MySQL數據庫項目式教程 [陳亞峰]
- 機械設計基礎(第二版) [主編 田亞平 李愛姣]
- 畫法幾何與機械制圖 [主編 趙軍]
- C語言程序設計習題與實驗指導(第二版) [主編 甄增榮 張賓]
- C語言程序設計(第二版) [主編 甄增榮 田云霞]
- Unity3D虛擬現實應用開發實踐 [主 編 劉龍]
- 智能化技術基礎(第三版) [鄧文達 李禮]
- 面向對象程序設計 [主編 張勇 張平華 趙小龍]
- 網絡營銷 [主編 夏薇薇 劉婷 尚潔]
- 電視節目策劃與制作(微課版) [主 編 黃滴滴]
- 數據庫技術與應用實踐教程(SQL Server 2019) [主 編 嚴暉 周肆清]
- 大學應用數學 [主編 郭立娟]
- 工業機器人拆裝與調試 [主編 胡月霞 向艷芳 朱奇]
- 功能材料制備與表征實驗指導書 [龔偉平 趙軍峰 梅海娟 等編著]
- 信號與系統(第二版) [主編 張宇]
- 信息技術基礎 [主編 唐倩 邵銳]
- Python 語言程序設計實踐指導 [主編 張雙獅]
- Photoshop 圖形圖像項目化教程 [主編 胡斌斌 黎婭 蘇大椿]
- 體育舞蹈教程 [主編 劉偉 陳志明 曾明]
- 線性代數導學篇 [主編 史昱]
- 信息技術基礎實訓與習題指導(Windows7+Office2016) [主編 周金容 唐天國]
- 大學生創新創業基礎 [主編 姜國權 姜福佳]