自然語(yǔ)言處理
-
【作 者】主編 馮建周
【I S B N 】978-7-5226-0527-2
【責(zé)任編輯】石永峰
【適用讀者群】本專通用
【出版時(shí)間】2022-04-12
【開(kāi) 本】16開(kāi)
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁(yè) 數(shù)】256
【千字?jǐn)?shù)】409
【印 張】16
【定 價(jià)】¥48
【叢 書(shū)】普通高等教育人工智能專業(yè)系列教材
【備注信息】
簡(jiǎn)介
本書(shū)特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書(shū)
自然語(yǔ)言處理是人工智能的重要分支,本書(shū)是一本自然語(yǔ)言處理的入門(mén)教材,主要面向高年級(jí)本科生和低年級(jí)研究生。本著理論結(jié)合實(shí)踐的基本原則,本書(shū)共分為11章,其中第1章概述了自然語(yǔ)言處理的研究?jī)?nèi)容、發(fā)展歷程、技術(shù)特色和當(dāng)前現(xiàn)狀,是概述性的一章。第2章是自然語(yǔ)言處理的編程基礎(chǔ),對(duì)Python語(yǔ)言及其相關(guān)模塊進(jìn)行了介紹。第3章是自然語(yǔ)言處理的算法基礎(chǔ),主要對(duì)常見(jiàn)的機(jī)器學(xué)習(xí)算法(分類算法、聚類算法、概率圖模型、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等)進(jìn)行了講解。第4~5章從統(tǒng)計(jì)學(xué)方法入手講解了自然語(yǔ)言處理的兩個(gè)基礎(chǔ)任務(wù):分詞和關(guān)鍵詞抽取。第6章則講解了當(dāng)前流行的詞向量技術(shù),尤其是Word2vec和大規(guī)模預(yù)訓(xùn)練模型BERT。第7~11章分別對(duì)當(dāng)前自然語(yǔ)言處理的熱門(mén)研究領(lǐng)域展開(kāi)講解,包括文本分類、信息抽取、機(jī)器閱讀理解、文本生成和摘要抽取、對(duì)話和聊天系統(tǒng)等。
本書(shū)除了可以作為高等院校計(jì)算機(jī)、大數(shù)據(jù)和人工智能及其相關(guān)專業(yè)的本科生和研究生教材外,也可供對(duì)自然語(yǔ)言處理技術(shù)感興趣的研究人員和工程技術(shù)人員參考。
結(jié)構(gòu)合理
針對(duì)課程特點(diǎn)及學(xué)生學(xué)習(xí)需求安排結(jié)構(gòu),使理論與實(shí)踐相輔相成、緊密結(jié)合。
內(nèi)容新穎
聚焦當(dāng)前的研究熱點(diǎn),引入深度學(xué)習(xí)算法解決多種自然語(yǔ)言處理問(wèn)題。
資源豐富
配有微課視頻、提供相關(guān)代碼包,充分利用線上資源優(yōu)勢(shì),輔助知識(shí)理解。
自然語(yǔ)言處理是人工智能的重要分支,自然語(yǔ)言處理技術(shù)是體現(xiàn)人工智能技術(shù)發(fā)展程度的一個(gè)重要衡量尺度。伴隨著人工智能在幾十年間的幾度沉浮,自然語(yǔ)言處理技術(shù)的發(fā)展勢(shì)頭也同樣經(jīng)歷著多次的高潮與低谷。當(dāng)前,隨著新一代人工智能技術(shù)的蓬勃發(fā)展,自然語(yǔ)言處理技術(shù)也迎來(lái)了一個(gè)前所未有的發(fā)展高峰期,尤其在21世紀(jì)前后,統(tǒng)計(jì)學(xué)習(xí)方法被作為主要技術(shù)手段應(yīng)用在自然語(yǔ)言處理中,并在多個(gè)領(lǐng)域取得了革命性的進(jìn)步。進(jìn)入到21世紀(jì)的第二個(gè)十年以后,隨著對(duì)深度學(xué)習(xí)的研究,以及新型的詞向量技術(shù)的出現(xiàn),尤其是大規(guī)模自監(jiān)督預(yù)訓(xùn)練模型的出現(xiàn),自然語(yǔ)言處理技術(shù)在很多領(lǐng)域得到了快速發(fā)展,并逐漸進(jìn)入成熟的商業(yè)應(yīng)用,先后在智能搜索引擎、信息抽取、對(duì)話與聊天系統(tǒng)以及文本生成等領(lǐng)域進(jìn)入開(kāi)花落地階段。
隨著自然語(yǔ)言處理技術(shù)的快速發(fā)展,自然語(yǔ)言處理得到業(yè)界越來(lái)越多的關(guān)注,越來(lái)越多的相關(guān)書(shū)籍紛紛問(wèn)世,從筆者的角度來(lái)看,這些書(shū)籍可根據(jù)面向的人群分為兩類:一類是面向行業(yè)從業(yè)人員,這類書(shū)籍更加注重實(shí)踐環(huán)節(jié),對(duì)理論著筆比重較低;另一類是面向研究生以上學(xué)歷的學(xué)習(xí)者,這類書(shū)籍更加偏重理論部分的講解,對(duì)實(shí)踐環(huán)節(jié)著墨較少。筆者認(rèn)為,隨著自然語(yǔ)言處理技術(shù)的快速普及,也可以開(kāi)設(shè)面向高年級(jí)本科生和低年級(jí)研究生的相關(guān)課程,而面向這類人群的教材應(yīng)該做到理論和實(shí)踐并重,同時(shí)理論部分又需要適當(dāng)精簡(jiǎn),做到深入淺出;而實(shí)踐部分則需要緊扣理論,以驗(yàn)證性實(shí)踐項(xiàng)目為主,不宜過(guò)于復(fù)雜,通過(guò)恰當(dāng)?shù)陌咐寣W(xué)生加深對(duì)理論的理解,同時(shí)培養(yǎng)學(xué)生的實(shí)踐動(dòng)手能力。從這個(gè)角度出發(fā),筆者開(kāi)始醞釀并編寫(xiě)這樣一本教材。
本書(shū)從四個(gè)層面介紹自然語(yǔ)言處理技術(shù),首先對(duì)自然語(yǔ)言處理技術(shù)的發(fā)展歷程、技術(shù)特點(diǎn)以及當(dāng)前的研究現(xiàn)狀進(jìn)行概述。第二個(gè)層面主要是講述自然語(yǔ)言處理技術(shù)的兩個(gè)基礎(chǔ):編程基礎(chǔ)和算法基礎(chǔ)。在第2章講解了自然語(yǔ)言處理技術(shù)的編程基礎(chǔ),由于當(dāng)前Python語(yǔ)言已經(jīng)成為自然語(yǔ)言處理技術(shù)的主流編程語(yǔ)言,因此在這一章主要對(duì)Python的語(yǔ)法特點(diǎn)和自然語(yǔ)言處理技術(shù)中常用的相關(guān)模塊進(jìn)行了講解,對(duì)于不了解Python編程語(yǔ)言的學(xué)生,可以利用這一章補(bǔ)齊短板;對(duì)于已經(jīng)具備編程基礎(chǔ)的學(xué)生,則可以直接跳過(guò)。第3章系統(tǒng)介紹了自然語(yǔ)言處理技術(shù)的算法基礎(chǔ),包含常用的機(jī)器學(xué)習(xí)算法,例如分類算法、聚類算法、人工神經(jīng)網(wǎng)絡(luò)模型等。對(duì)于沒(méi)有算法基礎(chǔ)的學(xué)生來(lái)講,這一章可以很好地補(bǔ)充基礎(chǔ)算法知識(shí),為下面進(jìn)入自然語(yǔ)言處理相關(guān)領(lǐng)域奠定算法基礎(chǔ)。對(duì)于已經(jīng)掌握了這些基礎(chǔ)算法的學(xué)生來(lái)講,則可以直接跳過(guò)此章。第三個(gè)層面主要講解了基于統(tǒng)計(jì)學(xué)習(xí)方法的自然語(yǔ)言處理技術(shù)的一些基礎(chǔ)任務(wù),例如分詞技術(shù)、關(guān)鍵詞抽取技術(shù)等。第四個(gè)層面則是從詞向量模型開(kāi)始講起,從Word2vec到大規(guī)模預(yù)訓(xùn)練模型BERT,以及在此基礎(chǔ)上結(jié)合最新的深度學(xué)習(xí)算法的自然語(yǔ)言處理研究領(lǐng)域,例如文本分類技術(shù)、信息抽取技術(shù)、機(jī)器閱讀理解技術(shù)、文本生成和摘要抽取技術(shù)以及對(duì)話和聊天系統(tǒng)等。本書(shū)相關(guān)代碼詳見(jiàn)https://github.com/nlpresearchers/nlpbook。
在本書(shū)的籌備和編寫(xiě)過(guò)程中,馮建周負(fù)責(zé)全書(shū)的結(jié)構(gòu)設(shè)計(jì)和統(tǒng)稿審校工作,具體章節(jié)負(fù)責(zé)人如下:第1章由馮建周編寫(xiě),第2章由王文龍編寫(xiě),第3章由于浩洋編寫(xiě),第4~6章由余揚(yáng)和王琴編寫(xiě),第7章由馮建周和徐甘霖編寫(xiě),第8章由馮建周、崔金滿和魏?jiǎn)P編寫(xiě),第9章由魏永輝和劉鎖陣編寫(xiě),第10章由魏永輝和任重燦編寫(xiě),第11章由魏永輝和龍景編寫(xiě)。
由于編寫(xiě)時(shí)間倉(cāng)促和編者水平限制,書(shū)中難免存在錯(cuò)誤、疏漏之處,望讀者包涵,批評(píng)指正。
第1章 自然語(yǔ)言處理概述 1
1.1 自然語(yǔ)言處理的定義 1
1.2 自然語(yǔ)言處理的應(yīng)用領(lǐng)域 1
1.3 自然語(yǔ)言處理的發(fā)展歷程 4
1.4 自然語(yǔ)言處理的研究現(xiàn)狀和發(fā)展趨勢(shì) 5
1.5 自然語(yǔ)言處理的知識(shí)和技術(shù)儲(chǔ)備 6
本章小結(jié) 7
第2章 自然語(yǔ)言處理編程基礎(chǔ) 8
2.1 Python基礎(chǔ) 8
2.1.1 Python語(yǔ)言概述 8
2.1.2 Python基礎(chǔ)知識(shí) 9
2.2 NumPy和Pandas的使用 15
2.2.1 NumPy的使用 16
2.2.2 Pandas的使用 20
2.3 深度學(xué)習(xí)框架PyTorch 27
2.3.1 PyTorch簡(jiǎn)介及環(huán)境搭建 27
2.3.2 PyTorch入門(mén) 28
本章小結(jié) 34
第3章 機(jī)器學(xué)習(xí)算法基礎(chǔ) 35
3.1 分類算法 35
3.1.1 樸素貝葉斯模型 35
3.1.2 決策樹(shù)模型 37
3.1.3 支持向量機(jī)模型 38
3.1.4 邏輯回歸模型 39
3.2 聚類算法 41
3.2.1 原型聚類 41
3.2.2 密度聚類 42
3.2.3 層次聚類 43
3.3 模型評(píng)估與選擇 44
3.3.1 經(jīng)驗(yàn)誤差與過(guò)擬合 44
3.3.2 評(píng)估方法 45
3.3.3 性能度量 47
3.4 概率圖模型 49
3.4.1 隱馬爾可夫模型(HMM) 49
3.4.2 條件隨機(jī)場(chǎng)模型 50
3.4.3 LDA模型 53
3.5 集成學(xué)習(xí) 53
3.5.1 個(gè)體與集成 53
3.5.2 XGboost模型 54
3.5.3 Bagging和隨機(jī)森林 55
3.6 人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí) 55
3.6.1 人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)概述 55
3.6.2 BP神經(jīng)網(wǎng)絡(luò) 56
3.6.3 卷積神經(jīng)網(wǎng)絡(luò)(CNN) 58
3.6.4 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與LSTM 59
本章小結(jié) 61
第4章 中文分詞 62
4.1 基于詞表的分詞算法 62
4.1.1 正向最大匹配算法 63
4.1.2 逆向最大匹配算法 63
4.1.3 雙向最大匹配算法 64
4.1.4 案例實(shí)現(xiàn) 65
4.2 基于統(tǒng)計(jì)模型的分詞算法 68
4.2.1 N-gram模型 69
4.2.2 基于N-gram模型的分詞算法 69
4.2.3 案例實(shí)現(xiàn) 70
4.3 基于序列標(biāo)注的分詞算法 74
4.3.1 序列標(biāo)注下的隱馬爾可夫模型 74
4.3.2 基于隱馬爾可夫模型進(jìn)行中文分詞 75
4.3.3 維特比(Viterbi)算法 76
4.3.4 其他基于序列標(biāo)注的分詞算法 77
4.3.5 案例實(shí)現(xiàn) 77
4.4 中文分詞工具 80
4.4.1 常見(jiàn)的中文分詞工具 80
4.4.2 Jieba分詞 80
4.4.3 案例實(shí)現(xiàn) 82
本章小結(jié) 83
第5章 關(guān)鍵詞提取 84
5.1 TextRank關(guān)鍵詞提取算法 85
5.1.1 PageRank算法 85
5.1.2 TextRank算法 86
5.1.3 案例實(shí)現(xiàn) 87
5.2 TF-IDF關(guān)鍵詞提取算法 89
5.2.1 評(píng)估詞的重要性的常見(jiàn)指標(biāo) 90
5.2.2 TF-IDF算法 90
5.2.3 案例實(shí)現(xiàn) 92
本章小結(jié) 95
第6章 詞向量技術(shù) 96
6.1 詞向量技術(shù)發(fā)展歷程 96
6.1.1 詞向量概述 96
6.1.2 詞向量的發(fā)展歷程 96
6.2 Word2vec 107
6.2.1 Word2vec的基本原理 107
6.2.2 Word2vec的兩種訓(xùn)練模型 107
6.2.3 Word2vec的兩種優(yōu)化方法 110
6.2.4 案例實(shí)現(xiàn) 111
6.3 注意力機(jī)制 112
6.3.1 Encoder-Decoder框架 112
6.3.2 注意力機(jī)制概述 113
6.3.3 注意力機(jī)制的發(fā)展 116
6.4 BERT預(yù)訓(xùn)練模型 118
6.4.1 Transformer模型 118
6.4.2 BERT模型 121
6.4.3 案例實(shí)現(xiàn) 125
本章小結(jié) 126
第7章 文本分類 127
7.1 文本分類概述 127
7.2 基于樸素貝葉斯的文本分類方法 128
7.2.1 基于樸素貝葉斯算法的文本分類流程 128
7.2.2 案例實(shí)現(xiàn) 129
7.3 基于深度學(xué)習(xí)的文本分類 131
7.3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類 131
7.3.2 案例實(shí)現(xiàn) 131
7.4 開(kāi)放領(lǐng)域文本分類 134
7.4.1 開(kāi)放領(lǐng)域文本分類簡(jiǎn)介 134
7.4.2 案例實(shí)現(xiàn) 135
本章小結(jié) 139
第8章 文本信息抽取 140
8.1 命名實(shí)體識(shí)別 140
8.1.1 命名實(shí)體識(shí)別概述 140
8.1.2 基于LSTM的命名實(shí)體識(shí)別 142
8.1.3 細(xì)粒度命名實(shí)體識(shí)別 146
8.2 實(shí)體關(guān)系抽取 151
8.2.1 關(guān)系抽取概述 151
8.2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取算法 152
8.2.3 實(shí)體關(guān)系的聯(lián)合抽取算法 156
8.3 事件抽取 162
8.3.1 事件抽取概述 162
8.3.2 事件檢測(cè) 163
8.3.3 事件元素抽取 168
本章小結(jié) 174
第9章 機(jī)器閱讀理解 175
9.1 機(jī)器閱讀理解概述 175
9.2 抽取式閱讀理解 177
9.2.1 抽取式閱讀理解概述 177
9.2.2 基于BiDAF的抽取式閱讀理解案例 178
9.2.3 基于預(yù)訓(xùn)練模型的抽取式閱讀理解 181
9.3 選擇式閱讀理解 183
9.3.1 選擇式閱讀理解概述 183
9.3.2 基于Co-Match的選擇式閱讀理解案例 184
9.3.3 基于預(yù)訓(xùn)練模型的選擇式閱讀理解 187
本章小結(jié) 188
第10章 文本生成與文本摘要 190
10.1 文本生成與文本摘要概述 190
10.2 抽取式文本摘要 192
10.2.1 傳統(tǒng)方法 193
10.2.2 基于RNN的抽取式文本摘要 194
10.2.3 基于預(yù)訓(xùn)練模型的抽取式文本摘要 195
10.3 生成式文本摘要 196
10.3.1 早期的Seq2Seq模型 197
10.3.2 Seq2Seq+Attention模型 197
10.3.3 指針生成網(wǎng)絡(luò) 198
10.3.4 預(yù)訓(xùn)練模型+微調(diào) 199
10.4 文本摘要案例 201
10.4.1 文本摘要常用數(shù)據(jù)集 201
10.4.2 使用TextRank進(jìn)行簡(jiǎn)單的抽取式摘要 201
10.4.3 使用預(yù)訓(xùn)練模型進(jìn)行文本摘要 203
本章小結(jié) 205
第11章 對(duì)話系統(tǒng) 206
11.1 任務(wù)型對(duì)話系統(tǒng) 206
11.1.1 模塊化方法 206
11.1.2 自然語(yǔ)言理解(NLU) 207
11.1.3 對(duì)話狀態(tài)跟蹤(DST) 210
11.1.4 對(duì)話策略學(xué)習(xí)(DPL) 211
11.1.5 自然語(yǔ)言生成(NLG) 212
11.2 閑聊對(duì)話系統(tǒng) 213
11.2.1 檢索式對(duì)話系統(tǒng) 214
11.2.2 粗排模型 215
11.2.3 精排模型 216
11.2.4 檢索式對(duì)話系統(tǒng)實(shí)現(xiàn) 218
11.3 基于PyTorch框架的對(duì)話系統(tǒng)實(shí)戰(zhàn) 221
11.3.1 數(shù)據(jù)準(zhǔn)備和模塊加載 222
11.3.2 加載和預(yù)處理數(shù)據(jù) 223
11.3.3 創(chuàng)建詞典 226
11.3.4 為模型準(zhǔn)備數(shù)據(jù) 229
11.3.5 定義模型 231
11.3.6 定義訓(xùn)練步驟 235
11.3.7 訓(xùn)練迭代 235
11.3.8 評(píng)估定義 237
11.3.9 評(píng)估文本 238
11.3.10 運(yùn)行模型 239
11.3.11 模型訓(xùn)練 240
11.3.12 運(yùn)行評(píng)估 241
本章小結(jié) 242
參考文獻(xiàn) 243
-
理工類基礎(chǔ)課
計(jì)算機(jī)公共基礎(chǔ)課
計(jì)算機(jī)專業(yè)課
程序設(shè)計(jì)類
計(jì)算機(jī)網(wǎng)絡(luò)與通信
數(shù)據(jù)庫(kù)技術(shù)
多媒體技術(shù)
計(jì)算機(jī)硬件技術(shù)
計(jì)算機(jī)輔助設(shè)計(jì)與繪圖
圖形圖像與動(dòng)畫(huà)制作
電子商務(wù)、物流、信息管理
測(cè)控技術(shù)與自動(dòng)化
電子信息與通信
電腦美術(shù)及動(dòng)漫設(shè)計(jì)
外語(yǔ)類
其他類
汽車運(yùn)用與維修
- 生活經(jīng)管more>>