搜索引擎與信息檢索教程
-
【作 者】袁津生 趙傳剛 等編著
【I S B N 】978-7-5084-5394-1
【責任編輯】王艷燕
【適用讀者群】本科
【出版時間】2008-04-01
【開 本】16開本
【裝幀信息】平裝(光膜)
【版 次】2008年04月第1版
【頁 數】288
【千字數】
【印 張】
【定 價】¥28
【叢 書】21世紀高等學校精品教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
隨著搜索引擎技術的發展和不斷完善,越來越多的人開始對搜索引擎原理和技術進行研究,越來越多的人喜歡上了搜索引擎。
本書從教學的角度出發,全面地闡述了搜索引擎的技術和信息檢索技術,包括:搜索引擎的基本原理與技術、搜索引擎的數據結構和搜索引擎的爬蟲、信息獲取與信息檢索技術、分類與聚類技術以及Web信息檢索技術。
本書適合高等院校計算機科學與技術專業及相關專業的高年級學生和研究生閱讀參考,也適合相關領域的工程技術人員參閱。
網絡的發展徹底改變了我們的生活和工作方式,它讓我們在更容易獲取信息的同時,也將自己拋棄在無邊無際的信息海洋之中。每時每刻我們都要自覺或不自覺,被動或主動地面對數十億網頁的網絡信息,想找到自己需要的信息簡直就是“大海撈針”。那么在巨大的網絡信息世界里,怎樣才能找到需要的數據呢?這就要依靠搜索引擎。
當Internet走入我們的生活并逐漸改變這個世界的時候,搜索引擎作為信息檢索最有效的工具也逐漸為我們熟悉和使用。Internet給我們帶來了信息共享的一次巨大革命,搜索引擎給這場革命注入了鮮活的血液。面對浩如煙海的網絡資源,搜索引擎就好像是航船的指南針,引領著人們在網絡中沖浪。據統計,搜索引擎已經成為僅次于電子郵件的第二大網絡應用服務,是用戶獲取信息的首要途徑,在美國有超過84%的網民經常使用搜索引擎,在中國,這個數字每天都在增長。
全書較為系統地闡述搜索引擎和信息檢索研究領域所涉及的相關內容,共分為9章。第1章全面地介紹搜索引擎的概念、搜索引擎的發展、分類、搜索引擎的信息檢索模型以及建立搜索引擎的關鍵技術。第2章討論搜索引擎的基本結構、工作原理以及工作的過程。第3章講述信息檢索的經典模型、代數模型和概率模型。第4章介紹文本操作的技術,主要有文本預處理技術、文本聚類技術和文本壓縮技術。第5章介紹文本信息檢索技術,主要內容有順排文檔檢索技術、倒排文檔檢索技術、布爾檢索技術、加權檢索技術、全文檢索技術、超文本檢索技術以及分布式信息檢索和分布式數據庫查詢技術。第6章討論信息檢索系統的性能評價問題,主要有相關性的評價、查全率和查準率等內容。第7章介紹常用文本分類方法和常用文本聚類的方法。第8章討論Web信息檢索技術,主要內容有Web信息處理的基本技術和Web數據挖掘以及Web信息檢索的關鍵技術、搜索引擎的基本結構、搜索引擎的數據結構、搜索引擎爬蟲、元搜索引擎。第9章介紹搜索引擎開發技術,主要內容有搜索引擎環境的搭建與配置、網頁搜集的實現、預處理的實現和查詢服務。
我們編寫本書的目的就是幫助讀者對搜索引擎技術有一個全面的了解和提高,同時為更加深入地學習和研究搜索引擎打下良好的基礎。我們希望本書的出版能夠對搜索引擎的設計者、Web站點的管理員以及廣大用戶有所幫助,也希望它成為搜索引擎和信息檢索領域學生學習的參考書。
本書是作者在多年的教學基礎上,參考若干資料整理而成的。在教材的編寫過程中,對基本概念、基礎知識的介紹力求做到簡明扼要;各章相互配合,又自成體系,并附有小結和習題,同時還有相關的實驗。建議本課程為40學時,其中講課30學時,實驗10學時。
本書由袁津生、趙傳剛編寫,蔡岳參與編寫了本書的第9章并調試了部分程序。參加書稿的編寫和審閱的還有高寶、齊建東、曹佳、李群等,郭敏哲、武曉島、胡鴻、夏麗、陳雅嫻、王春燕、郭艷芬參與了資料的收集、試驗及程序的編寫工作。由于作者水平有限,書中難免有錯誤和不當之處,敬請讀者批評指正。
第1章 搜索引擎概述 1
1.1 搜索引擎的概念 1
1.2 搜索引擎的發展史 2
1.3 搜索引擎的分類 5
1.4 搜索引擎的信息檢索模型 7
1.5 建立搜索引擎的關鍵技術 8
1.6 中文搜索引擎的發展趨勢 9
1.7 主要搜索引擎介紹 10
1.7.1 谷歌(Google)搜索 10
1.7.2 雅虎(Yahoo)搜索 13
1.7.3 百度(Baidu)搜索 15
1.7.4 天網搜索 18
1.8 小結 19
思考題 21
第2章 搜索引擎的工作原理 22
2.1 搜索引擎的基本結構及工作原理 22
2.2 網頁的搜集 24
2.3 網頁內容的提取 25
2.4 查詢服務 26
2.5 小結 28
思考題 28
第3章 信息檢索的模型 29
3.1 經典模型 29
3.1.1 布爾模型 29
3.1.2 向量模型 30
3.1.3 概率模型 31
3.2 代數模型 33
3.2.1 廣義向量空間模型 34
3.2.2 神經網絡模型 34
3.3 其他概率模型 37
3.3.1 貝葉斯網絡 37
3.3.2 推理網絡模型 37
3.3.3 信任度網絡模型 38
3.4 小結 40
思考題 41
第4章 文本操作 42
4.1 文本預處理 42
4.1.1 文本的詞法分析 42
4.1.2 中文分詞技術 43
4.1.3 無用詞匯的刪除 48
4.1.4 詞干提取技術 48
4.1.5 索引詞條的選擇 56
4.1.6 詞典 56
4.2 文本聚類 57
4.2.1 文本聚類算法 57
4.2.2 文本聚類中的相關概念 58
4.2.3 特征空間的降維處理 59
4.3 文本壓縮 59
4.3.1 基本概念 59
4.3.2 統計方法 60
4.3.3 字典方法 66
4.3.4 倒排文檔壓縮 71
4.4 小結 74
思考題 75
第5章 文本信息檢索技術 77
5.1 順排文檔檢索 77
5.1.1 表展開法 77
5.1.2 邏輯樹展開法 80
5.1.3 其他順排文檔檢索算法 86
5.2 倒排文檔檢索 91
5.2.1 倒排文檔的檢索 91
5.2.2 倒排文檔的建立 92
5.2.3 逆波蘭表達式 94
5.2.4 檢索指令表的生成 96
5.2.5 檢索實施 97
5.3 布爾檢索 97
5.4 加權檢索 98
5.4.1 檢索詞加權檢索 98
5.4.2 詞頻加權檢索 99
5.4.3 標引加權檢索 99
5.5 全文檢索 100
5.5.1 全文檢索的技術指標 100
5.5.2 全文檢索的實現 102
5.5.3 全文檢索效率的提高 104
5.6 超文本檢索 105
5.6.1 超文本技術概述 105
5.6.2 超文本的功能及結構 108
5.6.3 超文本檢索的優缺點 108
5.7 分布式信息檢索 110
5.7.1 分布式檢索的查詢協議 110
5.7.2 分布式檢索系統的結構 112
5.7.3 分布式信息檢索模式 114
5.7.4 分布式檢索資源選擇 119
5.8 分布式數據庫查詢技術 122
5.8.1 分布式數據庫的基本概念 123
5.8.2 利用C#實現分布式數據庫查詢 125
5.8.3 基于.NET Remoting的查詢技術 128
5.8.4 基于DCOM的分布式查詢技術 131
5.8.5 基于JDBC的查詢技術 133
5.8.6 基于Servlet的查詢技術 135
5.8.7 基于CORBA的查詢技術 137
5.8.8 基于Agent的查詢技術 139
5.9 小結 142
思考題 143
第6章 信息檢索評價 144
6.1 相關性 144
6.1.1 相關性的特征 144
6.1.2 相關性研究類別 145
6.1.3 相關性模型 146
6.2 信息檢索性能評價 149
6.2.1 信息檢索系統的有效性 149
6.2.2 評價指標 150
6.2.3 Web檢索系統性能評價 152
6.3 信息檢索領域的相關組織和會議 153
6.4 小結 154
思考題 155
第7章 文本分類與聚類 156
7.1 分類與聚類介紹 156
7.1.1 文本分類 156
7.1.2 文本聚類 157
7.1.3 文本分類的算法 158
7.1.4 文本聚類的算法 159
7.1.5 自動分類與自動聚類 161
7.1.6 文本分類的評測方法與指標 161
7.1.7 文本聚類的評測方法與指標 163
7.2 常用文本分類方法 165
7.2.1 文本分類的問題 165
7.2.2 kNN分類算法 166
7.2.3 NB分類算法 167
7.2.4 決策樹分類算法 167
7.2.5 Rocchio分類算法 167
7.2.6 支持向量機分類算法 168
7.2.7 特征選擇分類算法 169
7.2.8 文本分類系統的實現 171
7.3 常用文本聚類方法 174
7.3.1 層次聚類算法 175
7.3.2 分割聚類算法 177
7.3.3 基于密度的聚類算法 178
7.3.4 基于網格的聚類算法 179
7.3.5 基于模型的聚類算法 181
7.4 小結 182
思考題 184
第8章 Web信息檢索技術 185
8.1 Web信息處理的基本技術 185
8.1.1 Web信息的基本特點 185
8.1.2 Web信息的表現方式 186
8.1.3 Web信息系統結構 186
8.1.4 網絡信息資源的組織與管理 188
8.2 Web數據挖掘 191
8.2.1 Web挖掘流程 191
8.2.2 Web挖掘的分類及現狀 192
8.2.3 Web數據挖掘和Web信息檢索的區別 194
8.3 Web信息檢索的關鍵技術 195
8.3.1 文檔搜集 195
8.3.2 文檔預處理 197
8.3.3 索引數據庫的建立 198
8.3.4 相似度計算與排序方法 199
8.4 搜索引擎的基本結構 203
8.4.1 搜索引擎的結構分類 203
8.4.2 網頁收集模塊 204
8.4.3 網頁索引模塊 205
8.4.4 查詢模塊 206
8.4.5 用戶界面 206
8.4.6 搜索引擎的主要指標及分析 206
8.5 搜索引擎的數據結構 207
8.5.1 存儲結構 207
8.5.2 信息庫 209
8.5.3 文本索引 209
8.5.4 詞典 210
8.5.5 采樣表 210
8.5.6 前向索引 210
8.5.7 后向索引 211
8.6 搜索引擎爬蟲 212
8.6.1 網絡爬蟲 212
8.6.2 深度優先策略 213
8.6.3 廣度優先策略 214
8.6.4 不重復抓取策略 215
8.6.5 網頁抓取優先策略 219
8.6.6 網頁重訪策略 220
8.6.7 網頁抓取提速策略 220
8.6.8 Robots協議 221
8.6.9 網頁內容提取技術 223
8.7 元搜索引擎 224
8.7.1 元搜索引擎的基本構成 225
8.7.2 常用元搜索引擎介紹及其分類 226
8.7.3 與獨立搜索引擎的比較 229
8.7.4 主要技術指標及分析 230
8.8 小結 231
思考題 233
第9章 搜索引擎開發技術 234
9.1 實例簡介 234
9.1.1 搜索引擎的體系結構 235
9.1.2 網頁搜集 236
9.1.3 網頁預處理 236
9.1.4 查詢服務 237
9.2 環境搭建與配置 238
9.2.1 jdk1.6的安裝與配置 239
9.2.2 eclipse的安裝與配置 240
9.2.3 Tomcat的安裝與配置 241
9.2.4 Heritrix的安裝與配置 244
9.3 網頁搜集的實現 255
9.3.1 擴展Heritrix 255
9.3.2 抓取網頁 257
9.4 預處理的實現 259
9.4.1 原始網頁的處理 259
9.4.2 建立索引——Lucene 265
9.5 提供查詢服務 268
9.5.1 搜索引擎架構設計 268
9.5.2 后臺設計和實現 269
9.5.3 頁面設計和實現 273
9.5.4 部署到Tomcat 275
9.6 小結 276
實驗 276
參考文獻 277
- 信息處理技術員考試32小時通關 [薛大龍]
- 信息系統項目管理師章節習題與考點特訓(第二版) [主編 薛大龍]
- 信息系統項目管理師5天修煉(第四版) [施游 劉毅 編著]
- 信息技術基礎實驗與習題解析 [主編 王劍波 闕清賢]
- 信息技術基礎 [主編 闕清賢 黃詮]
- 信息系統項目管理師考試32小時通關(第二版) [薛大龍]
- 大學英語信息化教學探索研究 [張強 著]
- 大學生信息檢索與網絡安全教程 [劉軍 楊昌堯 黃榮森]
- 信息技術基礎 [主編 唐倩 邵銳]
- 信息技術基礎(Windows 7+Office 2016) [主編 王洪平 楊華]
- 信息系統項目管理師備考一本通 [倪奕文 編著]
- 公安信息化應用基礎教程 [主編 徐衍微 萬雪勇]
- 信息系統項目管理師案例分析一本通 [王樹文]
- 軟考論文高分特訓與范文10篇—信息系統項目管理師 [薛大龍]
- 信電類專門用途英語教程 [主編 宋晶]
- 信息技術基礎實訓與習題指導(Windows7+Office2016) [主編 周金容 唐天國]
- 信息技術(微課版) [王云 徐江鴻 李清霞 羅學鋒 ]
- 信息時代美育之道 [主編 劉宏宇 黎婭]
- 信息安全技術基礎(第二版) [主編 張浩軍 陳莉 王峰]
- 大學信息技術實訓教程 [主編 任云暉 丁紅 趙琳琳]
- 大學信息技術教程 [主編 任云暉 馮政軍 魏斌]
- 路由交換技術項目化教程 [主編 范國娟]
- 信息技術基礎立體化教程 [鄒承俊 周洪林 劉和文 葉煜 ]
- 信息技術基礎項目化教程 [主編 王宏斌 王萬麗 王芳]
- 大學計算機信息素養(第二版) [主編 盧山]
- 大學計算機信息素養實驗指導(第二版) [主編 盧山]
- 信息技術基礎(微課版) [主編 趙艷莉 喻林]
- 新一代信息技術 [主編 孫鋒申 李玉霞]
- 計算機信息技術素養立體化教程 [主 編 陳鄭軍 敖開云]
- 大學信息技術基礎 [主編 黎夏克 張倩文 王靜]