XML數據查詢與信息檢索系統
-
【作 者】韓忠明 著
【I S B N 】978-7-5084-7151-8
【責任編輯】張玉玲
【適用讀者群】科技
【出版時間】2010-03-01
【開 本】16開本
【裝幀信息】平裝(光膜)
【版 次】第1版
【頁 數】
【千字數】
【印 張】
【定 價】¥30
【叢 書】暫無分類
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書主要研究改進XML數據查詢和信息檢索的相關理論與技術,以便于它們更好地集成在一起,從而可以更加優化地執行用戶的查詢需求,針對這個研究目標,本書做了大量的研究工作。本書提出了一個新穎有效的節點編號模式,詳細討論了節點編號模式的定義和性質,還提出了一種新穎有效的對基于XML信息檢索查詢進行相關度打分的算法,這個打分機制結合了檢索查詢關鍵詞的頻度、文檔的結構化特性、文檔的語義特性等。基于對結構化查詢和信息檢索的相關研究成果,本書提出了處理XML結構化查詢和信息檢索的有效算法與機制。本書還討論了一個原型系統的設計目標、分析與設計過程。
XML已經成為互聯網上數據表示和數據交換的標準。隨著XML文檔數據量和文檔數量的快速增長,產生了很多問題,其中很重要的一個問題就是如何有效地查詢這些文檔,也就是結構化查詢,亦稱為數據查詢。而有效的數據查詢又涉及文檔的存儲機制和索引結構等問題,這些問題已經引起了學術界和工業界廣泛的研究熱情,學者們在這些問題上作了大量的研究工作。另外一個問題是基于XML文檔的信息檢索,這也是一個新產生的研究問題。面對巨大的網絡信息,如何才能為用戶檢索出真正有效的信息是一個非常具有挑戰性的研究問題。現存的大部分搜索引擎是基于關鍵字搜索的,頁面排序算法采用頁面的超鏈接或頁面內容的文本特性。如果頁面采用XML來編寫,那么就需要合理地利用XML的結構特性、語義特性以及其他的相關性質來提高檢索的效果和效率。這就促使對XML文檔進行信息檢索成為了一個非常有意義的問題。XML上的信息檢索正開始受到學術界的高度重視。
對XML進行結構化查詢和信息檢索是兩個既具有相關性又具有不同特性的研究問題,如何集成這兩個研究問題就更加具有研究意義。本書的主要研究對象就是如何改進XML的結構化查詢以及信息檢索的相關理論與技術,以便于它們更好地集成在一起,從而可以更加優化地執行用戶的查詢需求。
針對這個研究目標,本書做了大量的研究工作。首先,本書在XQuery語言的基礎上擴充了全文本檢索功能,為了與原來的XQuery區分,擴充后的語言稱為XQuery+(XQuery Plus)。XQuery+語言有如下特點:在XQuery+語言里,擴充了XQuery的檢索功能,增加了一個為檢索服務的謂詞;在XQuery+中還支持檢索詞的布爾操作。
本書的主要研究任務之一是如何有效地處理XML的結構化查詢。作為處理XML結構化查詢的基礎,XML文檔的節點編碼模式和索引結構是研究的核心問題。本書提出了一個新穎有效的節點編號模式,詳細地討論了節點編號模式的定義和性質。節點編號模式為XML文檔索引和查詢提供了基礎,一個有效的節點編號模式應該可以包含結構信息,易于支持索引和查詢。從本書給出的節點編號定義和性質分析,我們知道編號模式可以滿足這些基本的要求。本書在這個節點編號模式的基礎上建立了一個HiD索引結構,HiD索引結構有效地集成了結構索引和值索引兩個部分。通過大量有競爭性的實驗分析表明,采用HiD索引機制方法可以在索引的構建時間和空間消耗上得到很好的平衡和性能表現。
本書研究的第三個主要任務是基于XML的信息檢索。XML信息檢索的核心問題是如何進行相關度打分。本書提出了一種新穎有效的對基于XML信息檢索查詢進行相關度打分的算法,該算法同時考慮了結構相關度和語義相關度。結構相關度主要利用了檢索詞的距離概念;語義相關度的計算則采用了節點相關度語義權重系數的方法。為了合理地評價和比較本書提出的方法與其他研究者的方法之間的效果差異,本書還做了大量的實驗。從所做的實驗結果中可以看出,在合理應用本書的方法后,檢索的查全率和查準率都得到了顯著提高,檢索結果非常合乎用戶的需求。
基于對結構化查詢和信息檢索的相關研究成果,本書提出了處理XML結構化查詢和信息檢索的有效算法與機制。這些算法分別處理了XQuery和XQuery+查詢。雖然這些算法都基于HiD索引結構之上,但是這些算法的特點不同,處理對象不同。對于XQuery查詢來說,本書給出的兩種算法分別是處理單路徑查詢的算法和具有兩個分支的樹模式查詢的算法。基于這兩種算法,可以方便地構造出處理復雜查詢的算法。而對于XQuery+查詢的處理,本書也給出兩種不同的處理算法。算法XQuery+G-1采用了on-the-fly的查詢和打分機制,而算法XQuery+G-2則簡單地采用了查詢后計算相關度的技術。通過實驗,本書還詳細地分析了各種算法的性能和效果,為了合理地評估相關算法的性能,實驗中對不同的算法還選用了不同的、合理的比較算法。實驗結果表明無論是處理結構化查詢還是信息檢索,本書提出的對應算法都表現出較高的執行效率,有效地提高了查詢和檢索的速度。
課題的最后一個研究任務是在相關研究成果的基礎上設計開發一個原型系統。本書詳細地討論了原型系統的設計目標、分析與設計過程,確定了原型系統的架構。經過分析原型系統的系統流程,得出各個模塊的功能與實現過程。最后,我們采用Java語言并在Qizx/open的基礎上實現了原型系統。從原型系統的體系架構和模塊功能可以看出,原型系統基本可以滿足XML文檔查詢和檢索的需求。原型系統的特色在于:①開放和層次化的結構,這樣可以方便地支持和擴充新的功能和算法;②原型系統實現了兩種過濾機制和兩種結果表示方法,這些都擴展了原型系統的性能和表現力,為將來做成熟的系統打下了良好的基礎。
全書組織結構如下:
第1章,介紹課題研究問題的背景以及相關研究,并分析課題研究的主要內容及研究意義。
第2章,介紹如何在XQuery語言的基礎上擴展檢索功能。為了使XQuery語言滿足信息檢索的要求,本書引入了一個新的檢索謂詞,并且在檢索謂詞中支持檢索條件的布爾組合。
第3章,主要論述節點編號模式與索引結構。首先定義了基本概念,然后詳細地給出了節點編號模式定義、性質以及一些應用算法等,在節點編號模式的基礎上提出HiD索引結構, HiD索引結構包含結構索引和值索引結構等。
第4章,解決了XML信息檢索的一個核心問題,即節點相關度打分機制問 題,這個研究為處理XML檢索查詢的算法提供了基礎。主要的研究內容包括 XML檢索的表達以及節點打分 算法和排序機制。
第5章,在第3章和第4章的基礎上詳細介紹了處理XML結構化查詢和信息檢索的查詢處理算法以及合成兩種查詢算法的機制。
第6章,給出了原型系統的分析與設計過程,詳細描述了原型系統核心模塊的處理過程和功能,并介紹了原型系統的幾個特色與簡單使用方法。
第7章,進行了全書的總結,分析了本書研究內容的主要結果以及可能存在的一些問題,最后討論了下一步可能的幾個研究方向。
第1章 緒論 1
1.1 研究背景 1
1.2 XML介紹 3
1.2.1 元素(Element) 4
1.2.2 屬性 5
1.2.3 指令/處理指令 6
1.2.4 注釋 7
1.2.5 CDATA 7
1.2.6 XML的語法規則 7
1.3 Xpath介紹 9
1.3.1 節點(Node) 9
1.3.2 XPath謂語 11
1.3.3 XPath軸 12
1.3.4 XPath節點測試 13
1.4 XQuery介紹 14
1.4.1 XQuery的語法 15
1.4.2 XQuery的運算符 21
1.4.3 XQuery函數 22
1.4.4 XQuery條件表達式 24
1.5 相關研究 24
1.5.1 數據庫的研究 24
1.5.2 XML數據管理 25
1.5.3 XML數據查詢 28
1.5.4 信息檢索及基于XML的信息檢索 30
1.6 小結 35
第2章 基于XQuery的信息檢索語言 37
2.1 XML查詢語言 37
2.2 XML信息檢索語言的特點 39
2.3 XML信息檢索語言XQuery+ 40
2.3.1 XQuery+語法分析 40
2.3.2 XQuery+語義分析 41
2.4 小結與問題 43
第3章 XML節點編號模式與索引結構 44
3.1 預備知識 44
3.2 XML節點編號模式 47
3.2.1 節點標簽路徑數 47
3.2.2 節點數據路徑數 51
3.2.3 節點標識 53
3.3 XML索引結構 54
3.4 值索引結構 56
3.5 相關實驗及分析 58
3.6 小結與問題 61
第4章 XML相關度打分機制與算法 62
4.1 問題描述 62
4.2 IR查詢表達 63
4.3 相關度打分機制 65
4.3.1 結構相關度 65
4.3.2 語義相關度 67
4.3.3 相關度集成 70
4.4 實例分析 71
4.5 實驗與分析 74
4.6 小結與問題 79
第5章 查詢處理 81
5.1 問題描述 81
5.2 XQuery查詢處理算法 82
5.2.1 單路徑查詢 82
5.2.2 樹模式查詢算法 84
5.3 XQuery+查詢處理算法 86
5.4 XQuery查詢實驗分析 88
5.5 XQuery+查詢算法實驗分析 90
5.6 小結與問題 93
第6章 原型系統的設計與實現 94
6.1 原型系統分析與設計 94
6.1.1 系統設計目標和原則 94
6.1.2 需求分析 95
6.1.3 數據流圖 96
6.1.4 系統架構 96
6.2 原型系統模塊分析 98
6.2.1 系統處理流程 98
6.2.2 模塊設計 98
6.3 原型系統的實現 100
6.3.1 原型系統核心數據結構 101
6.3.2 查詢引擎處理過程部分代碼分析 103
6.3.3 原型系統界面及使用介紹 105
6.4 小結與問題 108
第7章 結論與展望 109
參考文獻 111