XML數(shù)據(jù)查詢(xún)與信息檢索系統(tǒng)

中國(guó)水利水電出版社

【作者】韓忠明著

【I S B N 】978-7-5084-7151-8

【責(zé)任編輯】張玉玲

【適用讀者群】科技

【出版時(shí)間】2010-03-01

【開(kāi) 本】16開(kāi)本

【裝幀信息】平裝（光膜）

【版次】第1版

【頁(yè) 數(shù)】

【千字?jǐn)?shù)】

【印張】

【定價(jià)】￥30

【叢書(shū)】暫無(wú)分類(lèi)

【備注信息】

圖書(shū)詳情

簡(jiǎn)介

本書(shū)特色

前言

章節(jié)列表

精彩閱讀

下載資源

相關(guān)圖書(shū)

本書(shū)主要研究改進(jìn)XML數(shù)據(jù)查詢(xún)和信息檢索的相關(guān)理論與技術(shù)，以便于它們更好地集成在一起，從而可以更加優(yōu)化地執(zhí)行用戶(hù)的查詢(xún)需求，針對(duì)這個(gè)研究目標(biāo)，本書(shū)做了大量的研究工作。本書(shū)提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式，詳細(xì)討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì)，還提出了一種新穎有效的對(duì)基于XML信息檢索查詢(xún)進(jìn)行相關(guān)度打分的算法，這個(gè)打分機(jī)制結(jié)合了檢索查詢(xún)關(guān)鍵詞的頻度、文檔的結(jié)構(gòu)化特性、文檔的語(yǔ)義特性等。基于對(duì)結(jié)構(gòu)化查詢(xún)和信息檢索的相關(guān)研究成果，本書(shū)提出了處理XML結(jié)構(gòu)化查詢(xún)和信息檢索的有效算法與機(jī)制。本書(shū)還討論了一個(gè)原型系統(tǒng)的設(shè)計(jì)目標(biāo)、分析與設(shè)計(jì)過(guò)程。

XML已經(jīng)成為互聯(lián)網(wǎng)上數(shù)據(jù)表示和數(shù)據(jù)交換的標(biāo)準(zhǔn)。隨著XML文檔數(shù)據(jù)量和文檔數(shù)量的快速增長(zhǎng)，產(chǎn)生了很多問(wèn)題，其中很重要的一個(gè)問(wèn)題就是如何有效地查詢(xún)這些文檔，也就是結(jié)構(gòu)化查詢(xún)，亦稱(chēng)為數(shù)據(jù)查詢(xún)。而有效的數(shù)據(jù)查詢(xún)又涉及文檔的存儲(chǔ)機(jī)制和索引結(jié)構(gòu)等問(wèn)題，這些問(wèn)題已經(jīng)引起了學(xué)術(shù)界和工業(yè)界廣泛的研究熱情，學(xué)者們?cè)谶@些問(wèn)題上作了大量的研究工作。另外一個(gè)問(wèn)題是基于XML文檔的信息檢索，這也是一個(gè)新產(chǎn)生的研究問(wèn)題。面對(duì)巨大的網(wǎng)絡(luò)信息，如何才能為用戶(hù)檢索出真正有效的信息是一個(gè)非常具有挑戰(zhàn)性的研究問(wèn)題。現(xiàn)存的大部分搜索引擎是基于關(guān)鍵字搜索的，頁(yè)面排序算法采用頁(yè)面的超鏈接或頁(yè)面內(nèi)容的文本特性。如果頁(yè)面采用XML來(lái)編寫(xiě)，那么就需要合理地利用XML的結(jié)構(gòu)特性、語(yǔ)義特性以及其他的相關(guān)性質(zhì)來(lái)提高檢索的效果和效率。這就促使對(duì)XML文檔進(jìn)行信息檢索成為了一個(gè)非常有意義的問(wèn)題。XML上的信息檢索正開(kāi)始受到學(xué)術(shù)界的高度重視。

對(duì)XML進(jìn)行結(jié)構(gòu)化查詢(xún)和信息檢索是兩個(gè)既具有相關(guān)性又具有不同特性的研究問(wèn)題，如何集成這兩個(gè)研究問(wèn)題就更加具有研究意義。本書(shū)的主要研究對(duì)象就是如何改進(jìn)XML的結(jié)構(gòu)化查詢(xún)以及信息檢索的相關(guān)理論與技術(shù)，以便于它們更好地集成在一起，從而可以更加優(yōu)化地執(zhí)行用戶(hù)的查詢(xún)需求。

針對(duì)這個(gè)研究目標(biāo)，本書(shū)做了大量的研究工作。首先，本書(shū)在XQuery語(yǔ)言的基礎(chǔ)上擴(kuò)充了全文本檢索功能，為了與原來(lái)的XQuery區(qū)分，擴(kuò)充后的語(yǔ)言稱(chēng)為XQuery+（XQuery Plus）。XQuery+語(yǔ)言有如下特點(diǎn)：在XQuery+語(yǔ)言里，擴(kuò)充了XQuery的檢索功能，增加了一個(gè)為檢索服務(wù)的謂詞；在XQuery+中還支持檢索詞的布爾操作。

本書(shū)的主要研究任務(wù)之一是如何有效地處理XML的結(jié)構(gòu)化查詢(xún)。作為處理XML結(jié)構(gòu)化查詢(xún)的基礎(chǔ)，XML文檔的節(jié)點(diǎn)編碼模式和索引結(jié)構(gòu)是研究的核心問(wèn)題。本書(shū)提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式，詳細(xì)地討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì)。節(jié)點(diǎn)編號(hào)模式為XML文檔索引和查詢(xún)提供了基礎(chǔ)，一個(gè)有效的節(jié)點(diǎn)編號(hào)模式應(yīng)該可以包含結(jié)構(gòu)信息，易于支持索引和查詢(xún)。從本書(shū)給出的節(jié)點(diǎn)編號(hào)定義和性質(zhì)分析，我們知道編號(hào)模式可以滿(mǎn)足這些基本的要求。本書(shū)在這個(gè)節(jié)點(diǎn)編號(hào)模式的基礎(chǔ)上建立了一個(gè)HiD索引結(jié)構(gòu)，HiD索引結(jié)構(gòu)有效地集成了結(jié)構(gòu)索引和值索引兩個(gè)部分。通過(guò)大量有競(jìng)爭(zhēng)性的實(shí)驗(yàn)分析表明，采用HiD索引機(jī)制方法可以在索引的構(gòu)建時(shí)間和空間消耗上得到很好的平衡和性能表現(xiàn)。

本書(shū)研究的第三個(gè)主要任務(wù)是基于XML的信息檢索。XML信息檢索的核心問(wèn)題是如何進(jìn)行相關(guān)度打分。本書(shū)提出了一種新穎有效的對(duì)基于XML信息檢索查詢(xún)進(jìn)行相關(guān)度打分的算法，該算法同時(shí)考慮了結(jié)構(gòu)相關(guān)度和語(yǔ)義相關(guān)度。結(jié)構(gòu)相關(guān)度主要利用了檢索詞的距離概念；語(yǔ)義相關(guān)度的計(jì)算則采用了節(jié)點(diǎn)相關(guān)度語(yǔ)義權(quán)重系數(shù)的方法。為了合理地評(píng)價(jià)和比較本書(shū)提出的方法與其他研究者的方法之間的效果差異，本書(shū)還做了大量的實(shí)驗(yàn)。從所做的實(shí)驗(yàn)結(jié)果中可以看出，在合理應(yīng)用本書(shū)的方法后，檢索的查全率和查準(zhǔn)率都得到了顯著提高，檢索結(jié)果非常合乎用戶(hù)的需求。

基于對(duì)結(jié)構(gòu)化查詢(xún)和信息檢索的相關(guān)研究成果，本書(shū)提出了處理XML結(jié)構(gòu)化查詢(xún)和信息檢索的有效算法與機(jī)制。這些算法分別處理了XQuery和XQuery+查詢(xún)。雖然這些算法都基于HiD索引結(jié)構(gòu)之上，但是這些算法的特點(diǎn)不同，處理對(duì)象不同。對(duì)于XQuery查詢(xún)來(lái)說(shuō)，本書(shū)給出的兩種算法分別是處理單路徑查詢(xún)的算法和具有兩個(gè)分支的樹(shù)模式查詢(xún)的算法。基于這兩種算法，可以方便地構(gòu)造出處理復(fù)雜查詢(xún)的算法。而對(duì)于XQuery+查詢(xún)的處理，本書(shū)也給出兩種不同的處理算法。算法XQuery+G-1采用了on-the-fly的查詢(xún)和打分機(jī)制，而算法XQuery+G-2則簡(jiǎn)單地采用了查詢(xún)后計(jì)算相關(guān)度的技術(shù)。通過(guò)實(shí)驗(yàn)，本書(shū)還詳細(xì)地分析了各種算法的性能和效果，為了合理地評(píng)估相關(guān)算法的性能，實(shí)驗(yàn)中對(duì)不同的算法還選用了不同的、合理的比較算法。實(shí)驗(yàn)結(jié)果表明無(wú)論是處理結(jié)構(gòu)化查詢(xún)還是信息檢索，本書(shū)提出的對(duì)應(yīng)算法都表現(xiàn)出較高的執(zhí)行效率，有效地提高了查詢(xún)和檢索的速度。

課題的最后一個(gè)研究任務(wù)是在相關(guān)研究成果的基礎(chǔ)上設(shè)計(jì)開(kāi)發(fā)一個(gè)原型系統(tǒng)。本書(shū)詳細(xì)地討論了原型系統(tǒng)的設(shè)計(jì)目標(biāo)、分析與設(shè)計(jì)過(guò)程，確定了原型系統(tǒng)的架構(gòu)。經(jīng)過(guò)分析原型系統(tǒng)的系統(tǒng)流程，得出各個(gè)模塊的功能與實(shí)現(xiàn)過(guò)程。最后，我們采用Java語(yǔ)言并在Qizx/open的基礎(chǔ)上實(shí)現(xiàn)了原型系統(tǒng)。從原型系統(tǒng)的體系架構(gòu)和模塊功能可以看出，原型系統(tǒng)基本可以滿(mǎn)足XML文檔查詢(xún)和檢索的需求。原型系統(tǒng)的特色在于：①開(kāi)放和層次化的結(jié)構(gòu)，這樣可以方便地支持和擴(kuò)充新的功能和算法；②原型系統(tǒng)實(shí)現(xiàn)了兩種過(guò)濾機(jī)制和兩種結(jié)果表示方法，這些都擴(kuò)展了原型系統(tǒng)的性能和表現(xiàn)力，為將來(lái)做成熟的系統(tǒng)打下了良好的基礎(chǔ)。

全書(shū)組織結(jié)構(gòu)如下：

第1章，介紹課題研究問(wèn)題的背景以及相關(guān)研究，并分析課題研究的主要內(nèi)容及研究意義。

第2章，介紹如何在XQuery語(yǔ)言的基礎(chǔ)上擴(kuò)展檢索功能。為了使XQuery語(yǔ)言滿(mǎn)足信息檢索的要求，本書(shū)引入了一個(gè)新的檢索謂詞，并且在檢索謂詞中支持檢索條件的布爾組合。

第3章，主要論述節(jié)點(diǎn)編號(hào)模式與索引結(jié)構(gòu)。首先定義了基本概念，然后詳細(xì)地給出了節(jié)點(diǎn)編號(hào)模式定義、性質(zhì)以及一些應(yīng)用算法等，在節(jié)點(diǎn)編號(hào)模式的基礎(chǔ)上提出HiD索引結(jié)構(gòu)， HiD索引結(jié)構(gòu)包含結(jié)構(gòu)索引和值索引結(jié)構(gòu)等。

第4章，解決了XML信息檢索的一個(gè)核心問(wèn)題，即節(jié)點(diǎn)相關(guān)度打分機(jī)制問(wèn) 題，這個(gè)研究為處理XML檢索查詢(xún)的算法提供了基礎(chǔ)。主要的研究?jī)?nèi)容包括 XML檢索的表達(dá)以及節(jié)點(diǎn)打分算法和排序機(jī)制。

第5章，在第3章和第4章的基礎(chǔ)上詳細(xì)介紹了處理XML結(jié)構(gòu)化查詢(xún)和信息檢索的查詢(xún)處理算法以及合成兩種查詢(xún)算法的機(jī)制。

第6章，給出了原型系統(tǒng)的分析與設(shè)計(jì)過(guò)程，詳細(xì)描述了原型系統(tǒng)核心模塊的處理過(guò)程和功能，并介紹了原型系統(tǒng)的幾個(gè)特色與簡(jiǎn)單使用方法。

第7章，進(jìn)行了全書(shū)的總結(jié)，分析了本書(shū)研究?jī)?nèi)容的主要結(jié)果以及可能存在的一些問(wèn)題，最后討論了下一步可能的幾個(gè)研究方向。

前言
第1章緒論 1
1.1 研究背景 1
1.2 XML介紹 3
1.2.1 元素（Element） 4
1.2.2 屬性 5
1.2.3 指令/處理指令 6
1.2.4 注釋 7
1.2.5 CDATA 7
1.2.6 XML的語(yǔ)法規(guī)則 7
1.3 Xpath介紹 9
1.3.1 節(jié)點(diǎn)（Node） 9
1.3.2 XPath謂語(yǔ) 11
1.3.3 XPath軸 12
1.3.4 XPath節(jié)點(diǎn)測(cè)試 13
1.4 XQuery介紹 14
1.4.1 XQuery的語(yǔ)法 15
1.4.2 XQuery的運(yùn)算符 21
1.4.3 XQuery函數(shù) 22
1.4.4 XQuery條件表達(dá)式 24
1.5 相關(guān)研究 24
1.5.1 數(shù)據(jù)庫(kù)的研究 24
1.5.2 XML數(shù)據(jù)管理 25
1.5.3 XML數(shù)據(jù)查詢(xún) 28
1.5.4 信息檢索及基于XML的信息檢索 30
1.6 小結(jié) 35
第2章基于XQuery的信息檢索語(yǔ)言 37
2.1 XML查詢(xún)語(yǔ)言 37
2.2 XML信息檢索語(yǔ)言的特點(diǎn) 39
2.3 XML信息檢索語(yǔ)言XQuery+ 40
2.3.1 XQuery+語(yǔ)法分析 40
2.3.2 XQuery+語(yǔ)義分析 41
2.4 小結(jié)與問(wèn)題 43
第3章 XML節(jié)點(diǎn)編號(hào)模式與索引結(jié)構(gòu) 44
3.1 預(yù)備知識(shí) 44
3.2 XML節(jié)點(diǎn)編號(hào)模式 47
3.2.1 節(jié)點(diǎn)標(biāo)簽路徑數(shù) 47
3.2.2 節(jié)點(diǎn)數(shù)據(jù)路徑數(shù) 51
3.2.3 節(jié)點(diǎn)標(biāo)識(shí) 53
3.3 XML索引結(jié)構(gòu) 54
3.4 值索引結(jié)構(gòu) 56
3.5 相關(guān)實(shí)驗(yàn)及分析 58
3.6 小結(jié)與問(wèn)題 61
第4章 XML相關(guān)度打分機(jī)制與算法 62
4.1 問(wèn)題描述 62
4.2 IR查詢(xún)表達(dá) 63
4.3 相關(guān)度打分機(jī)制 65
4.3.1 結(jié)構(gòu)相關(guān)度 65
4.3.2 語(yǔ)義相關(guān)度 67
4.3.3 相關(guān)度集成 70
4.4 實(shí)例分析 71
4.5 實(shí)驗(yàn)與分析 74
4.6 小結(jié)與問(wèn)題 79
第5章查詢(xún)處理 81
5.1 問(wèn)題描述 81
5.2 XQuery查詢(xún)處理算法 82
5.2.1 單路徑查詢(xún) 82
5.2.2 樹(shù)模式查詢(xún)算法 84
5.3 XQuery+查詢(xún)處理算法 86
5.4 XQuery查詢(xún)實(shí)驗(yàn)分析 88
5.5 XQuery+查詢(xún)算法實(shí)驗(yàn)分析 90
5.6 小結(jié)與問(wèn)題 93
第6章原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 94
6.1 原型系統(tǒng)分析與設(shè)計(jì) 94
6.1.1 系統(tǒng)設(shè)計(jì)目標(biāo)和原則 94
6.1.2 需求分析 95
6.1.3 數(shù)據(jù)流圖 96
6.1.4 系統(tǒng)架構(gòu) 96
6.2 原型系統(tǒng)模塊分析 98
6.2.1 系統(tǒng)處理流程 98
6.2.2 模塊設(shè)計(jì) 98
6.3 原型系統(tǒng)的實(shí)現(xiàn) 100
6.3.1 原型系統(tǒng)核心數(shù)據(jù)結(jié)構(gòu) 101
6.3.2 查詢(xún)引擎處理過(guò)程部分代碼分析 103
6.3.3 原型系統(tǒng)界面及使用介紹 105
6.4 小結(jié)與問(wèn)題 108
第7章結(jié)論與展望 109
參考文獻(xiàn) 111

關(guān)閉

打印

欧美一级特黄aaaaaaa在线观看-欧美一级特黄aaaaaa在线看片-欧美一级特黄aa大片-欧美一级特黄刺激大片视频-深夜久久-深夜激情网站