基于潛在語義的個性化搜索關鍵技術研究
-
【作 者】陳冬玲 著
【I S B N 】978-7-5170-1031-9
【責任編輯】陳潔
【適用讀者群】本專通用
【出版時間】2013-08-26
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】152
【千字數】170
【印 張】9.5
【定 價】¥36
【叢 書】暫無分類
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
隨著網絡技術的飛速發展,信息爆炸所產生的個人信息疲勞和信息壓力使搜索引擎變得越來越重要,搜索引擎已經成為名副其實的信息樞紐和信息門戶,是用戶獲取網絡信息的首選工具。然而,在搜索引擎返回的巨大的結果列表中,只有一小部分信息符合用戶的偏好,甚至在top K結果中,沒有符合用戶偏好的信息。面對如此窘境,我們不得不重新審視,究竟如何才能為用戶提供符合其偏好的個性化信息?
本文分析其主要原因在于,沒有真正理解用戶查詢背后的潛在語義動機,不清楚用戶要做什么,故無法為其提供高質量的個性化服務。
搜索引擎直接面對知識背景及搜索意圖各異的用戶,因此,不可能有一種普適的查詢方式,能弄清楚不同用戶輸入同一查詢詞,他們各自的潛在動機分別是什么,他們到底想要得到什么樣的信息。例如:用戶輸入“東北大學”,其可能是想隨機了解一些東北大學的普遍信息,也可能是想查詢今年的招生政策,還可能是想了解外界對東北大學有些什么評價。由此可見,用戶的潛在語義動機理解是個性化搜索的基石,如該環節理解得不夠準確,與用戶實際需求匹配性不高,那么后續進行的個性化服務工作就有可能誤入歧途。在實際查詢中,輸入“關鍵詞”是用戶在搜索中的第一步,代表了用戶對于自身的搜索需求的TAG化表述,互聯網“全息搜索理論”創始人順風認為:需要深刻的認識到在傳統搜索系統中“關鍵詞”在用戶心中產生的過程和搜索輸出之間的相互關系,發現在用戶搜索動機、搜索前思維量與搜索引擎反饋之間的全息聯系,用戶輸入的“關鍵詞”實際上就是一個將心算出的TAG引入搜索行為的過程,而且此類TAG應該成為最有質量的TAG,因為其中凝聚了搜索用戶第一反映的無意識性的內心智慧。搜索引擎只有準確把握用戶的搜索動機,才能有的放矢地為其提供高質量的個性化服務。
基于上述分析,本文從用戶潛在語義的用戶動機分析入手,并以此為主線,對多種個性化服務關鍵技術進行了研究,主要工作包括以下幾個方面:
(1)在計算機研究領域內,從哲學、心理學角度剖析用戶搜索行為,并從認知學的角度,提出了基于概率潛在語義動機分析的用戶行為模型,高度概括了各種具體搜索行為,從抽象的角度去理解用戶的搜索行為。該模型的提出為進一步研究個性化搜索提供了新的思路。
(2)在文檔潛在語義空間中,應用Zipf分布與概率潛在語義分析算法相結合的方式進行文檔潛在主題提取,改善了文檔潛在主題提取的質量。
(3)以狄氏先驗的有限混合模型理論為基礎,提出了高效無監督的網頁聚類算法。可以有效克服一般的文本聚類算法無法有效應對的高維性、稀疏性文本,以及文本數據之間的相似性函數定義困難,聚類質量和效率低等不足,改善了聚類效果,提高了捕獲用戶興趣潛在主題需求的能力。
(4)提出了一種新的基于用戶潛在語義分析的查詢擴展技術。即將通用搜索中查詢擴展的技術與用戶動機挖掘技術相結合,而開發出的一種新的查詢擴展技術,解決了搜索引擎由于通用的性質而缺乏面向用戶的個性化的信息處理的能力,從了解用戶的語義上的搜索動機以及了解認知與心理相互作用的角度出發,從根本上解決了查詢過程中的一詞多義及多詞同義等問題,在個性化搜索過程中有效的進行語義消歧。
(5)針對面向查詢的排名算法的不足提出了面向用戶的重排名算法。即在原有網頁排序算法的基礎上,根據用戶的興趣偏好而提出的一種局部優化排序算法,既符合用戶的個性化需求,又不影響搜索結果的查全率,盡可能做到其排序結果與用戶語義動機相符合。
總之,本文從用戶潛在語義動機的理解出發,針對個性化搜索各個環節中的關鍵技術展開研究,如用戶建模技術、查詢擴展技術、網頁局部優化排序技術、聚類技術等,力求達到用戶查詢與搜索引擎返回結果的高效匹配。
第1章 緒論 1
1.1 搜索引擎體系結構及功能 1
1.1.1 信息的收集 2
1.1.2 信息預處理 2
1.1.3 查詢服務 2
1.2 個性化搜索引擎 2
1.2.1 個性化搜索引擎的體系結構 2
1.2.2 個性化搜索關鍵技術 4
1.2.3 個性化搜索研究現狀 9
1.2.4 個性化搜索面臨的問題與挑戰 16
1.3 本文研究的主要內容 18
1.4 本文的組織結構 20
第2章 基于概率潛在語義的用戶模型構造 21
2.1 問題提出 21
2.2 用戶模型研究綜述 23
2.2.1 用戶模型的創建技術研究 23
2.2.2 用戶模型的學習與更新技術研究 27
2.2.3 用戶模型應用技術的研究 29
2.3 用戶搜索行為的理論分析 29
2.3.1 從認知角度分析用戶的搜索行為 29
2.3.2 用戶搜索行為的不確定性 33
2.3.3 用戶搜索行為分析的邏輯框架 34
2.4 用戶動機分析的兩類不確定問題 36
2.5 基于PLSA的潛在概念獲取與用戶模型構建 37
2.5.1 概率潛在語義分析 37
2.5.2 潛在語義空間的Zipf分布 38
2.5.3 基于PLSA的用戶動機建模 39
2.5.4 用戶模型的學習與更新 43
2.6 實驗及評價 45
2.6.1 數據集 45
2.6.2 評價標準 47
2.6.3 實驗結果及分析 48
2.7 本章小結 51
第3章 基于有限混合模型的文本聚類 53
3.1 問題提出 53
3.2 傳統聚類算法的概述 54
3.2.1 基于相似性的聚類方法 55
3.2.2 基于模型的聚類 58
3.2.3 各類算法的對比分析 59
3.3 傳統聚類方式在個性化搜索中存在的問題 60
3.4 基于有限混合主題模型的文檔聚類分析 62
3.4.1 有限混合模型 62
3.4.2 EM算法 63
3.4.3 基于有限混合模型的文檔聚類 68
3.5 實驗及評價 73
3.5.1 實驗數據集 73
3.5.2 評價標準 74
3.5.3 實驗結果及分析 74
3.6 本章小結 78
第4章 基于用戶潛在語義動機的查詢擴展 79
4.1 問題提出 79
4.2 現有的查詢擴展方法概述 80
4.2.1 基于大規模語料庫的查詢擴展方法 80
4.2.2 基于語義關系/語義結構的查詢擴展方法 84
4.3 目前查詢擴展方法的不足 87
4.4 基于潛在語義動機的查詢擴展 88
4.4.1 ULSM-QE的框架 88
4.4.2 查詢詞處理 90
4.4.3 查詢語義動機分析 90
4.4.4 相關度計算 94
4.4.5 查詢詞的語義消歧 95
4.4.6 生成新查詢 98
4.5 實驗及評價 101
4.5.1 數據集 101
4.5.2 評價標準 102
4.5.3 實驗結果及分析 103
4.6 本章小結 109
第5章 基于用戶偏好的網頁排序局部優化策略 110
5.1 問題提出 110
5.2 傳統網頁排序算法介紹 111
5.2.1 PageRank算法及其衍生算法 111
5.2.2 HITS算法 113
5.3 傳統排序算法存在的問題 114
5.4 基于用戶偏好的網頁排序 116
5.4.1 UP-PR框架 117
5.4.2 查詢詞的主題分類 119
5.4.3 網頁的主題分類 120
5.4.4 參數的選擇 122
5.5 實驗及評價 123
5.5.1 數據集 123
5.5.2 評價標準 124
5.5.3 實驗結果及分析 124
5.6 本章小結 128
第6章 結論 129
6.1 本文的主要貢獻與結論 129
6.2 進一步的工作 130
參考文獻 132
作者簡介 142