基于潛在語義的個性化搜索關(guān)鍵技術(shù)研究

-
【作 者】陳冬玲 著
【I S B N 】978-7-5170-1031-9
【責任編輯】陳潔
【適用讀者群】本專通用
【出版時間】2013-08-26
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數(shù)】152
【千字數(shù)】170
【印 張】9.5
【定 價】¥36
【叢 書】暫無分類
【備注信息】
簡介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,信息爆炸所產(chǎn)生的個人信息疲勞和信息壓力使搜索引擎變得越來越重要,搜索引擎已經(jīng)成為名副其實的信息樞紐和信息門戶,是用戶獲取網(wǎng)絡(luò)信息的首選工具。然而,在搜索引擎返回的巨大的結(jié)果列表中,只有一小部分信息符合用戶的偏好,甚至在top K結(jié)果中,沒有符合用戶偏好的信息。面對如此窘境,我們不得不重新審視,究竟如何才能為用戶提供符合其偏好的個性化信息?
本文分析其主要原因在于,沒有真正理解用戶查詢背后的潛在語義動機,不清楚用戶要做什么,故無法為其提供高質(zhì)量的個性化服務(wù)。
搜索引擎直接面對知識背景及搜索意圖各異的用戶,因此,不可能有一種普適的查詢方式,能弄清楚不同用戶輸入同一查詢詞,他們各自的潛在動機分別是什么,他們到底想要得到什么樣的信息。例如:用戶輸入“東北大學(xué)”,其可能是想隨機了解一些東北大學(xué)的普遍信息,也可能是想查詢今年的招生政策,還可能是想了解外界對東北大學(xué)有些什么評價。由此可見,用戶的潛在語義動機理解是個性化搜索的基石,如該環(huán)節(jié)理解得不夠準確,與用戶實際需求匹配性不高,那么后續(xù)進行的個性化服務(wù)工作就有可能誤入歧途。在實際查詢中,輸入“關(guān)鍵詞”是用戶在搜索中的第一步,代表了用戶對于自身的搜索需求的TAG化表述,互聯(lián)網(wǎng)“全息搜索理論”創(chuàng)始人順風認為:需要深刻的認識到在傳統(tǒng)搜索系統(tǒng)中“關(guān)鍵詞”在用戶心中產(chǎn)生的過程和搜索輸出之間的相互關(guān)系,發(fā)現(xiàn)在用戶搜索動機、搜索前思維量與搜索引擎反饋之間的全息聯(lián)系,用戶輸入的“關(guān)鍵詞”實際上就是一個將心算出的TAG引入搜索行為的過程,而且此類TAG應(yīng)該成為最有質(zhì)量的TAG,因為其中凝聚了搜索用戶第一反映的無意識性的內(nèi)心智慧。搜索引擎只有準確把握用戶的搜索動機,才能有的放矢地為其提供高質(zhì)量的個性化服務(wù)。
基于上述分析,本文從用戶潛在語義的用戶動機分析入手,并以此為主線,對多種個性化服務(wù)關(guān)鍵技術(shù)進行了研究,主要工作包括以下幾個方面:
(1)在計算機研究領(lǐng)域內(nèi),從哲學(xué)、心理學(xué)角度剖析用戶搜索行為,并從認知學(xué)的角度,提出了基于概率潛在語義動機分析的用戶行為模型,高度概括了各種具體搜索行為,從抽象的角度去理解用戶的搜索行為。該模型的提出為進一步研究個性化搜索提供了新的思路。
(2)在文檔潛在語義空間中,應(yīng)用Zipf分布與概率潛在語義分析算法相結(jié)合的方式進行文檔潛在主題提取,改善了文檔潛在主題提取的質(zhì)量。
(3)以狄氏先驗的有限混合模型理論為基礎(chǔ),提出了高效無監(jiān)督的網(wǎng)頁聚類算法。可以有效克服一般的文本聚類算法無法有效應(yīng)對的高維性、稀疏性文本,以及文本數(shù)據(jù)之間的相似性函數(shù)定義困難,聚類質(zhì)量和效率低等不足,改善了聚類效果,提高了捕獲用戶興趣潛在主題需求的能力。
(4)提出了一種新的基于用戶潛在語義分析的查詢擴展技術(shù)。即將通用搜索中查詢擴展的技術(shù)與用戶動機挖掘技術(shù)相結(jié)合,而開發(fā)出的一種新的查詢擴展技術(shù),解決了搜索引擎由于通用的性質(zhì)而缺乏面向用戶的個性化的信息處理的能力,從了解用戶的語義上的搜索動機以及了解認知與心理相互作用的角度出發(fā),從根本上解決了查詢過程中的一詞多義及多詞同義等問題,在個性化搜索過程中有效的進行語義消歧。
(5)針對面向查詢的排名算法的不足提出了面向用戶的重排名算法。即在原有網(wǎng)頁排序算法的基礎(chǔ)上,根據(jù)用戶的興趣偏好而提出的一種局部優(yōu)化排序算法,既符合用戶的個性化需求,又不影響搜索結(jié)果的查全率,盡可能做到其排序結(jié)果與用戶語義動機相符合。
總之,本文從用戶潛在語義動機的理解出發(fā),針對個性化搜索各個環(huán)節(jié)中的關(guān)鍵技術(shù)展開研究,如用戶建模技術(shù)、查詢擴展技術(shù)、網(wǎng)頁局部優(yōu)化排序技術(shù)、聚類技術(shù)等,力求達到用戶查詢與搜索引擎返回結(jié)果的高效匹配。
第1章 緒論 1
1.1 搜索引擎體系結(jié)構(gòu)及功能 1
1.1.1 信息的收集 2
1.1.2 信息預(yù)處理 2
1.1.3 查詢服務(wù) 2
1.2 個性化搜索引擎 2
1.2.1 個性化搜索引擎的體系結(jié)構(gòu) 2
1.2.2 個性化搜索關(guān)鍵技術(shù) 4
1.2.3 個性化搜索研究現(xiàn)狀 9
1.2.4 個性化搜索面臨的問題與挑戰(zhàn) 16
1.3 本文研究的主要內(nèi)容 18
1.4 本文的組織結(jié)構(gòu) 20
第2章 基于概率潛在語義的用戶模型構(gòu)造 21
2.1 問題提出 21
2.2 用戶模型研究綜述 23
2.2.1 用戶模型的創(chuàng)建技術(shù)研究 23
2.2.2 用戶模型的學(xué)習(xí)與更新技術(shù)研究 27
2.2.3 用戶模型應(yīng)用技術(shù)的研究 29
2.3 用戶搜索行為的理論分析 29
2.3.1 從認知角度分析用戶的搜索行為 29
2.3.2 用戶搜索行為的不確定性 33
2.3.3 用戶搜索行為分析的邏輯框架 34
2.4 用戶動機分析的兩類不確定問題 36
2.5 基于PLSA的潛在概念獲取與用戶模型構(gòu)建 37
2.5.1 概率潛在語義分析 37
2.5.2 潛在語義空間的Zipf分布 38
2.5.3 基于PLSA的用戶動機建模 39
2.5.4 用戶模型的學(xué)習(xí)與更新 43
2.6 實驗及評價 45
2.6.1 數(shù)據(jù)集 45
2.6.2 評價標準 47
2.6.3 實驗結(jié)果及分析 48
2.7 本章小結(jié) 51
第3章 基于有限混合模型的文本聚類 53
3.1 問題提出 53
3.2 傳統(tǒng)聚類算法的概述 54
3.2.1 基于相似性的聚類方法 55
3.2.2 基于模型的聚類 58
3.2.3 各類算法的對比分析 59
3.3 傳統(tǒng)聚類方式在個性化搜索中存在的問題 60
3.4 基于有限混合主題模型的文檔聚類分析 62
3.4.1 有限混合模型 62
3.4.2 EM算法 63
3.4.3 基于有限混合模型的文檔聚類 68
3.5 實驗及評價 73
3.5.1 實驗數(shù)據(jù)集 73
3.5.2 評價標準 74
3.5.3 實驗結(jié)果及分析 74
3.6 本章小結(jié) 78
第4章 基于用戶潛在語義動機的查詢擴展 79
4.1 問題提出 79
4.2 現(xiàn)有的查詢擴展方法概述 80
4.2.1 基于大規(guī)模語料庫的查詢擴展方法 80
4.2.2 基于語義關(guān)系/語義結(jié)構(gòu)的查詢擴展方法 84
4.3 目前查詢擴展方法的不足 87
4.4 基于潛在語義動機的查詢擴展 88
4.4.1 ULSM-QE的框架 88
4.4.2 查詢詞處理 90
4.4.3 查詢語義動機分析 90
4.4.4 相關(guān)度計算 94
4.4.5 查詢詞的語義消歧 95
4.4.6 生成新查詢 98
4.5 實驗及評價 101
4.5.1 數(shù)據(jù)集 101
4.5.2 評價標準 102
4.5.3 實驗結(jié)果及分析 103
4.6 本章小結(jié) 109
第5章 基于用戶偏好的網(wǎng)頁排序局部優(yōu)化策略 110
5.1 問題提出 110
5.2 傳統(tǒng)網(wǎng)頁排序算法介紹 111
5.2.1 PageRank算法及其衍生算法 111
5.2.2 HITS算法 113
5.3 傳統(tǒng)排序算法存在的問題 114
5.4 基于用戶偏好的網(wǎng)頁排序 116
5.4.1 UP-PR框架 117
5.4.2 查詢詞的主題分類 119
5.4.3 網(wǎng)頁的主題分類 120
5.4.4 參數(shù)的選擇 122
5.5 實驗及評價 123
5.5.1 數(shù)據(jù)集 123
5.5.2 評價標準 124
5.5.3 實驗結(jié)果及分析 124
5.6 本章小結(jié) 128
第6章 結(jié)論 129
6.1 本文的主要貢獻與結(jié)論 129
6.2 進一步的工作 130
參考文獻 132
作者簡介 142
- 物聯(lián)網(wǎng)導(dǎo)論(第三版) [主 編 張翼英]
- 物聯(lián)網(wǎng)編程與應(yīng)用(C#) [主編 王浩 王偉旗]
- 物聯(lián)網(wǎng)實訓(xùn)案例設(shè)計 [主編 張翼英 梁琨]
- 物聯(lián)網(wǎng)通信技術(shù) [主編 張翼英 史艷翠]
- 物聯(lián)網(wǎng)應(yīng)用綜合項目開發(fā) [主編 陳廣]
- 物聯(lián)網(wǎng)典型應(yīng)用案例 [主編 張翼英]
- 醫(yī)學(xué)信息技術(shù)應(yīng)用 [主編 王梅 何敏]
- 網(wǎng)絡(luò)廣告實務(wù)(第二版) [主編 馮暉]
- 物聯(lián)網(wǎng)技術(shù)應(yīng)用開發(fā) [主編 王浩 浦靈敏]
- Web開發(fā)與安全防范 [主編 武春嶺]
- 智能農(nóng)業(yè)技術(shù)及應(yīng)用 [鄒承俊 張霞 魯剛強 余攀 雍]
- 物聯(lián)網(wǎng)導(dǎo)論 [張翼英 楊巨成 李曉卉 等編著]
- 信息檢索 [陳明兵]
- 網(wǎng)絡(luò)互聯(lián)技術(shù)與實訓(xùn) [主編 魯頂柱 劉邦桂]
- 農(nóng)產(chǎn)品云倉模式研究—以北京農(nóng)產(chǎn)品流通
- 成長對話:青春的榜樣
- 英語大爆炸:跟趣味情景劇學(xué)口語(微課
- Amazing!兒童英語自然拼讀分級教材(
- 自然拼讀背單詞:基礎(chǔ)英語4000詞(微課
- 直播電商運營實務(wù)
- 新概念國際音標與語音語詞教練
- 自然拼讀背單詞:小學(xué)英語1000詞(第二
- 美國家庭親子英語歡樂學(xué)(全3冊)
- 簡單易懂的Python入門教程
- Python數(shù)據(jù)分析之道——Thinking in Pa
- 深入淺出OpenHarmony——架構(gòu)、內(nèi)核、
- python青少年趣味編程
- 美國家庭親子英文小故事(第2版)
- 程序員5天修煉
- 看電影追美劇學(xué)英語