面向知識元的領域信息抽取與圖譜構建
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書圍繞領域信息抽取和知識圖譜構建問題,從知識元的角度利用層次主題模型獲取領域資料的知識片段;基于融合領域知識的機器學習方法對知識元中的實體、屬性及關系等信息進行抽取;并在此基礎上提出了主題擴展的知識表達及關聯模型。本書以油氣領域為例,實現了油氣成藏知識圖譜構建和應用。研究內容為非結構化資料的信息抽取,為領域知識圖譜構建提供了方法參考。
本書內容范圍屬于計算機學科在其他專業領域中的應用,既適合本領域的研究者了解機器學習、信息抽取、知識圖譜等研究前沿內容,也適合人工智能相關專業方向的本科生和研究生作為課外學習的素材。
知識元通常被認為是領域中不可再分的最小知識片段,是構成領域知識體系的基本單位。從知識元的角度出發,對行業或領域大數據進行信息抽取并構建領域知識圖譜是人工智能研究的熱點問題,也是實現智能化信息服務的重要基礎。作為典型的知識密集型產業,我國石油天然氣工業已從最初的數據獲取時代逐步過渡到對知識高度依賴的智能化時代。油氣領域的數據資料種類眾多、主題層次關系復雜,并且包含了大量的調查報告、生產記錄、研究文獻等非結構化數據。這些體量不斷增大的數據資料給油氣領域的信息化管理與服務帶來了巨大挑戰。由于缺少對資料中細粒度知識的描述,無法實現知識之間的顯式關聯,基于關鍵詞匹配和主題分類的傳統文檔管理方法具有較大的局限性,難以滿足面向知識的數據服務需求。從信息技術發展和我國油田信息化建設趨勢來看,油氣領域的信息服務正由數據服務向知識服務轉變。逐漸成熟的信息化理論與技術,如機器學習、自然語言處理、知識表示、知識圖譜等,給開展油氣領域的信息抽取和知識結構化工作帶來了契機。
本書以油氣領域為例,首先圍繞領域信息抽取和知識圖譜構建問題,在分析油氣資料內容及形式特點的基礎上,利用主題抽取算法和知識元模型對資料中的知識片段進行合理組織;然后,基于自然語言處理技術提取知識元中的實體、屬性及關系信息,用以豐富當前的資料檢索方式;最后,采用由底向上的方法逐步構建油氣成藏知識圖譜,并將其應用于油氣資料的知識檢索服務。通過文獻主題篩選和知識關聯查詢等功能提高資料信息的獲取效率并輔助用戶發現知識的隱式關聯,提高石油地質學研究的準確度和油氣勘探決策的可信度。
本書第1章為緒論,介紹了油氣領域信息抽取及知識圖譜構建的研究背景、研究現狀,并概述了本書的研究目標、內容及技術路線。第2、3章為理論基礎和關鍵技術,對知識元及知識組織方式、知識服務的含義及模式、信息抽取、知識圖譜等理論進行了闡述,并對文本表示技術、主題模型、實體及關系抽取、注意力機制與預訓練技術進行了介紹與歸納。第4章為油氣領域資料信息化概述,分析了油氣領域資料結構及主題層次的特點。第5至8章,在研究油氣領域本體構建的基礎上,開展油氣領域文本中知識元的提取、油氣藏特征信息抽取、油氣成藏知識圖譜構建等研究。第9章為結論與展望。
本書主要研究內容包括:
(1)基于層次主題的油氣領域知識元提取。
研究利用主題分析技術進行文本段落的主題特征獲取,顧及油氣領域文本主題較強的層次性和聚集性,研究利用領域內的專業詞匯對層次主題模型進行約束,以改善主題提取效果。同時,結合油氣資料結構與實際應用需求,研究油氣領域知識元的描述和提取方法;提出了基于局部特征算法聯合策略和動態規劃策略的主題知識元提取方法;提出了基于圖表標題主題相似度和圖表指示詞匹配的圖表知識元提取方法。
(2)融合領域知識的油氣藏特征信息抽取。
研究顧及油氣資料主題對應性和相關性,以油氣領域本體、專業詞匯表、關系數據庫元數據等先驗知識為輔助,研究知識元對應文本片段中油氣藏特征的信息抽取。針對油氣藏特征中重疊實體及重疊關系的提取問題,研究利用領域本體在概念及關系語義描述上的優勢,提出基于詞表特征加強的實體識別模型與基于改進標簽策略的關系提取模型,實現油氣藏特征實體、屬性及關系等特征信息的抽取。
(3)基于多特征關聯的油氣成藏知識圖譜構建。
針對已有模型在知識表示和關聯上的不足,研究建立基于多特征的知識關聯。提出了基于主題擴展的三元組知識表示和向量化方法,用于解決領域知識的表示問題。研究高維空間中多特征關聯方法,用于解決知識抽象表達和關聯問題。由此將所構建的油氣成藏知識圖譜應用于知識服務系統,提供油氣藏知識檢索及關聯服務,驗證設計方案的適應性和實用性。
本書內容是計算機學科在油氣領域中的具體應用,既適合本領域的研究者了解機器學習、信息抽取、知識圖譜等研究前沿,也適合人工智能相關專業方向的本科生和研究生作為學習參考素材。全書由作者獨撰,約19萬字。本書的編寫得到了荊楚理工學院校級科研重點項目“面向知識元的領域信息抽取及圖譜構建”(編號:ZD202319)、荊楚理工學院智聯網應用創新研究中心的資助,以及荊門市重大科技計劃項目“基于人工智能和邊緣計算融合的自動化生產線關鍵技術研究與應用”(編號:2022ZDYF019)的支持。在此,一并表示感謝!
由于作者水平有限,時間也比較倉促,書中的錯誤和不妥之處在所難免,望讀者給予批評指正。
作者
2023年8月
1.1 研究背景及意義 1
1.2 研究現狀與分析 4
1.2.1 油氣領域知識服務現狀 4
1.2.2 領域信息抽取研究進展 5
1.2.3 知識圖譜構建研究進展 7
1.2.4 存在的問題與分析 8
1.3 研究目標與研究內容 9
1.4 技術路線與章節組織 10
1.5 本章小結 13
第2章 理論基礎 14
2.1 知識元及知識組織方式 14
2.1.1 知識元的概念 14
2.1.2 知識組織方式 15
2.2 知識服務的含義及模式 17
2.2.1 知識服務含義 17
2.2.2 知識服務模式 18
2.3 信息抽取概述 19
2.3.1 引言 19
2.3.2 實體識別 21
2.3.3 關系抽取 22
2.4 知識圖譜概述 23
2.4.1 知識圖譜定義 23
2.4.2 知識圖譜邏輯框架 24
2.4.3 知識圖譜構建流程 24
2.5 本章小結 32
第3章 關鍵技術 34
3.1 文本表示技術 34
3.1.1 淺層語義表示 34
3.1.2 深層語義表示 35
3.1.3 多粒度文本表示 37
3.2 主題模型與主題域劃分 37
3.2.1 主題模型概述 38
3.2.2 主題域的劃分 42
3.3 實體及關系抽取技術 43
3.3.1 基于神經網絡的實體抽取 43
3.3.2 基于聯合模型的關系抽取 45
3.4 注意力機制與預訓練技術 47
3.4.1 自然語言的注意力機制 47
3.4.2 預訓練的語言模型技術 50
3.5 本章小結 51
第4章 油氣領域資料信息化概述 52
4.1 油氣資料的收集與匯總 52
4.2 油氣資料的分類及特點 53
4.2.1 油氣資料分類 54
4.2.2 油氣文檔特點 55
4.3 我國油氣資料信息化建設 58
4.3.1 國家的油氣資料信息化建設 59
4.3.2 企業的油氣資料信息化建設 59
4.4 我國油氣資料信息服務 60
4.4.1 傳統的信息服務 60
4.4.2 面向知識的服務 61
4.5 本章小結 62
第5章 油氣領域本體構建研究 64
5.1 油氣藏的概念及其特征 64
5.1.1 油氣藏概念 64
5.1.2 油氣藏特征 65
5.2 構建原則及方法 67
5.2.1 本體構建原則 67
5.2.2 本體建立方法 68
5.3 規劃與設計 70
5.4 概念及關系的建立 71
5.4.1 敘詞表與領域本體映射關系的建立 71
5.4.2 數據庫元數據及實體關系的獲取 73
5.5 存儲與評價 76
5.5.1 領域本體存儲 76
5.5.2 本體評價與進化 77
5.6 本章小結 77
第6章 基于層次主題的領域知識元提取 79
6.1 引言 79
6.2 相關工作 80
6.3 數據準備 81
6.3.1 數據的選擇與收集 81
6.3.2 資料文檔預處理 81
6.4 基于詞約束hLDA的油氣資料層次主題提取 82
6.4.1 概述 82
6.4.2 詞約束hLDA模型設計 83
6.4.3 領域文本主題提取方法 85
6.4.4 實驗 87
6.5 顧及資料結構特點的油氣領域知識元提取 92
6.5.1 概述 92
6.5.2 主題特征知識元提取方法 94
6.5.3 圖表關聯知識元提取方法 96
6.5.4 實驗 98
6.6 本章小結 102
第7章 融合油氣領域知識的信息抽取 104
7.1 引言 104
7.2 相關工作 105
7.3 基于詞表特征加強的油氣領域實體提取 107
7.3.1 概述 107
7.3.2 油氣藏特征實體類型分析 108
7.3.3 油氣藏特征實體語料標注 110
7.3.4 一種基于詞匯特征增強的實體抽取模型 111
7.3.5 實驗 114
7.4 基于改進標簽策略的油氣領域關系提取 118
7.4.1 概述 118
7.4.2 油氣藏特征關系類型分析 119
7.4.3 語義重疊的關系標簽策略 121
7.4.4 一種優化標簽策略的關系抽取模型 123
7.4.5 實驗 125
7.5 本章小結 129
第8章 油氣成藏知識圖譜構建及應用 131
8.1 引言 131
8.2 基于主題的油氣藏知識的表示 132
8.2.1 擴展的三元組知識表示方法 132
8.2.2 融合異質輔助信息的三元組向量化模型 134
8.3 基于多特征的油氣藏知識元關聯方法 135
8.3.1 知識元的抽象表達 135
8.3.2 多特征距離度量 136
8.4 油氣成藏知識圖譜構建與服務系統設計 138
8.4.1 油氣成藏知識圖譜構建 138
8.4.2 油氣成藏知識服務系統設計 139
8.5 油氣成藏知識圖譜的服務應用 144
8.5.1 文獻知識主題篩選 145
8.5.2 知識信息檢索服務 146
8.5.3 知識信息關聯服務 150
8.6 本章小結 151
第9章 結論與展望 153
9.1 全書總結 153
9.2 工作展望 154
參考文獻 155
- 電子產品設計與制作 [黃荻 陳志漫]
- 數據庫原理與實踐(MySQL版) [楊俊杰 劉忠艷]
- 南陽漢代畫像石造型語言研究 [龐國華 著]
- C語言程序設計(第三版) [主 編 丁紅 王立新 蔡開立]
- 民航客艙服務實用英語教程 [主編 田靜 徐亞玲]
- 軟考論文高分特訓與范文10篇—信息系統項目管理師(第二版) [主編 薛大龍]
- Python數據分析 [主編 馮志輝 趙磊 李放]
- 大學信息技術 [曾翰穎 編著]
- 大學生創新創業基礎 [主 編 李婷 張玉萍]
- Python程序設計與應用(第二版) [主編 張廣淵]
- 多維視域下的高校籃球教學創新研究 [張利超 李寧 著]
- 創新創業訓練實踐教程 [主編 王日華 陳武 黃喆誠]
- 智能控制導論(第四版) [蔡自興 編著]
- 輸水管線工程風險管理 [張勇 黨亥生 著]
- 民用航空飛機標準線路施工 [主編 王志敏 陳明]
- 不息的水脈—大運河講談錄 [趙珩 著]
- 實用運籌學 [主編 邢育紅 于晉臣]
- 三峽梯級電站水資源決策支持系統研究與開發 [姚華明 潘紅忠 湯正]
- 海南黎族民俗文化鑒賞 [龐國華 著]
- 石墨烯在太赫茲及中紅外頻段電磁器件設計中的應用 [李艷秀 莊華偉 著]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 辦公自動化高級應用 [陳萍 朱曉玉]
- 信息處理技術員考試32小時通關 [薛大龍]
- 電子產品設計案例教程(微課版)—基于嘉立創EDA(專業版) [王靜 莫志宏 陳學昌 丁紅]
- C程序設計實踐教程 [劉衛國]
- C程序設計(慕課版) [劉衛國]
- Web技術開發教程(基于.NET開源MVC框架) [王合闖 韓紅玲 王青正 陳海蕊]
- 商務英語翻譯教程(筆譯)(第四版) [主編 王軍平]
- 智慧零售技術與應用 [洪旭 著]
- 建設工程法規實務 [主編 余瀅]