數據倉庫原理、設計與應用
-
【作 者】陳京民 編著
【I S B N 】978-7-5084-2042-4
【責任編輯】曉淵工作室
【適用讀者群】本科
【出版時間】2008-06-01
【開 本】16開本
【裝幀信息】平裝(光膜)
【版 次】第1版
【頁 數】
【千字數】
【印 張】
【定 價】¥26
【叢 書】21世紀高等院校計算機系列教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書全面、地介紹了數據倉庫的原理、開發和應用技術。主要內容包含數據倉庫、聯機分析處理和數據挖掘的基本概念、體系結構、開發模型、項目規劃、創建過程和應用管理,涵蓋了數據倉庫的完整生命周期。本書力求從務實的角度出發,揭開籠罩在數據倉庫、聯機分析處理和數據挖掘上面的神秘面紗,使讀者能對數據倉庫、聯機分析處理和挖掘有一個正確認識,以推動數據倉庫在我國的健康發展。
為使讀者能夠從各種角度對數據倉庫進行全面系統的了解,并滿足不同人員的需要,本書在介紹數據倉庫、聯機分析處理和數據挖掘的原理、設計與應用全過程的同時還介紹了一個超市數據倉庫規劃、設計與實施的完整過程,并在其中穿插介紹了SQL Server 2000中的數據倉庫開發工具的具體應用,為讀者對數據倉庫的了解提供了實際參考框架。本書適合于企業各個層次的管理人員、項目開發人員,也可以作為相關專業本科生和研究生的教材。
信息技術的迅速發展和企業管理決策支持的迫切需要,在短短的幾年內將數據倉庫(Data Warehouse)從純粹的理論研究迅速轉化為決策支持領域中一種實用性極強的技術。數據倉庫的發展將我們從簡單的批處理、聯機事務處理的信息處理時代帶入了聯機分析處理、數據倉庫和數據挖掘的信息分析時代。這一發展過程具有內在的動力和外在的推力。企業在早期的信息化進程中所構建的聯機事務處理系統為企業業務快速、準確地處理提供了基本條件,同時為企業積累了大量有價值的業務信息。但是這些處理只能支持企業的日常業務工作,而對企業的經營管理決策卻很少能夠提供支持。許多企業的經營管理人員在日趨嚴重的市場競爭壓力下,開始著手建立數據存儲--數據集市用于經營管理決策,以應對日益嚴酷的市場競爭。這些因素最終促進了數據倉庫的發展與應用。數據倉庫所包含的數據倉庫技術、聯機分析處理和數據挖掘技術不僅體現了當今世界上最先進的IT技術,而且還提供了能夠對企業管理決策提供實際支持的系統。
數據倉庫的建立不僅需要有各種建設工具,而且還需要有相應的數據支持,數據倉庫的建設必須基于比較完善的信息化構架,只有在一定的信息化基礎上,才能進行數據倉庫的建設。數據倉庫的建設是企業經營管理決策與信息化的結合過程,只有依照企業管理決策的實際需要,才能建設一個支持企業管理決策的數據倉庫。數據倉庫的建設是各種先進的信息處理技術與企業管理決策結合的過程。只有將OLAP技術、數據挖掘技術與數據倉庫中龐大的數據相結合,與企業先進的管理決策方法相結合,才能使數據倉庫在企業的經營管理決策中發揮巨大的作用。數據倉庫的建設成功不僅取決于技術人員對數據倉庫開發方法與開發工具的熟練應用,更取決于數據倉庫能否得到熟練應用。可以毫不夸張地說,數據倉庫的成功關鍵在于用戶的應用情況,而不是數據倉庫開發技術的熟練應用。因此,本書在介紹了數據倉庫的開發模型和開發方法后,還用相當的篇幅介紹了數據倉庫的管理與應用。其中包含了大量的數據倉庫應用情況與應用案例,使讀者可以了解如何利用數據倉庫來降低企業的運營成本,建立更好的客戶關系管理,提高產品的質量。
為使讀者能夠清楚地了解數據倉庫的開發,本書介紹了數據倉庫開發應用的生命周期。數據倉庫的整個開發過程從數據倉庫規劃分析到設計實施,終結于應用管理,使讀者可以了解到數據倉庫開發應用的完整周期,以及如何處理在不同階段中所遇到的問題。為使讀者能夠通過實際的數據倉庫開發應用,以加深對數據倉庫與數據挖掘的了解,本書還介紹了超市數據倉庫規劃、設計和實施實例,并在其中穿插介紹了SQL Server 2000在數據倉庫開發應用中的實際應用,目的在于使讀者能夠更深入地了解數據倉庫、聯機分析處理與數據挖掘技術。
全書共分9章。第1章主要介紹數據倉庫和數據挖掘技術的產生背景、發展、總體結構和使用技術;第2章從理論上介紹了數據倉庫的開發模型--概念模型、邏輯模型、物理模型、元數據模型和數據粒度及聚集模型;第3章敘述了數據倉庫開發應用的完整周期,涉及到數據倉庫的開發規劃、需求分析、設計、實施、使用及支持等;第4章闡述了聯機分析技術(OLAP)的基本概念、結構、實施以及OLAP工具評價標準;第5章詳細介紹了傳統的數據挖掘技術--統計分析類數據挖掘技術、工具、應用及應用中的問題;第6章介紹了現代數據挖掘技術與發展,其中包含了規則類、神經網絡類、遺傳算法類和粗糙集類型等現代挖掘技術,同時還介紹了知識發現工具與應用,以及文本挖掘、Web挖掘、可視化數據挖掘、空間數據挖掘和分布式數據挖掘等數據挖掘技術的未來發展;第7章從數據倉庫的用戶、應用案例、運行技術管理、元數據管理、應用中的法律問題以及成本與效益分析等角度說明了數據倉庫的應用和管理中的問題;第8章和第9章分別介紹了數據倉庫的開發和應用實例,以及SQL Server 2000在數據倉庫開發中的具體應用。
參加本書研討并提供實例資料的還有陳京民、朱慧云、杜冬軍、俞強、吳受珠、祁泌午、王武平、葛福江、徐航、閆朝陽、李暉、沈宗軍、劉宇英等。另外,孫春亮為本書的順利出版做了大量的籌備和組織工作。在此對他們的辛勤工作表示深深的謝意!
由于數據倉庫技術正處于日新月異的發展階段,加之編者水平有限,書中謬誤或疏漏之處在所難免,懇請廣大讀者不吝指教,歡迎聯系:
E_mail:cjm20020101@sina.com。
作 者
2004年2月
第1章 數據倉庫與數據挖掘概述 1
1.1 數據倉庫的發展與展望 1
1.1.1 從傳統數據庫到數據倉庫 1
1.1.2 數據倉庫的定義與基本特性 3
1.1.3 數據倉庫的未來發展 7
1.2 數據倉庫的體系結構 8
1.2.1 數據倉庫的概念結構 8
1.2.2 虛擬數據倉庫結構 8
1.2.3 數據集市結構 9
1.2.4 單一數據倉庫結構 9
1.2.5 分布式數據倉庫結構 10
1.3 數據倉庫的參照結構 11
1.3.1 數據倉庫基本功能層 11
1.3.2 數據倉庫的管理層 18
1.3.3 數據倉庫的元數據管理層 19
1.3.4 數據倉庫的環境支持層 20
1.4 數據挖掘技術概述 21
1.4.1 數據挖掘的發展 21
1.4.2 數據挖掘的定義 22
1.5 數據挖掘技術與工具 24
1.5.1 常用的數據挖掘技術 24
1.5.2 常用數據挖掘工具 26
1.5.3 數據挖掘工具的評價標準 28
1.5.4 常用數據挖掘工具的選擇 29
1.6 數據挖掘的應用 30
1.6.1 數據挖掘與數據倉庫 30
1.6.2 數據挖掘過程 31
1.6.3 數據挖掘的用戶 35
第2章 數據倉庫開發模型 36
2.1 數據倉庫開發模型概述 36
2.2 數據倉庫概念模型 37
2.2.1 概念數據模型 37
2.2.2 規范的數據模型 40
2.2.3 星型模型 41
2.2.4 雪花模型 43
2.3 數據倉庫的邏輯模型 43
2.3.1 事實表模型設計 45
2.3.2 維模型設計 47
2.4 數據倉庫的物理模型 47
2.4.1 數據倉庫物理模型的存儲結構 47
2.4.2 數據倉庫物理模型的索引構建 48
2.4.3 數據倉庫物理模型的優化問題 52
2.5 數據倉庫的元數據模型 53
2.5.1 元數據的類型與組成 53
2.5.2 元數據在數據倉庫中的作用 55
2.5.3 元數據的收集 58
2.6 數據倉庫的粒度和聚集模型 59
2.6.1 數據粒度的劃分 60
2.6.2 確定粒度的級別 61
2.6.3 數據倉庫的聚集模型確定 62
2.6.4 聚集模型的處理 62
2.6.5 聚集模型的管理 63
第3章 數據倉庫開發應用過程 64
3.1 數據倉庫開發應用的特點 64
3.1.1 數據倉庫開發應用的階段性 64
3.1.2 數據倉庫的螺旋式開發方法 65
3.1.3 數據倉庫的開發特點 66
3.2 數據倉庫的規劃 67
3.2.1 選擇數據倉庫的實現策略 67
3.2.2 確定數據倉庫的開發目標和實現范圍 68
3.2.3 數據倉庫的結構 70
3.2.4 數據倉庫使用方案和項目規劃預算 71
3.3 數據倉庫的概念模型設計 72
3.3.1 概念模型的需求調查 72
3.3.2 概念模型的定義 73
3.3.3 概念模型的分析 76
3.3.4 概念模型的設計 77
3.3.5 概念模型文檔與評審 79
3.4 數據倉庫的邏輯模型設計 80
3.4.1 分析主題域 81
3.4.2 粒度層次和聚集的確定 82
3.4.3 確定數據分割策略 82
3.4.4 關系模型定義 83
3.4.5 數據倉庫的實體定義 83
3.4.6 數據倉庫的數據抽取模型 84
3.4.7 數據倉庫元數據模型的建立與應用 89
3.4.8 邏輯模型的評審 90
3.5 數據倉庫的物理模型設計 91
3.5.1 數據倉庫設計的規范 91
3.5.2 確定數據結構的類型 92
3.5.3 數據倉庫索引的創建 93
3.5.4 確定數據的存放位置 94
3.5.5 確定存儲分配 94
3.5.6 數據倉庫物理模型的評審 95
3.6 數據倉庫的實施 96
3.6.1 數據倉庫與業務處理系統接口的設計 97
3.6.2 數據倉庫的創建 97
3.6.3 數據倉庫的數據加載、復制與發行 98
3.6.4 數據倉庫的中間件設計 99
3.6.5 數據倉庫的測試 99
3.7 數據倉庫的應用、支持和增強 100
3.7.1 數據倉庫的用戶培訓及支持 100
3.7.2 數據倉庫的使用方式 101
3.7.3 數據倉庫使用中的數據刷新 102
3.7.4 數據倉庫的增強 103
第4章 OLAP技術 105
4.1 OLAP技術概述 105
4.1.1 OLAP的發展 105
4.1.2 OLAP的特性 105
4.2 OLAP與多維分析 106
4.2.1 多維基本概念 106
4.2.2 多維分析 109
4.2.3 維的層次關系 111
4.2.4 維的類關系 111
4.2.5 OLAP與數據倉庫的關系 112
4.3 OLAP的實施 113
4.4 多維OLAP與關系OLAP 114
4.4.1 多維數據庫 114
4.4.2 多維數據庫的數據存儲 116
4.4.3 多維數據庫與數據倉庫 116
4.4.4 MOLAP的創建與功能 117
4.4.5 ROLAP實現的三個規則 118
4.4.6 ROLAP的多維表示方法 119
4.4.7 ROLAP的創建與功能 121
4.5 OLAP技術評價 122
4.5.1 MOLAP與ROLAP的比較 122
4.5.2 OLAP的衡量標準 124
4.5.3 OLAP服務器和工具的評價標準 126
第5章 傳統數據挖掘技術 128
5.1 傳統的統計分析類數據挖掘技術 128
5.1.1 統計與統計類數據挖掘技術 128
5.1.2 數據的聚集與度量技術 129
5.1.3 柱狀圖數據挖掘技術 129
5.1.4 線性回歸數據挖掘技術 131
5.1.5 非線性回歸數據挖掘技術 133
5.1.6 聚類數據挖掘技術 133
5.1.7 最近鄰數據挖掘技術 140
5.2 統計分析類工具 141
5.2.1 統計類數據挖掘工具 141
5.2.2 統計類數據挖掘的商業分析 142
5.2.3 統計類數據挖掘工具的功能 142
5.2.4 統計類數據挖掘工具??SPSS 143
5.3 統計分析類工具的應用 146
5.3.1 趨勢分析 146
5.3.2 時序分析 147
5.3.3 周期分析 147
5.4 統計分析類工具應用的問題 148
5.4.1 統計類數據挖掘的預處理問題 148
5.4.2 統計分析應遵循的基本原則 150
5.4.3 統計分析的步驟 151
5.4.4 統計類數據挖掘的性能問題 151
第6章 現代數據挖掘技術與發展 153
6.1 知識挖掘系統的體系結構 153
6.1.1 知識發現的定義 153
6.1.2 知識發現系統的結構 154
6.2 現代挖掘技術及應用 156
6.2.1 規則型現代挖掘技術及應用 156
6.2.2 神經網絡型現代挖掘技術 161
6.2.3 遺傳算法型現代挖掘技術 166
6.2.4 粗糙集型現代挖掘技術 170
6.2.5 決策樹型現代挖掘技術 172
6.3 知識發現的工具與應用 175
6.3.1 知識挖掘工具的系統結構 175
6.3.2 知識挖掘工具運用中的問題 177
6.3.3 知識挖掘的價值 179
6.3.4 現代數據挖掘工具簡介 180
6.4 數據挖掘技術的發展 181
6.4.1 文本挖掘 181
6.4.2 Web挖掘技術 183
6.4.3 可視化數據挖掘技術 186
6.4.4 空間數據挖掘 187
6.4.5 分布式數據挖掘 190
第7章 數據倉庫的應用與管理 193
7.1 數據倉庫的用戶 193
7.1.1 數據倉庫的用戶??信息的使用者與知識的挖掘者 193
7.1.2 信息使用者的數據倉庫使用方式 193
7.1.3 知識挖掘者的數據倉庫使用方式 194
7.2 數據倉庫應用案例 195
7.2.1 分層決策體系 195
7.2.2 數據抽樣分析 197
7.2.3 發揮歷史數據的經濟效益 198
7.2.4 回扣分析 199
7.2.5 客戶關系管理 199
7.3 數據倉庫的運行技術管理 200
7.3.1 數據加載的一些問題 200
7.3.2 故障恢復管理 201
7.3.3 訪問控制與安全管理 201
7.3.4 數據增長的管理 202
7.4 數據倉庫的元數據管理 203
7.4.1 元數據的存儲、管理與維護 203
7.4.2 元數據的用戶與使用方法 204
7.4.3 元數據管理模型 206
7.5 數據倉庫應用中的法律問題 208
7.5.1 數據的隱私權問題 209
7.5.2 數據隱私權的處理 209
7.6 數據倉庫的成本與效益分析 211
7.6.1 數據倉庫的投資回報的定量分析 211
7.6.2 數據倉庫的投資回報的定性分析 212
第8章 數據倉庫開發實例 214
8.1 超市銷售數據倉庫的規劃與分析 214
8.1.1 超市銷售數據倉庫的需求分析 214
8.1.2 超市銷售數據倉庫E-R模型的構造 215
8.1.3 超市數據倉庫事實表模型 216
8.1.4 超市數據倉庫維表模型設計 218
8.1.5 超市數據倉庫模型的關鍵字設計 223
8.1.6 超市數據倉庫的元數據設計 225
8.2 數據倉庫開發工具簡介 228
8.2.1 數據倉庫開發工具 228
8.2.2 SQL Server數據倉庫開發應用工具 230
8.3 SQL Server的數據倉庫創建 232
8.3.1 創建數據庫 233
8.3.2 創建表 234
8.4 SQL Server數據倉庫事實表與多維數據集的建立 235
8.4.1 Analysis Manager數據庫的創建與數據源確定 235
8.4.2 SQL Server數據倉庫的維創建 239
8.4.3 SQL Server的多維數據集創建 246
第9章 數據倉庫應用實例 253
9.1 數據倉庫的數據加載與鉆取 253
9.1.1 數據倉庫的數據加載 253
9.1.2 超市數據倉庫系統的數據加載 256
9.1.3 多維數據集的更新 262
9.1.4 數據倉庫的鉆取訪問 267
9.1.5 數據倉庫的多維表達式MDX應用 270
9.2 數據挖掘模型的設計 272
9.2.1 數據挖掘對象的分析 272
9.2.2 數據挖掘模型與相關數據的準備 273
9.2.3 數據挖掘模型的應用 276
9.3 SQL Server中的數據挖掘工具 276
9.3.1 決策類數據挖掘工具的應用 277
9.3.2 聚類分析數據挖掘工具的應用 282
9.4 數據倉庫客戶端界面的設計 287
9.4.1 客戶端界面展現內容的設計 287
9.4.2 客戶端界面展現工具的選擇 288
9.4.3 Excel展現界面的實現 289
參考文獻 294