大數據導論
-
【作 者】苑迎春
【I S B N 】978-7-5170-9410-4
【責任編輯】石永峰
【適用讀者群】本專通用
【出版時間】2021-02-04
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】240
【千字數】368
【印 張】15
【定 價】¥45
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書以大數據處理流程為主線,重點介紹大數據獲取、預處理、存儲管理、挖掘分析以及可視化等方面的基本理論、方法和關鍵技術,通過豐富的應用案例展示了行業大數據的應用場景以及數據價值。本書共7章:數據與大數據時代、大數據獲取和預處理、大數據存儲與管理、大數據挖掘分析、大數據可視化、大數據處理技術和行業大數據應用。
本書深入淺出、圖文并茂,注重廣度與深度結合、科學性與實用性結合,是為高等院校數據科學與大數據技術專業的“大數據導論”課程編寫的教材,可作為高職高專大數據技術與應用專業的教材,也可作為大學非計算機專業的本科生或研究生的通識課程教學用書以及大數據愛好者的科普讀物。
內容實用——理論與實踐結合,重點突出應用
體系完善——構建完整的大數據專業解決方案
產教融合——高校企業共參與,對標行業標準
資源豐富——微課、課件、教案、源碼、答案
隨著物聯網、移動互聯網的興起,全球數據呈爆炸式增長,各行各業都在經歷大數據帶來的革命,大數據時代已經到來。大數據具有體量巨大、速度極快、類型眾多、價值巨大的特點,對數據從產生、存儲、分析到利用提出了前所未有的新要求。為了響應社會發展需要,教育部于2016年開始在高等院校正式開設“數據科學與大數據技術”專業,本書正是為數據科學與大數據技術專業的“大數據導論”課程編寫的教材。
本書旨在讓大學新生對該專業相關的基本知識、典型技術、具體應用等有一個相對全面而直觀的了解,在入門性的學習過程中提高對專業的認識,激發學生的專業學習興趣。本書注重知識結構的基礎性與完整性,確保技術內容的通用性、普適性與先進性,遵循教育規律,加強能力培養,同時精選行業應用案例,開闊學生視野,啟發創新思維。本書在寫作思路和內容編排上具有以下幾個方面的特色。
(1)知識體系完整。本書包括大數據采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關鍵技術,涵蓋數據科學與大數據技術專業比較完整的理論體系,脈絡清晰,知識完整。
(2)理論與案例結合。本書在各部分知識的講解中,融入了大量入門性的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數據知識和技術進行深入理解,體現專業認知的引導性。
(3)注重實踐應用。本書在各章節中配置了運用大數據工具解決問題的綜合實踐案例,通過實踐內容的細致講解和輔助的視頻,能夠幫助讀者完成動手實踐的環節,加深讀者對專業知識的理解。
(4)適用范圍廣。本書是為高等院校數據科學與大數據技術專業的“大數據導論”課程編寫的教材,可作為高職高專大數據技術與應用專業的教材,也可作為大學非計算機專業的本科生或研究生的通識課程教學用書以及大數據愛好者的科普讀物。
本書共7章:數據與大數據時代、大數據獲取和預處理、大數據存儲與管理、大數據挖掘分析、大數據可視化、大數據處理技術和行業大數據應用。第1章介紹大數據的發展歷程、大數據思維、數據科學的內涵以及大數據處理流程等;第2章至第6章以數據獲取和預處理、數據存儲管理、數據挖掘分析、數據可視化的大數據處理流程為主線,對大數據的關鍵技術進行講解,進一步闡述當前典型大數據處理平臺中的技術和方法;第7章介紹行業大數據的典型應用案例,讓讀者了解大數據在農業、教育、社交、旅游、交通、金融等多個行業中應用帶來的巨大價值。
本書由苑迎春任主編,徐靜、路小英、王超、董素芬任副主編,其中第1章由苑迎春、宋宇斐編寫,第2章由程芳、王超編寫,第3章由王超編寫,第4章由路小英編寫,第5章由董素芬、徐靜編寫,第6章由沈紅巖、苑迎春編寫,第7章由徐靜、宋宇斐、孫潔麗、賀平編寫,全書統稿工作由苑迎春完成。
本書參考了大量圖書資料,也參考了大量網絡資源,在編寫過程中,河北農業大學信息科學與技術學院的研究生潘飛、何晨等做了大量輔助性工作,在此一并向他們表示衷心感謝。由于編者水平有限,加之時間倉促,書中難免存在錯誤和不妥之處,懇請讀者批評指正。
編 者
2020年10月
1.1 從數據到大數據 2
1.1.1 數據及其作用 2
1.1.2 大數據時代的到來 3
1.2 大數據概念 3
1.2.1 大數據定義 3
1.2.2 大數據結構 4
1.2.3 大數據特征 5
1.3 大數據思維 6
1.3.1 全樣思維 6
1.3.2 容錯思維 7
1.3.3 相關思維 8
1.4 數據科學的內涵 9
1.4.1 科學研究的第四范式 9
1.4.2 數據科學的內涵 10
1.4.3 數據科學對其他學科的影響 11
1.5 大數據處理技術 12
1.5.1 大數據處理流程 12
1.5.2 大數據計算模式 14
1.6 大數據應用 16
1.6.1 大數據的行業應用 16
1.6.2 大數據的商用途徑 20
習題與思考 22
第2章 大數據獲取和預處理 23
2.1 概述 24
2.1.1 數據的來源 24
2.1.2 數據的質量 25
2.1.3 數據預處理 26
2.2 大數據獲取方法 27
2.2.1 分布式日志采集 27
2.2.2 網絡爬蟲 34
2.2.3 其他獲取方法 44
2.3 大數據預處理技術 46
2.3.1 數據清洗 46
2.3.2 數據集成 49
2.3.3 數據歸約 51
2.3.4 數據變換 55
2.3.5 Kettle數據轉換實例 58
習題與思考 66
第3章 大數據存儲與管理 68
3.1 概述 69
3.1.1 數據庫管理技術 69
3.1.2 數據倉庫管理技術 70
3.1.3 大數據存儲管理技術 72
3.2 關系數據庫存儲與查詢 74
3.2.1 關系數據模型 74
3.2.2 關系數據庫管理系統 76
3.2.3 SQL結構化查詢語言 77
3.3 大數據存儲與查詢 80
3.3.1 分布式文件系統 80
3.3.2 NoSQL數據庫 81
3.3.3 NewSQL數據庫 90
3.3.4 云數據庫 91
3.3.5 大數據SQL查詢引擎 93
習題與思考 96
第4章 大數據挖掘分析 98
4.1 概述 99
4.1.1 數據挖掘的概念 99
4.1.2 數據挖掘的流程 99
4.1.3 數據挖掘常用方法 100
4.1.4 數據挖掘常用工具 100
4.2 數據統計分析 101
4.2.1 數據的集中趨勢 101
4.2.2 數據的離散程度 102
4.2.3 數據的相關性度量 103
4.3 數據挖掘方法 106
4.3.1 聚類分析 106
4.3.2 關聯分析 107
4.3.3 分類分析 111
4.3.4 回歸分析 116
4.4 數據分析應用舉例 118
4.4.1 描述分析案例 118
4.4.2 相關分析案例 120
4.4.3 回歸分析案例 120
習題與思考 123
第5章 大數據可視化 125
5.1 概述 126
5.1.1 數據可視化的目標 126
5.1.2 數據與可視化的關系 128
5.2 大數據可視化方法 129
5.2.1 統計數據可視化 130
5.2.2 關系數據可視化 132
5.2.3 時空數據可視化 133
5.2.4 文本數據可視化 134
5.3 可視化技術和工具 136
5.3.1 數據可視化工具 136
5.3.2 可視化編程語言 138
5.3.3 Web可視化技術 139
5.4 Excel數據可視化示例 140
5.4.1 對比—直方圖 140
5.4.2 趨勢—折線圖 142
5.4.3 占比—餅狀圖 144
5.4.4 分布—散點圖 147
5.4.5 多維數據—雷達圖 148
5.4.6 綜合應用—動態看板 149
5.5 Tableau數據可視化示例 150
5.5.1 氣泡圖 150
5.5.2 文字云 152
5.5.3 盒須圖 153
5.5.4 地圖 155
習題與思考 155
第6章 大數據處理技術 158
6.1 概述 159
6.1.1 集中式與分布式計算架構 159
6.1.2 大數據處理平臺架構 161
6.1.3 典型的大數據計算平臺 162
6.2 Hadoop分布式計算平臺 164
6.2.1 Hadoop概述 164
6.2.2 Hadoop生態體系 166
6.2.3 Hadoop核心技術 171
6.3 Spark內存計算架構 178
6.3.1 Spark概述 178
6.3.2 Spark技術架構 179
6.3.3 Spark核心技術 181
習題與思考 185
第7章 行業大數據應用 187
7.1 農業大數據應用 188
7.1.1 概述 188
7.1.2 農業大數據在智慧棉花系統中的應用 189
7.1.3 農業大數據助力奶牛數字化精細養殖 190
7.1.4 農業大數據應用于農作物蟲害預測分析 192
7.1.5 農業大數據支撐渤海糧倉增產增效 194
7.2 教育大數據應用 195
7.2.1 概述 195
7.2.2 教育大數據助力教學改革案例 196
7.2.3 教育大數據支持MOOC中學生
活躍度分析 197
7.2.4 教育大數據助力個性化學習 198
7.2.5 教育大數據支持貧困生精準管理 200
7.3 社交大數據應用 201
7.3.1 概述 202
7.3.2 社交大數據支撐個性化推薦 203
7.3.3 社交大數據服務識別風險客戶 204
7.3.4 社交大數據應用于城市規劃 205
7.4 旅游大數據應用 206
7.4.1 概述 206
7.4.2 旅游大數據助力精準營銷 207
7.4.3 旅游大數據支撐智慧旅游 210
7.5 交通大數據應用 213
7.5.1 概述 213
7.5.2 城市交通大數據應用案例 214
7.5.3 鐵路交通大數據應用案例 217
7.6 金融大數據應用 219
7.6.1 概述 219
7.6.2 金融大數據服務精準營銷 220
7.6.3 金融大數據服務銀行資源配置規劃 223
7.6.4 金融大數據增強風險防控 226
7.6.5 金融大數據支撐普惠服務 227
習題與思考 229
參考文獻 230
參考資料 232
- 輸水管線工程風險管理 [張勇 黨亥生 著]
- 民用航空飛機標準線路施工 [主編 王志敏 陳明]
- 不息的水脈—大運河講談錄 [趙珩 著]
- 實用運籌學 [主編 邢育紅 于晉臣]
- 三峽梯級電站水資源決策支持系統研究與開發 [姚華明 潘紅忠 湯正]
- 海南黎族民俗文化鑒賞 [龐國華 著]
- 石墨烯在太赫茲及中紅外頻段電磁器件設計中的應用 [李艷秀 莊華偉 著]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 辦公自動化高級應用 [陳萍 朱曉玉]
- 信息處理技術員考試32小時通關 [薛大龍]
- 電子產品設計案例教程(微課版)—基于嘉立創EDA(專業版) [王靜 莫志宏 陳學昌 丁紅]
- C程序設計實踐教程 [劉衛國]
- C程序設計(慕課版) [劉衛國]
- Web技術開發教程(基于.NET開源MVC框架) [王合闖 韓紅玲 王青正 陳海蕊]
- 商務英語翻譯教程(筆譯)(第四版) [主編 王軍平]
- 智慧零售技術與應用 [洪旭 著]
- 建設工程法規實務 [主編 余瀅]
- 商務秘書理論與實務(第三版) [主編 張同欽]
- 程序設計基礎實踐教程(C/C++語言版) [張桂芬 葛麗娜]
- C++案例項目精講 [主編 楊國興]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數學 [主編 郭立娟 王海]
- 語音識別理論與實踐 [主編 莫宏偉]
- 信息系統項目管理師章節習題與考點特訓(第二版) [主編 薛大龍]
- 武術基礎教程 [主編 李代勇 謝志民]
- 計算機網絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- HCIA-Datacom認證題庫分類精講 [主 編 韓立剛]
- SwiftUI完全開發 [李智威 著]
- 網絡規劃設計師備考一本通 [夏杰 編著]