大數據技術導論
-
【作 者】主編 樊繼慧 李旭耀
【I S B N 】978-7-5226-1101-3
【責任編輯】王玉梅
【適用讀者群】本專通用
【出版時間】2022-11-01
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】152
【千字數】237
【印 張】9.5
【定 價】¥32
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書根據現有的大數據技術理論,綜合介紹了大數據技術的相關基礎理論知識,并提供了部分實踐操作介紹。本書共8 個章節,內容包含大數據的概念和特征,大數據計量,大數據生命周期,大數據與云計算,Hadoop,HDFS,MapReduce,大數據編程語言Python、Spark、R 語言,數據預處理,聚類分析,k- 鄰近分類算法,數據可視化,大數據應用,大數據安全與威脅,爬蟲技術,MINIST 數字識別技術。本書分別在大數據采集與預處理、數據挖掘與分析等重要章節中安排了入門級的實踐操作內容,以便讀者更好地學習和掌握大數據關鍵技術。
內容實用——理論與實踐結合,重點突出應用
體系完善——構建完整的大數據專業解決方案
產教融合——高校企業共參與,對標行業標準
當前,新一代信息技術正在全球孕育興起,科技創新、產業形態和應用格局正發生著重大變革。隨著數據獲取和計算技術的進步,大數據已成為一種新的國家戰略資源,并引起了學術界、產業界、政府及行業用戶等的高度關注。世界主要發達國家已經相繼制定了促進大數據產業發展的政策法規,積極構建大數據生態,實施大數據國家戰略。
大數據技術正處于快速發展之中,不斷有新的技術涌現。基于互聯網技術而發展起來的大數據技術,將會有顛覆性的影響。
本書定位為大數據專業課程的導論課教材,以“構建知識體系,闡明基本原理,開展初級實踐,了解相關應用”為原則,旨在為讀者搭建起通往大數據知識空間的橋梁,為讀者在大數據領域的“精耕細作”奠定基礎、指明方向。本書主要幫助讀者掌握大數據的基本原理和基本知識,熟悉大數據技術在多個行業的應用,加深讀者對大數據的理解。本書注重知識結構的基礎性與完整性,確保技術內容的通用性、普適性與先進性,遵循教育規律,加強能力培養,同時附加大數據實操案例,開闊讀者視野,啟發創新思維。
本書共8 個章節,從概念、技術、應用以及發展等方面,全面介紹了當前大數據的體系與基本發展情況。第1 章主要介紹與大數據相關的基礎概念,包括大數據的特征、計量、生命周期以及當前時代大數據的重大變革;第2 章主要介紹大數據的生態系統,包括Hadoop、HDFS、MapReduce 以及編程語言Python、Spark 和R 語言;第3 章主要介紹大數據采集的工具技術和大數據預處理階段的相關技術與方法,包括數據采集的分類、工具,數據清洗的任務、過程以及網絡爬蟲的實例介紹;第4 章詳細介紹了數據挖掘與分析的相關知識,包括大數據分析的概念、流程、特點、難點,數據認知以及數據建模知識,附加數據挖掘與分析的案例詳解;第5 章圍繞大數據可視化展開討論,介紹其作用與分類,并剖析其發展歷史以及未來的發展方向與挑戰;第6 章主要介紹大數據分別在互聯網行業、金融行業、保險行業以及旅游行業的應用;第7 章根據目前大數據發展的現狀,對大數據安全以及大數據所面臨的安全威脅做出了詳細剖析;第8 章為大數據案例實操分析,主要通過實踐案例來加深讀者對前面章節的學習理解。
本書由樊繼慧、李旭耀主編。本書主編結合自己在廣州理工學院多年的工作經驗,以大量事實數據為基礎,進行研究工作;高新凱老師為本書資源建設做了很多有益工作。中國水利水電出版社的有關負責同志對本書的出版給予了大力支持。本書在編寫過程中參考了大量國內外計算機網絡文獻資料,在此,謹向這些著作者以及為本書出版付出辛勤勞動的同志深表感謝!
期待讀者在本書的介紹中能得到關于大數據的基礎理解與收獲,由于編者能力有限,書中難免存在不足之處,望廣大讀者不吝賜教。
第1 章 概論 .................................................................. 1
1.1 揭秘大數據 ............................................................... 1
1.1.1 大數據概念和特征 .......................................... 4
1.1.2 大數據的計量 .................................................. 6
1.1.3 大數據生命周期 .............................................. 7
1.1.4 大數據與云計算 .............................................. 9
1.1.5 大數據時代的重大變革 ................................ 11
1.2 大數據關鍵技術 ..................................................... 13
練習1 ............................................................................... 13
第2 章 大數據生態系統 .............................................. 14
2.1 Hadoop .................................................................... 14
2.1.1 Hadoop 簡介................................................... 15
2.1.2 Hadoop 優勢................................................... 16
2.2 HDFS ....................................................................... 16
2.2.1 HDFS 體系結構 ............................................. 17
2.2.2 HDFS 存儲原理 ............................................. 17
2.2.3 HDFS 常用操作 ............................................. 18
2.3 MapReduce .............................................................. 18
2.3.1 MapReduce 簡介 ............................................ 19
2.3.2 MapReduce 的適用場景 ................................ 19
2.3.3 MapReduce 的優點和缺點 ............................ 19
2.4 大數據編程語言 ..................................................... 20
2.4.1 Python ............................................................. 20
2.4.2 Spark ............................................................... 22
2.4.3 R 語言............................................................. 25
練習2 ............................................................................... 30
第3 章 大數據采集與預處理 ....................................... 31
3.1 數據采集 ................................................................. 31
3.1.1 數據采集分類 ................................................ 32
3.1.2 數據采集方法 ................................................ 32
3.1.3 數據采集工具 ................................................ 34
3.2 數據清洗 ................................................................. 35
3.2.1 數據清洗任務 ................................................ 35
3.2.2 數據清洗過程 ................................................ 35
3.3 數據變換 ................................................................. 37
3.3.1 規范化 ............................................................ 37
3.3.2 數據變換分類 ................................................ 38
3.4 數據分析與采集實例:線性回歸和邏輯回歸 ..... 39
練習3 ............................................................................... 47
第4 章 數據挖掘與分析 .............................................. 48
4.1 大數據分析概述 ..................................................... 48
4.1.1 數據分析原則 ................................................ 48
4.1.2 大數據分析特點 ............................................ 49
4.1.3 大數據分析流程 ............................................ 50
4.1.4 數據分析師基本技能和素質 ........................ 51
4.1.5 大數據分析難點 ............................................ 52
4.2 數據認知 ................................................................. 53
4.2.1 數據預處理 .................................................... 55
4.2.2 概率分析 ........................................................ 56
4.2.3 對比分析 ........................................................ 56
4.2.4 相關分析 ........................................................ 57
4.3 數據建模 ................................................................. 57
4.3.1 模型分類 ........................................................ 58
4.3.2 決策樹 ............................................................ 58
4.3.3 關聯分析 ........................................................ 62
4.3.4 回歸分析 ........................................................ 67
4.3.5 聚類分析 ........................................................ 69
4.3.6 k- 近鄰分類算法 ............................................ 70
4.4 數據挖掘與分析案例分析 ..................................... 71
練習4 ............................................................................... 73
第5 章 數據可視化技術 .............................................. 74
5.1 數據可視化概述 ..................................................... 74
5.2 數據可視化的作用 ................................................. 75
5.3 數據可視化的分類 ................................................. 75
5.4 數據可視化的發展歷史 ......................................... 76
5.5 數據可視化發展方向與挑戰 ................................. 76
5.6 數據可視化的流程與原則 ..................................... 77
5.7 大數據可視化實操 ................................................. 78
5.7.1 Tableau 安裝與ODBC 創建 ......................... 79
5.7.2 Tableau 繪圖實操演示 ................................... 86
練習5 ............................................................................... 92
第6 章 大數據應用 ..................................................... 93
6.1 互聯網行業大數據應用 ......................................... 93
6.2 金融行業大數據應用 ............................................. 97
6.3 保險行業大數據應用 ............................................. 99
6.4 旅游行業大數據應用 ........................................... 101
6.5 政府大數據應用 ................................................... 103
6.5.1 發展歷程 ...................................................... 104
6.5.2 行業痛點 ...................................................... 106
6.5.3 發展機會 ...................................................... 106
6.5.4 社會價值 ...................................................... 107
6.5.5 機遇與挑戰 .................................................. 108
6.6 大數據應用平臺 ................................................... 109
練習6 ..............................................................................111
第7 章 大數據安全 ................................................... 112
7.1 大數據安全的重要意義 ....................................... 112
7.2 大數據面臨的挑戰 ............................................... 114
7.3 大數據的安全威脅 ............................................... 116
7.3.1 大數據基礎設施安全威脅 .......................... 117
7.3.2 大數據存儲安全威脅 .................................. 118
7.3.3 大數據的隱私泄露 ...................................... 121
7.3.4 大數據的其他安全威脅 .............................. 125
練習7 ............................................................................. 127
第8 章 大數據案例實操分析 ..................................... 128
8.1 大數據案例分析的前期準備工作 ....................... 128
8.2 案例一:爬蟲技術 ............................................... 130
8.2.1 認識爬蟲 ...................................................... 130
8.2.2 認識HTTP ................................................... 132
8.2.3 實現HTTP 請求 .......................................... 133
8.2.4 常規動態網頁爬取 ...................................... 135
8.3 案例二:MINIST 數字識別技術 ........................ 140
練習8 ............................................................................. 143
參考文獻 ..................................................................... 144
- 輸水管線工程風險管理 [張勇 黨亥生 著]
- 民用航空飛機標準線路施工 [主編 王志敏 陳明]
- 不息的水脈—大運河講談錄 [趙珩 著]
- 實用運籌學 [主編 邢育紅 于晉臣]
- 三峽梯級電站水資源決策支持系統研究與開發 [姚華明 潘紅忠 湯正]
- 海南黎族民俗文化鑒賞 [龐國華 著]
- 石墨烯在太赫茲及中紅外頻段電磁器件設計中的應用 [李艷秀 莊華偉 著]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 辦公自動化高級應用 [陳萍 朱曉玉]
- 信息處理技術員考試32小時通關 [薛大龍]
- 電子產品設計案例教程(微課版)—基于嘉立創EDA(專業版) [王靜 莫志宏 陳學昌 丁紅]
- C程序設計實踐教程 [劉衛國]
- C程序設計(慕課版) [劉衛國]
- Web技術開發教程(基于.NET開源MVC框架) [王合闖 韓紅玲 王青正 陳海蕊]
- 商務英語翻譯教程(筆譯)(第四版) [主編 王軍平]
- 智慧零售技術與應用 [洪旭 著]
- 建設工程法規實務 [主編 余瀅]
- 商務秘書理論與實務(第三版) [主編 張同欽]
- 程序設計基礎實踐教程(C/C++語言版) [張桂芬 葛麗娜]
- C++案例項目精講 [主編 楊國興]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數學 [主編 郭立娟 王海]
- 語音識別理論與實踐 [主編 莫宏偉]
- 信息系統項目管理師章節習題與考點特訓(第二版) [主編 薛大龍]
- 武術基礎教程 [主編 李代勇 謝志民]
- 計算機網絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- HCIA-Datacom認證題庫分類精講 [主 編 韓立剛]
- SwiftUI完全開發 [李智威 著]
- 網絡規劃設計師備考一本通 [夏杰 編著]