大數據技術與應用

-
【作 者】主 編 蔡勁松 李偉
【I S B N 】978-7-5226-1108-2
【責任編輯】趙佳琦
【適用讀者群】高職高專
【出版時間】2023-02-09
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】216
【千字數】296
【印 張】13.5
【定 價】¥42
【叢 書】高等職業教育大數據與人工智能專業群系列教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書緊扣Hadoop生態圈相關系統對大數據處理架構進行全方位介紹,重點圍繞大數據基本概念、集群搭建、存儲管理、各類數據分析計算以及可視化等方面的基本理論、方法和關鍵技術,通過豐富的應用案例展示了大數據的應用場景以及數據價值。全書共分10章,分別是認識大數據、Hadoop集群搭建、HDFS分布式文件系統、MapReduce分布式計算框架、ZooKeeper分布式協調服務、HBase分布式數據庫、Hive數據倉庫、Sqoop數據遷移、Storm流計算和數據可視化。
全書遵循“理論夠用、實用第一”的原則選擇內容,編排合理,表述深入淺出,所有操作命令全部按序列出,并配有解釋和截圖。本書指導性、實用性強,能使讀者快速、輕松地掌握Hadoop大數據平臺運維和分析的基本技術。
本書可作為高等職業教育本科、專科院校包括大數據技術與應用專業在內的電子信息類專業相關課程教材,也可作為非計算機專業通識課程教學用書以及大數據愛好者的參考讀物。
本書附有配套電子課件、源碼、教案、教學設計等資源,讀者可從中國水利水電出版社網站(www.waterpub.com.cn)或萬水書苑網站(www.dgboyong.cn)免費下載。
體系完整—— 包括大數據采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關鍵技術,涵蓋大數據技術與應用方向比較完整的理論體系。
結合實際—— 在各部分知識的講解中,融入了大量入門級的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數據知識和技術進行深入理解,體現專業認知的引導性。
資源豐富—— 作為校企合作、資源共建的成果,配微課視頻、電子課件、源碼等資源,方便師生的教與學。
前 言
隨著互聯網技術的飛速發展,構建信息內容的數據量也在急速增加,這類量級巨大、急速增加的數據信息被稱為大數據。在各種處理大數據的系統中,Hadoop生態圈相關系統的表現無疑最為突出。本書定位于Hadoop系統的入門教程,主要內容包括大數據基礎知識、Hadoop安裝與配置管理、HDFS技術、MapReduce技術、ZooKeeper技術、HBase技術、Hive分布式數據倉庫技術、Sqoop數據遷移工具、Storm實時數據處理技術等最為常見與流行的Hadoop大數據系統架構。
本書內容編寫深入淺出,注重實戰。每章均配以實例進行講解,讀者在使用本書時,可以根據相應的操作過程進行操作,高效地掌握相關知識點及操作技能。學生通過對與大數據相關的基本知識、典型技術、具體應用進行全面而直觀的了解,在入門性的學習過程中提高對專業的認識。本書注重知識結構的基礎性,用案例開闊學生視野,啟發創新思維。本書在寫作思路和內容編排上具有以下幾個方面的特色。
(1)知識體系完整。本書內容包括大數據采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關鍵技術,涵蓋大數據技術與應用方向比較完整的理論體系,脈絡清晰,知識完整。
(2)理論與案例結合。本書在各部分知識的講解中,融入了大量入門級的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數據知識和技術進行深入理解,體現專業認知的引導性。
(3)注重實踐應用。本書在各章節中配置了運用大數據工具解決問題的綜合實踐案例,通過對實踐內容的細致講解,并輔助視頻資料,能夠幫助讀者完成動手實踐的環節,加深對專業知識的理解。
(4)適用范圍廣。本書既可作為高等職業教育本科和專科電子信息類各專業相關課程教材,也可作為非計算機專業的通識課程教學用書以及大數據愛好者的參考讀物。
本書由蔡勁松、李偉任主編,朱瑞玥、張平、宋文宇任副主編,全書統稿和定稿工作由蔡勁松完成。此外,鄒汪平、張成、王鈞、戴永恒等人也參與了資料整理工作。本書是校企合
作、資源共建的成果之一,在編寫過程中得到了合肥課工場教育科技有限公司和北京課工場教育科技有限公司大數據開發教研團隊的大力支持,在此一并表示感謝。
由于編者水平有限,書中難免存在錯誤和不妥之處,懇請讀者批評指正。編者電子郵箱:94364330@qq.com。
編 者
2022年8月
第1章 認識大數據
1.1 初識大數據 001
1.1.1 大數據產生的時代背景 001
1.1.2 大數據的發展歷程 002
1.1.3 大數據未來的發展趨勢 004
1.2 大數據基本概念 005
1.2.1 什么是大數據 005
1.2.2 大數據的特征 006
1.2.3 大數據的重要性 007
1.3 大數據關鍵技術與計算模式 009
1.3.1 大數據采集、預處理與存儲管理 010
1.3.2 MapReduce分布式計算框架 012
1.3.3 大數據分析 013
1.3.4 大數據計算模式 014
1.4 大數據與云計算、物聯網和人工智能的
關系 014
1.4.1 大數據與云計算的關系 014
1.4.2 大數據與物聯網的關系 015
1.4.3 大數據與人工智能的關系 015
小結 016
習題 016
第2章 Hadoop集群搭建
2.1 了解Linux操作系統 018
2.1.1 Linux的誕生和發展 018
2.1.2 Linux的整體架構 020
2.1.3 Linux的特點 021
2.1.4 Linux文本編輯器 022
2.1.5 Linux權限與目錄 024
2.1.6 Linux基本命令 026
2.2 認識Hadoop集群 032
2.2.1 Hadoop生態圈 032
2.2.2 Hadoop的運行模式 034
2.2.3 Hadoop的優勢 034
2.3 Hadoop集群的搭建和配置 035
2.3.1 主機的硬件配置與虛擬化軟件 035
2.3.2 Hadoop集群安裝準備 035
2.3.3 Hadoop集群搭建和配置 050
2.3.4 Hadoop集群測試 054
小結 056
習題 056
第3章 HDFS分布式文件系統
3.1 認識HDFS 058
3.1.1 HDFS產生的背景 058
3.1.2 HDFS簡介 059
3.1.3 HDFS的優缺點 059
3.2 HDFS的基本原理 060
3.2.1 HDFS的體系架構 060
3.2.2 HDFS文件讀寫原理 062
3.3 HDFS的Shell命令行操作 063
3.4 HDFS的Java API操作 065
3.4.1 Java API操作環境搭建 066
3.4.2 HDFS的Java API介紹 071
3.4.3 使用Java API操作HDFS 072
小結 074
習題 074
第4章 MapReduce分布式計算框架
4.1 認識MapReduce 076
4.1.1 MapReduce概述 076
4.1.2 MapReduce的設計思想 077
4.1.3 MapReduce編程模型 077
4.1.4 MapReduce應用實例—詞頻統計 078
4.2 MapReduce工作流程 086
4.2.1 MapReduce工作過程 086
4.2.2 Map工作過程 086
4.2.3 Reduce工作過程 087
4.2.4 Job工作過程 089
4.2.5 Shuffle工作過程 090
4.2.6 MapReduce的輸入/輸出格式 091
4.2.7 MapReduce的優化 093
4.3 YARN的設計思想與工作流程 094
4.3.1 YARN設計思想 094
4.3.2 YARN體系結構 095
4.3.3 YARN工作流程 096
4.4 MapReduce經典案例 097
4.4.1 數據去重 097
4.4.2 案例實現—數據去重 098
4.4.3 倒排索引 100
4.4.4 案例實現—倒排索引 103
小結 106
習題 106
第5章 ZooKeeper分布式協調服務
5.1 ZooKeeper概述 108
5.1.1 ZooKeeper作用 108
5.1.2 ZooKeeper特點 109
5.1.3 ZooKeeper體系結構 109
5.1.4 ZooKeeper數據模型 110
5.1.5 ZooKeeper工作原理 111
5.2 ZooKeeper安裝與運行 112
5.2.1 ZooKeeper安裝包的下載安裝 112
5.2.2 ZooKeeper相關配置 112
5.2.3 ZooKeeper服務的啟動和關閉 113
5.3 ZooKeeper的Shell操作 115
小結 118
習題 119
第6章 HBase分布式數據庫
6.1 認識NoSQL 120
6.1.1 NoSQL的特點 120
6.1.2 NoSQL的常見類型 121
6.2 HBase概述 122
6.2.1 HBase的特點與其他組件關系 123
6.2.2 HBase的數據模型 124
6.2.3 HBase的體系結構 125
6.3 HBase集群安裝 127
6.4 HBase的Shell操作 129
6.4.1 HBase Shell啟動 130
6.4.2 HBase Shell基本操作 131
小結 136
習題 137
第7章 Hive數據倉庫
7.1 認識Hive 138
7.1.1 什么是Hive 138
7.1.2 Hive架構設計 139
7.1.3 Hive數據類型 140
7.1.4 Hive服務組成 141
7.2 Hive安裝 142
7.2.1 Hive安裝模式簡介 142
7.2.2 Hive嵌入模式 142
7.2.3 Hive本地和遠程模式 143
7.3 HiveQL表操作 147
7.3.1 Hive數據庫操作 147
7.3.2 Hive內部表操作 148
7.3.3 Hive外部表操作 150
7.3.4 Hive桶表操作 152
7.4 HiveQL數據操作 154
7.4.1 HiveQL基本語法概述 154
7.4.2 HiveQL查詢實例 155
小結 161
習題 161
第8章 Sqoop數據遷移
8.1 Sqoop概述 163
8.1.1 Sqoop簡介 163
8.1.2 Sqoop的優勢 163
8.1.3 Sqoop的版本 164
8.1.4 Sqoop的構架與工作機制 164
8.2 Sqoop安裝與配置 165
8.2.1 Sqoop安裝 165
8.2.2 Sqoop配置 165
8.2.3 Sqoop配置測試 166
8.3 Sqoop的使用 167
8.3.1 數據準備工作 167
8.3.2 MySQL表數據導入HDFS 168
8.3.3 增量導入 170
8.3.4 MySQL表數據導入Hive 171
8.3.5 Sqoop數據導出 172
小結 173
習題 173
第9章 Storm流計算
9.1 流計算概述 175
9.1.1 流計算的概念 175
9.1.2 流計算的處理流程 176
9.2 Storm流計算框架 177
9.2.1 Storm概述 177
9.2.2 Storm的特點 177
9.2.3 Storm的架構 178
9.2.4 Storm工作流 178
9.2.5 Storm數據流 179
9.3 Storm集群搭建 180
9.3.1 集群規劃 180
9.3.2 Storm集群搭建 181
9.4 Storm實戰 183
9.4.1 需求分析 183
9.4.2 數據結構 183
9.4.3 項目實現 184
小結 187
習題 187
第10章 數據可視化
10.1 數據可視化簡介 189
10.1.1 數據可視化的基本概念 189
10.1.2 數據可視化的類型 190
10.2 數據可視化流程 190
10.3 可視化技術和工具 192
10.3.1 Excel 192
10.3.2 HTML5 192
10.3.3 Tableau 192
10.3.4 ECharts 193
10.3.5 Python 194
10.3.6 R語言 194
10.4 數據可視化實例 194
10.4.1 系統架構 194
10.4.2 創建數據表 195
10.4.3 平臺環境搭建 195
10.4.4 基于EChart數據可視化的實現 202
10.4.5 功能展示 206
小結 206
習題 206
- 輸水管線工程風險管理 [張勇 黨亥生 著]
- 民用航空飛機標準線路施工 [主編 王志敏 陳明]
- 不息的水脈—大運河講談錄 [趙珩 著]
- 實用運籌學 [主編 邢育紅 于晉臣]
- 三峽梯級電站水資源決策支持系統研究與開發 [姚華明 潘紅忠 湯正]
- 海南黎族民俗文化鑒賞 [龐國華 著]
- 石墨烯在太赫茲及中紅外頻段電磁器件設計中的應用 [李艷秀 莊華偉 著]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 辦公自動化高級應用 [陳萍 朱曉玉]
- 信息處理技術員考試32小時通關 [薛大龍]
- 電子產品設計案例教程(微課版)—基于嘉立創EDA(專業版) [王靜 莫志宏 陳學昌 丁紅]
- C程序設計實踐教程 [劉衛國]
- C程序設計(慕課版) [劉衛國]
- Web技術開發教程(基于.NET開源MVC框架) [王合闖 韓紅玲 王青正 陳海蕊]
- 商務英語翻譯教程(筆譯)(第四版) [主編 王軍平]
- 智慧零售技術與應用 [洪旭 著]
- 建設工程法規實務 [主編 余瀅]
- 商務秘書理論與實務(第三版) [主編 張同欽]
- 程序設計基礎實踐教程(C/C++語言版) [張桂芬 葛麗娜]
- C++案例項目精講 [主編 楊國興]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數學 [主編 郭立娟 王海]
- 語音識別理論與實踐 [主編 莫宏偉]
- 信息系統項目管理師章節習題與考點特訓(第二版) [主編 薛大龍]
- 武術基礎教程 [主編 李代勇 謝志民]
- 計算機網絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- HCIA-Datacom認證題庫分類精講 [主 編 韓立剛]
- SwiftUI完全開發 [李智威 著]
- 網絡規劃設計師備考一本通 [夏杰 編著]