大數(shù)據(jù)技術與應用
-
【作 者】主 編 蔡勁松 李偉
【I S B N 】978-7-5226-1108-2
【責任編輯】趙佳琦
【適用讀者群】高職高專
【出版時間】2023-02-09
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數(shù)】216
【千字數(shù)】296
【印 張】13.5
【定 價】¥42
【叢 書】高等職業(yè)教育大數(shù)據(jù)與人工智能專業(yè)群系列教材
【備注信息】
簡介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關圖書
本書緊扣Hadoop生態(tài)圈相關系統(tǒng)對大數(shù)據(jù)處理架構進行全方位介紹,重點圍繞大數(shù)據(jù)基本概念、集群搭建、存儲管理、各類數(shù)據(jù)分析計算以及可視化等方面的基本理論、方法和關鍵技術,通過豐富的應用案例展示了大數(shù)據(jù)的應用場景以及數(shù)據(jù)價值。全書共分10章,分別是認識大數(shù)據(jù)、Hadoop集群搭建、HDFS分布式文件系統(tǒng)、MapReduce分布式計算框架、ZooKeeper分布式協(xié)調服務、HBase分布式數(shù)據(jù)庫、Hive數(shù)據(jù)倉庫、Sqoop數(shù)據(jù)遷移、Storm流計算和數(shù)據(jù)可視化。
全書遵循“理論夠用、實用第一”的原則選擇內容,編排合理,表述深入淺出,所有操作命令全部按序列出,并配有解釋和截圖。本書指導性、實用性強,能使讀者快速、輕松地掌握Hadoop大數(shù)據(jù)平臺運維和分析的基本技術。
本書可作為高等職業(yè)教育本科、?圃盒0ù髷(shù)據(jù)技術與應用專業(yè)在內的電子信息類專業(yè)相關課程教材,也可作為非計算機專業(yè)通識課程教學用書以及大數(shù)據(jù)愛好者的參考讀物。
本書附有配套電子課件、源碼、教案、教學設計等資源,讀者可從中國水利水電出版社網站(www.waterpub.com.cn)或萬水書苑網站(www.dgboyong.cn)免費下載。
體系完整—— 包括大數(shù)據(jù)采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關鍵技術,涵蓋大數(shù)據(jù)技術與應用方向比較完整的理論體系。
結合實際—— 在各部分知識的講解中,融入了大量入門級的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數(shù)據(jù)知識和技術進行深入理解,體現(xiàn)專業(yè)認知的引導性。
資源豐富—— 作為校企合作、資源共建的成果,配微課視頻、電子課件、源碼等資源,方便師生的教與學。
前 言
隨著互聯(lián)網技術的飛速發(fā)展,構建信息內容的數(shù)據(jù)量也在急速增加,這類量級巨大、急速增加的數(shù)據(jù)信息被稱為大數(shù)據(jù)。在各種處理大數(shù)據(jù)的系統(tǒng)中,Hadoop生態(tài)圈相關系統(tǒng)的表現(xiàn)無疑最為突出。本書定位于Hadoop系統(tǒng)的入門教程,主要內容包括大數(shù)據(jù)基礎知識、Hadoop安裝與配置管理、HDFS技術、MapReduce技術、ZooKeeper技術、HBase技術、Hive分布式數(shù)據(jù)倉庫技術、Sqoop數(shù)據(jù)遷移工具、Storm實時數(shù)據(jù)處理技術等最為常見與流行的Hadoop大數(shù)據(jù)系統(tǒng)架構。
本書內容編寫深入淺出,注重實戰(zhàn)。每章均配以實例進行講解,讀者在使用本書時,可以根據(jù)相應的操作過程進行操作,高效地掌握相關知識點及操作技能。學生通過對與大數(shù)據(jù)相關的基本知識、典型技術、具體應用進行全面而直觀的了解,在入門性的學習過程中提高對專業(yè)的認識。本書注重知識結構的基礎性,用案例開闊學生視野,啟發(fā)創(chuàng)新思維。本書在寫作思路和內容編排上具有以下幾個方面的特色。
(1)知識體系完整。本書內容包括大數(shù)據(jù)采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關鍵技術,涵蓋大數(shù)據(jù)技術與應用方向比較完整的理論體系,脈絡清晰,知識完整。
(2)理論與案例結合。本書在各部分知識的講解中,融入了大量入門級的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數(shù)據(jù)知識和技術進行深入理解,體現(xiàn)專業(yè)認知的引導性。
(3)注重實踐應用。本書在各章節(jié)中配置了運用大數(shù)據(jù)工具解決問題的綜合實踐案例,通過對實踐內容的細致講解,并輔助視頻資料,能夠幫助讀者完成動手實踐的環(huán)節(jié),加深對專業(yè)知識的理解。
(4)適用范圍廣。本書既可作為高等職業(yè)教育本科和?齐娮有畔㈩惛鲗I(yè)相關課程教材,也可作為非計算機專業(yè)的通識課程教學用書以及大數(shù)據(jù)愛好者的參考讀物。
本書由蔡勁松、李偉任主編,朱瑞玥、張平、宋文宇任副主編,全書統(tǒng)稿和定稿工作由蔡勁松完成。此外,鄒汪平、張成、王鈞、戴永恒等人也參與了資料整理工作。本書是校企合
作、資源共建的成果之一,在編寫過程中得到了合肥課工場教育科技有限公司和北京課工場教育科技有限公司大數(shù)據(jù)開發(fā)教研團隊的大力支持,在此一并表示感謝。
由于編者水平有限,書中難免存在錯誤和不妥之處,懇請讀者批評指正。編者電子郵箱:94364330@qq.com。
編 者
2022年8月
第1章 認識大數(shù)據(jù)
1.1 初識大數(shù)據(jù) 001
1.1.1 大數(shù)據(jù)產生的時代背景 001
1.1.2 大數(shù)據(jù)的發(fā)展歷程 002
1.1.3 大數(shù)據(jù)未來的發(fā)展趨勢 004
1.2 大數(shù)據(jù)基本概念 005
1.2.1 什么是大數(shù)據(jù) 005
1.2.2 大數(shù)據(jù)的特征 006
1.2.3 大數(shù)據(jù)的重要性 007
1.3 大數(shù)據(jù)關鍵技術與計算模式 009
1.3.1 大數(shù)據(jù)采集、預處理與存儲管理 010
1.3.2 MapReduce分布式計算框架 012
1.3.3 大數(shù)據(jù)分析 013
1.3.4 大數(shù)據(jù)計算模式 014
1.4 大數(shù)據(jù)與云計算、物聯(lián)網和人工智能的
關系 014
1.4.1 大數(shù)據(jù)與云計算的關系 014
1.4.2 大數(shù)據(jù)與物聯(lián)網的關系 015
1.4.3 大數(shù)據(jù)與人工智能的關系 015
小結 016
習題 016
第2章 Hadoop集群搭建
2.1 了解Linux操作系統(tǒng) 018
2.1.1 Linux的誕生和發(fā)展 018
2.1.2 Linux的整體架構 020
2.1.3 Linux的特點 021
2.1.4 Linux文本編輯器 022
2.1.5 Linux權限與目錄 024
2.1.6 Linux基本命令 026
2.2 認識Hadoop集群 032
2.2.1 Hadoop生態(tài)圈 032
2.2.2 Hadoop的運行模式 034
2.2.3 Hadoop的優(yōu)勢 034
2.3 Hadoop集群的搭建和配置 035
2.3.1 主機的硬件配置與虛擬化軟件 035
2.3.2 Hadoop集群安裝準備 035
2.3.3 Hadoop集群搭建和配置 050
2.3.4 Hadoop集群測試 054
小結 056
習題 056
第3章 HDFS分布式文件系統(tǒng)
3.1 認識HDFS 058
3.1.1 HDFS產生的背景 058
3.1.2 HDFS簡介 059
3.1.3 HDFS的優(yōu)缺點 059
3.2 HDFS的基本原理 060
3.2.1 HDFS的體系架構 060
3.2.2 HDFS文件讀寫原理 062
3.3 HDFS的Shell命令行操作 063
3.4 HDFS的Java API操作 065
3.4.1 Java API操作環(huán)境搭建 066
3.4.2 HDFS的Java API介紹 071
3.4.3 使用Java API操作HDFS 072
小結 074
習題 074
第4章 MapReduce分布式計算框架
4.1 認識MapReduce 076
4.1.1 MapReduce概述 076
4.1.2 MapReduce的設計思想 077
4.1.3 MapReduce編程模型 077
4.1.4 MapReduce應用實例—詞頻統(tǒng)計 078
4.2 MapReduce工作流程 086
4.2.1 MapReduce工作過程 086
4.2.2 Map工作過程 086
4.2.3 Reduce工作過程 087
4.2.4 Job工作過程 089
4.2.5 Shuffle工作過程 090
4.2.6 MapReduce的輸入/輸出格式 091
4.2.7 MapReduce的優(yōu)化 093
4.3 YARN的設計思想與工作流程 094
4.3.1 YARN設計思想 094
4.3.2 YARN體系結構 095
4.3.3 YARN工作流程 096
4.4 MapReduce經典案例 097
4.4.1 數(shù)據(jù)去重 097
4.4.2 案例實現(xiàn)—數(shù)據(jù)去重 098
4.4.3 倒排索引 100
4.4.4 案例實現(xiàn)—倒排索引 103
小結 106
習題 106
第5章 ZooKeeper分布式協(xié)調服務
5.1 ZooKeeper概述 108
5.1.1 ZooKeeper作用 108
5.1.2 ZooKeeper特點 109
5.1.3 ZooKeeper體系結構 109
5.1.4 ZooKeeper數(shù)據(jù)模型 110
5.1.5 ZooKeeper工作原理 111
5.2 ZooKeeper安裝與運行 112
5.2.1 ZooKeeper安裝包的下載安裝 112
5.2.2 ZooKeeper相關配置 112
5.2.3 ZooKeeper服務的啟動和關閉 113
5.3 ZooKeeper的Shell操作 115
小結 118
習題 119
第6章 HBase分布式數(shù)據(jù)庫
6.1 認識NoSQL 120
6.1.1 NoSQL的特點 120
6.1.2 NoSQL的常見類型 121
6.2 HBase概述 122
6.2.1 HBase的特點與其他組件關系 123
6.2.2 HBase的數(shù)據(jù)模型 124
6.2.3 HBase的體系結構 125
6.3 HBase集群安裝 127
6.4 HBase的Shell操作 129
6.4.1 HBase Shell啟動 130
6.4.2 HBase Shell基本操作 131
小結 136
習題 137
第7章 Hive數(shù)據(jù)倉庫
7.1 認識Hive 138
7.1.1 什么是Hive 138
7.1.2 Hive架構設計 139
7.1.3 Hive數(shù)據(jù)類型 140
7.1.4 Hive服務組成 141
7.2 Hive安裝 142
7.2.1 Hive安裝模式簡介 142
7.2.2 Hive嵌入模式 142
7.2.3 Hive本地和遠程模式 143
7.3 HiveQL表操作 147
7.3.1 Hive數(shù)據(jù)庫操作 147
7.3.2 Hive內部表操作 148
7.3.3 Hive外部表操作 150
7.3.4 Hive桶表操作 152
7.4 HiveQL數(shù)據(jù)操作 154
7.4.1 HiveQL基本語法概述 154
7.4.2 HiveQL查詢實例 155
小結 161
習題 161
第8章 Sqoop數(shù)據(jù)遷移
8.1 Sqoop概述 163
8.1.1 Sqoop簡介 163
8.1.2 Sqoop的優(yōu)勢 163
8.1.3 Sqoop的版本 164
8.1.4 Sqoop的構架與工作機制 164
8.2 Sqoop安裝與配置 165
8.2.1 Sqoop安裝 165
8.2.2 Sqoop配置 165
8.2.3 Sqoop配置測試 166
8.3 Sqoop的使用 167
8.3.1 數(shù)據(jù)準備工作 167
8.3.2 MySQL表數(shù)據(jù)導入HDFS 168
8.3.3 增量導入 170
8.3.4 MySQL表數(shù)據(jù)導入Hive 171
8.3.5 Sqoop數(shù)據(jù)導出 172
小結 173
習題 173
第9章 Storm流計算
9.1 流計算概述 175
9.1.1 流計算的概念 175
9.1.2 流計算的處理流程 176
9.2 Storm流計算框架 177
9.2.1 Storm概述 177
9.2.2 Storm的特點 177
9.2.3 Storm的架構 178
9.2.4 Storm工作流 178
9.2.5 Storm數(shù)據(jù)流 179
9.3 Storm集群搭建 180
9.3.1 集群規(guī)劃 180
9.3.2 Storm集群搭建 181
9.4 Storm實戰(zhàn) 183
9.4.1 需求分析 183
9.4.2 數(shù)據(jù)結構 183
9.4.3 項目實現(xiàn) 184
小結 187
習題 187
第10章 數(shù)據(jù)可視化
10.1 數(shù)據(jù)可視化簡介 189
10.1.1 數(shù)據(jù)可視化的基本概念 189
10.1.2 數(shù)據(jù)可視化的類型 190
10.2 數(shù)據(jù)可視化流程 190
10.3 可視化技術和工具 192
10.3.1 Excel 192
10.3.2 HTML5 192
10.3.3 Tableau 192
10.3.4 ECharts 193
10.3.5 Python 194
10.3.6 R語言 194
10.4 數(shù)據(jù)可視化實例 194
10.4.1 系統(tǒng)架構 194
10.4.2 創(chuàng)建數(shù)據(jù)表 195
10.4.3 平臺環(huán)境搭建 195
10.4.4 基于EChart數(shù)據(jù)可視化的實現(xiàn) 202
10.4.5 功能展示 206
小結 206
習題 206
- 輸水管線工程風險管理 [張勇 黨亥生 著]
- 民用航空飛機標準線路施工 [主編 王志敏 陳明]
- 不息的水脈—大運河講談錄 [趙珩 著]
- 實用運籌學 [主編 邢育紅 于晉臣]
- 三峽梯級電站水資源決策支持系統(tǒng)研究與開發(fā) [姚華明 潘紅忠 湯正]
- 海南黎族民俗文化鑒賞 [龐國華 著]
- 石墨烯在太赫茲及中紅外頻段電磁器件設計中的應用 [李艷秀 莊華偉 著]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 辦公自動化高級應用 [陳萍 朱曉玉]
- 信息處理技術員考試32小時通關 [薛大龍]
- 電子產品設計案例教程(微課版)—基于嘉立創(chuàng)EDA(專業(yè)版) [王靜 莫志宏 陳學昌 丁紅]
- C程序設計實踐教程 [劉衛(wèi)國]
- C程序設計(慕課版) [劉衛(wèi)國]
- Web技術開發(fā)教程(基于.NET開源MVC框架) [王合闖 韓紅玲 王青正 陳海蕊]
- 商務英語翻譯教程(筆譯)(第四版) [主編 王軍平]
- 智慧零售技術與應用 [洪旭 著]
- 建設工程法規(guī)實務 [主編 余瀅]
- 商務秘書理論與實務(第三版) [主編 張同欽]
- 程序設計基礎實踐教程(C/C++語言版) [張桂芬 葛麗娜]
- C++案例項目精講 [主編 楊國興]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數(shù)學 [主編 郭立娟 王海]
- 語音識別理論與實踐 [主編 莫宏偉]
- 信息系統(tǒng)項目管理師章節(jié)習題與考點特訓(第二版) [主編 薛大龍]
- 武術基礎教程 [主編 李代勇 謝志民]
- 計算機網絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- HCIA-Datacom認證題庫分類精講 [主 編 韓立剛]
- SwiftUI完全開發(fā) [李智威 著]
- 網絡規(guī)劃設計師備考一本通 [夏杰 編著]