Hadoop大數據開發
-
【作 者】主 編 劉春陽 張學龍 劉麗軍
【I S B N 】978-7-5170-6903-4
【責任編輯】張玉玲
【適用讀者群】本專通用
【出版時間】2018-09-19
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】184
【千字數】280
【印 張】11.5
【定 價】¥32
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書通過原理加案例方式系統講解了Hadoop大數據開發,精心安排了原理分析、環境搭建、案例開發等環節,使讀者對解決大數據問題有清晰的思路。
全書共7章:前6章系統講解大數據Hadoop架構,包括大數據處理平臺Hadoop、分布式文件系統HDFS,并行計算模型MapReduce、資源調度框架Yarn;第7章是MapReduce應用實例,通過案例幫助讀者進一步理解Hadoop平臺。全書突出三個特點:道理簡單明了、思路清晰透徹、案例新穎實用。
本書可作為普通高校大數據相關專業的教材,可供想深入了解Hadoop架構編程的讀者參考,還可作為相關培訓班的培訓教材。
本書通過原理加案例的方式系統講解Hadoop 大數據開發,精心安排了原理分析、環境搭建、案例開發等環節,道理簡單明了、思路清晰透徹、案例新穎實用。
前 言
這是一個大數據爆發的時代,面對信息的激流、多元化數據的涌現,大數據已經為個人生活、企業經營,甚至國家與社會的發展帶來了機遇和挑戰,成為信息產業中極具潛力的增長點。大數據時代在眾多領域掀起變革的巨浪,但我們要冷靜地看到,大數據的核心在于為客戶挖掘數據中蘊藏的價值,而不是軟硬件簡單地堆砌。因此,針對不同領域的大數據應用模式、商業模式研究將是大數據產業健康發展的關鍵。
Hadoop技術能夠成功的最根本原因在于它是把傳統的集中式運算轉化成分布式計算的一種有效手段。Hadoop的分布式文件系統能夠以可靠快捷的方式將數據分布存儲到不同計算節點中,Hadoop MapReduce編程又能夠以簡單的方法為人們提供分布式編程接口,從而降低了分布式開發門檻。
本書共7章,不僅有詳細的理論講解,還有大量的實戰操作,具體內容如下:
第1章深入探究大數據的概念、產生的背景和發展現狀,應用案例指出了大數據面臨的機遇與挑戰,介紹大數據處理技術和計算模式,最后闡述大數據與云計算之間的區別和聯系。
第2章詳細介紹大數據處理平臺Hadoop的生態系統和架構。
第3章講解Hadoop分布式平臺的搭建和驗證。
第4章描述HDFS的架構、工作機制、文件讀寫流程和Shell命令。
第5章講解HDFS Windows遠程開發、HDFS Java API接口和編程實戰。
第6章講解MapReduce編程模型、工作原理和Yarn資源管理。
第7章講解常用的MapReduce Java API接口、應用實例和高級編程。
本書的編寫得到北京百知教育科技有限公司的大力支持,在此表示感謝。
由于時間倉促及編者水平有限,本書難免存在不足之處,懇請讀者批評指正。
編 者
2018年7月
第1章 大數據概論 1
1.1 大數據概述 1
1.1.1 大數據產生的時代背景 1
1.1.2 大數據的特征 2
1.1.3 大數據應用案例 2
1.1.4 大數據的機遇與挑戰 5
1.2 大數據處理技術 5
1.3 大數據與云計算 6
1.4 本章小結 7
第2章 大數據處理平臺Hadoop 8
2.1 Hadoop生態系統 8
2.2 Hadoop架構 11
2.2.1 HDFS 12
2.2.2 MapReduce 12
2.2.3 Yarn 13
2.3 Hadoop版本變遷 13
2.3.1 Hadoop發展史 13
2.3.2 如何選擇Hadoop開發版本 14
2.4 本章小結 14
第3章 Hadoop平臺搭建 15
3.1 基礎環境配置 15
3.2 Hadoop配置文件修改 15
3.3 Hadoop平臺運行及驗證 22
3.4 本章小結 23
第4章 分布式文件系統HDFS 24
4.1 HDFS架構 24
4.1.1 HDFS的基本框架 24
4.1.2 HDFS的特點 26
4.2 HDFS的工作機制 27
4.2.1 HDFS讀寫過程分析 27
4.2.2 NameNode的工作機制 29
4.2.3 元數據的CheckPoint 32
4.2.4 DataNode的工作機制 33
4.3 HDFS shell命令 34
4.3.1 幫助相關命令 35
4.3.2 查看相關命令 36
4.3.3 文件及目錄相關命令 37
4.3.4 統計相關命令 46
4.3.5 快照命令 47
4.4 本章小結 48
第5章 HDFS Java API編程 49
5.1 遠程開發環境搭建 49
5.2 HDFS Java API接口 53
5.3 HDFS Java API編程 53
5.3.1 獲取文件系統 55
5.3.2 列出所有DataNode的名字信息 56
5.3.3 創建文件目錄 57
5.3.4 刪除文件或文件目錄 58
5.3.5 查看文件是否存在 59
5.3.6 文件上傳至HDFS 59
5.3.7 從HDFS下載文件 60
5.3.8 文件重命名 61
5.3.9 遍歷目錄和文件 62
5.3.10 根據filter獲取目錄下的文件 63
5.3.11 取得數據塊所在的位置 65
5.4 程序打包 66
5.5 本章小結 68
第6章 并行計算MapReduce 69
6.1 MapReduce編程模型 69
6.1.1 并行編程模型概述 69
6.1.2 并行計算編程模型 70
6.1.3 MapReduce編程模型 72
6.2 MapReduce工作原理 73
6.3 Yarn 75
6.3.1 Yarn基本框架與組件 75
6.3.2 Yarn工作流程 76
6.3.3 新舊Hadoop MapReduce框架對比 77
6.4 MapReduce Shuffle性能調優 79
6.5 本章小結 80
第7章 MapReduce Java API編程 81
7.1 MapReduce Java API接口講解 81
7.1.1 InputFormat接口 82
7.1.2 Mapper類 85
7.1.3 Partitioner類 87
7.1.4 Combiner類 88
7.1.5 Reducer類 89
7.1.6 OutputFormat接口 90
7.1.7 GenericOptionsParser類 91
7.1.8 DistributedCache類 91
7.2 MapReduce Java API應用實例 92
7.2.1 統計單詞出現頻率 92
7.2.2 統計出現的單詞 96
7.2.3 統計平均成績 99
7.2.4 排序 101
7.2.5 求年最高溫度 103
7.2.6 關系運算—投影運算 106
7.2.7 關系運算—并運算 108
7.2.8 關系運算—交運算 110
7.2.9 關系運算—差運算 111
7.2.10 關系運算—連接運算 114
7.3 MapReduce Java API高級編程 116
7.3.1 多輸入路徑方式 116
7.3.2 使用Partitioner實現輸出到多個
文件 119
7.3.3 自定義OutputFormat文件輸出 122
7.3.4 文本文件轉化成XML文件 127
7.3.5 通過MultipleOutputs完成多文件
輸出 130
7.3.6 將MapReduce產生的結果集導入
到MySQL中 135
7.3.7 自定義比較器 140
7.3.8 MapReduce分析明星微博數據 145
7.3.9 MapReduce最佳成績統計 152
7.3.10 MapReduce鏈接作業 158
7.3.11 利用Job嵌套求解二度人脈 162
7.4 本章小結 168
附錄 CentOS7安裝 169
- 實用運籌學 [主編 邢育紅 于晉臣]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數學 [主編 郭立娟 王海]
- 語音識別理論與實踐 [主編 莫宏偉]
- 武術基礎教程 [主編 李代勇 謝志民]
- 計算機網絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- 電工電子技術基礎 [主編 劉 軍 楊國龍 劉天成]
- MySQL數據庫項目式教程 [陳亞峰]
- 機械設計基礎(第二版) [主編 田亞平 李愛姣]
- 畫法幾何與機械制圖 [主編 趙軍]
- C語言程序設計習題與實驗指導(第二版) [主編 甄增榮 張賓]
- C語言程序設計(第二版) [主編 甄增榮 田云霞]
- Unity3D虛擬現實應用開發實踐 [主 編 劉龍]
- 智能化技術基礎(第三版) [鄧文達 李禮]
- 面向對象程序設計 [主編 張勇 張平華 趙小龍]
- 網絡營銷 [主編 夏薇薇 劉婷 尚潔]
- 電視節目策劃與制作(微課版) [主 編 黃滴滴]
- 數據庫技術與應用實踐教程(SQL Server 2019) [主 編 嚴暉 周肆清]
- 大學應用數學 [主編 郭立娟]
- 工業機器人拆裝與調試 [主編 胡月霞 向艷芳 朱奇]
- 功能材料制備與表征實驗指導書 [龔偉平 趙軍峰 梅海娟 等編著]
- 信號與系統(第二版) [主編 張宇]
- 信息技術基礎 [主編 唐倩 邵銳]
- Python 語言程序設計實踐指導 [主編 張雙獅]
- Photoshop 圖形圖像項目化教程 [主編 胡斌斌 黎婭 蘇大椿]
- 體育舞蹈教程 [主編 劉偉 陳志明 曾明]
- 線性代數導學篇 [主編 史昱]
- 信息技術基礎實訓與習題指導(Windows7+Office2016) [主編 周金容 唐天國]