Hadoop大數據開發
-
【作 者】主 編 劉春陽 張學龍 劉麗軍
【I S B N 】978-7-5170-6903-4
【責任編輯】張玉玲
【適用讀者群】本專通用
【出版時間】2018-09-19
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】184
【千字數】280
【印 張】11.5
【定 價】¥32
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書通過原理加案例方式系統講解了Hadoop大數據開發,精心安排了原理分析、環境搭建、案例開發等環節,使讀者對解決大數據問題有清晰的思路。
全書共7章:前6章系統講解大數據Hadoop架構,包括大數據處理平臺Hadoop、分布式文件系統HDFS,并行計算模型MapReduce、資源調度框架Yarn;第7章是MapReduce應用實例,通過案例幫助讀者進一步理解Hadoop平臺。全書突出三個特點:道理簡單明了、思路清晰透徹、案例新穎實用。
本書可作為普通高校大數據相關專業的教材,可供想深入了解Hadoop架構編程的讀者參考,還可作為相關培訓班的培訓教材。
本書通過原理加案例的方式系統講解Hadoop 大數據開發,精心安排了原理分析、環境搭建、案例開發等環節,道理簡單明了、思路清晰透徹、案例新穎實用。
前 言
這是一個大數據爆發的時代,面對信息的激流、多元化數據的涌現,大數據已經為個人生活、企業經營,甚至國家與社會的發展帶來了機遇和挑戰,成為信息產業中極具潛力的增長點。大數據時代在眾多領域掀起變革的巨浪,但我們要冷靜地看到,大數據的核心在于為客戶挖掘數據中蘊藏的價值,而不是軟硬件簡單地堆砌。因此,針對不同領域的大數據應用模式、商業模式研究將是大數據產業健康發展的關鍵。
Hadoop技術能夠成功的最根本原因在于它是把傳統的集中式運算轉化成分布式計算的一種有效手段。Hadoop的分布式文件系統能夠以可靠快捷的方式將數據分布存儲到不同計算節點中,Hadoop MapReduce編程又能夠以簡單的方法為人們提供分布式編程接口,從而降低了分布式開發門檻。
本書共7章,不僅有詳細的理論講解,還有大量的實戰操作,具體內容如下:
第1章深入探究大數據的概念、產生的背景和發展現狀,應用案例指出了大數據面臨的機遇與挑戰,介紹大數據處理技術和計算模式,最后闡述大數據與云計算之間的區別和聯系。
第2章詳細介紹大數據處理平臺Hadoop的生態系統和架構。
第3章講解Hadoop分布式平臺的搭建和驗證。
第4章描述HDFS的架構、工作機制、文件讀寫流程和Shell命令。
第5章講解HDFS Windows遠程開發、HDFS Java API接口和編程實戰。
第6章講解MapReduce編程模型、工作原理和Yarn資源管理。
第7章講解常用的MapReduce Java API接口、應用實例和高級編程。
本書的編寫得到北京百知教育科技有限公司的大力支持,在此表示感謝。
由于時間倉促及編者水平有限,本書難免存在不足之處,懇請讀者批評指正。
編 者
2018年7月
第1章 大數據概論 1
1.1 大數據概述 1
1.1.1 大數據產生的時代背景 1
1.1.2 大數據的特征 2
1.1.3 大數據應用案例 2
1.1.4 大數據的機遇與挑戰 5
1.2 大數據處理技術 5
1.3 大數據與云計算 6
1.4 本章小結 7
第2章 大數據處理平臺Hadoop 8
2.1 Hadoop生態系統 8
2.2 Hadoop架構 11
2.2.1 HDFS 12
2.2.2 MapReduce 12
2.2.3 Yarn 13
2.3 Hadoop版本變遷 13
2.3.1 Hadoop發展史 13
2.3.2 如何選擇Hadoop開發版本 14
2.4 本章小結 14
第3章 Hadoop平臺搭建 15
3.1 基礎環境配置 15
3.2 Hadoop配置文件修改 15
3.3 Hadoop平臺運行及驗證 22
3.4 本章小結 23
第4章 分布式文件系統HDFS 24
4.1 HDFS架構 24
4.1.1 HDFS的基本框架 24
4.1.2 HDFS的特點 26
4.2 HDFS的工作機制 27
4.2.1 HDFS讀寫過程分析 27
4.2.2 NameNode的工作機制 29
4.2.3 元數據的CheckPoint 32
4.2.4 DataNode的工作機制 33
4.3 HDFS shell命令 34
4.3.1 幫助相關命令 35
4.3.2 查看相關命令 36
4.3.3 文件及目錄相關命令 37
4.3.4 統計相關命令 46
4.3.5 快照命令 47
4.4 本章小結 48
第5章 HDFS Java API編程 49
5.1 遠程開發環境搭建 49
5.2 HDFS Java API接口 53
5.3 HDFS Java API編程 53
5.3.1 獲取文件系統 55
5.3.2 列出所有DataNode的名字信息 56
5.3.3 創建文件目錄 57
5.3.4 刪除文件或文件目錄 58
5.3.5 查看文件是否存在 59
5.3.6 文件上傳至HDFS 59
5.3.7 從HDFS下載文件 60
5.3.8 文件重命名 61
5.3.9 遍歷目錄和文件 62
5.3.10 根據filter獲取目錄下的文件 63
5.3.11 取得數據塊所在的位置 65
5.4 程序打包 66
5.5 本章小結 68
第6章 并行計算MapReduce 69
6.1 MapReduce編程模型 69
6.1.1 并行編程模型概述 69
6.1.2 并行計算編程模型 70
6.1.3 MapReduce編程模型 72
6.2 MapReduce工作原理 73
6.3 Yarn 75
6.3.1 Yarn基本框架與組件 75
6.3.2 Yarn工作流程 76
6.3.3 新舊Hadoop MapReduce框架對比 77
6.4 MapReduce Shuffle性能調優 79
6.5 本章小結 80
第7章 MapReduce Java API編程 81
7.1 MapReduce Java API接口講解 81
7.1.1 InputFormat接口 82
7.1.2 Mapper類 85
7.1.3 Partitioner類 87
7.1.4 Combiner類 88
7.1.5 Reducer類 89
7.1.6 OutputFormat接口 90
7.1.7 GenericOptionsParser類 91
7.1.8 DistributedCache類 91
7.2 MapReduce Java API應用實例 92
7.2.1 統計單詞出現頻率 92
7.2.2 統計出現的單詞 96
7.2.3 統計平均成績 99
7.2.4 排序 101
7.2.5 求年最高溫度 103
7.2.6 關系運算—投影運算 106
7.2.7 關系運算—并運算 108
7.2.8 關系運算—交運算 110
7.2.9 關系運算—差運算 111
7.2.10 關系運算—連接運算 114
7.3 MapReduce Java API高級編程 116
7.3.1 多輸入路徑方式 116
7.3.2 使用Partitioner實現輸出到多個
文件 119
7.3.3 自定義OutputFormat文件輸出 122
7.3.4 文本文件轉化成XML文件 127
7.3.5 通過MultipleOutputs完成多文件
輸出 130
7.3.6 將MapReduce產生的結果集導入
到MySQL中 135
7.3.7 自定義比較器 140
7.3.8 MapReduce分析明星微博數據 145
7.3.9 MapReduce最佳成績統計 152
7.3.10 MapReduce鏈接作業 158
7.3.11 利用Job嵌套求解二度人脈 162
7.4 本章小結 168
附錄 CentOS7安裝 169
- 大學生創新創業基礎 [主編 姜國權 姜福佳]
- 信息技術(微課版) [王云 徐江鴻 李清霞 羅學鋒 ]
- 管理基礎與實務 [主編 王鳳基 顏漢軍]
- 高等數學導學篇(下冊) [主編 李文婧 胡雷 尹金生]
- 高等數學導學篇(上冊) [主編 李文婧 胡雷 尹金生]
- 高等數學(下冊) [主編 李愛芹 胡雷 尹金生]
- 高等數學(上冊) [主編 李愛芹 胡雷 尹金生]
- 人工智能應用基礎 [主編 楊纓 李佳]
- 中華水文化(慕課版)(第二版) [畢雪燕 楊華軻 羅玲誼 等編著]
- 電路與電子技術Ⅱ——電路分析基礎 [主編 陳曉 金哲]
- 人工智能概論(第二版) [主編 任云暉 丁紅 徐迎春 ]
- 信息時代美育之道 [主編 劉宏宇 黎婭]
- 數字媒體交互設計項目式教程(微課版) [主編 蘇陸]
- Amazing!兒童英語自然拼讀分級教材(全8冊) [王玲 編著]
- Spark大數據處理技術 [主編 劉仁山 周洪翠 莊新妍]
- 人工智能算法與實踐 [主編 梁琨 張翼英]
- 計算機網絡技術項目化教程(微課版) [主編 王艷萍 安華萍]
- 數據清洗 [黃源 劉智楊 孫大松]
- 電路設計與PCB制作實操教程 [主編 周永宏]
- 電路與電子技術Ⅰ—數字電子技術 [主編 鄭玉珍 王淑琴]
- Java編程基礎案例式教程 [主編 陳艷華 唐春蘭]
- Python語言同步案例習題精解 [主編 肖朝暉]
- Excel在會計工作中的應用(第三版) [主 編 趙艷莉 耿聰慧]
- 應用數學 [主編 劉東海 劉麗瑤]
- Web用戶界面設計與制作 [主編 趙娟]
- 計算機網絡基礎創新教程(模塊化+課程思政版) [主編 唐繼勇 李旭]
- 計算機應用技術基礎案例教程 [主編 周麗娟 王璐]
- Unity應用開發與實戰(微課版) [主 編 程永恒]
- PHP程序設計項目化教程 [主 編 杜海穎]
- 文學基礎與影視欣賞 [楊華軻 朱偉利 畢雪燕 羅玲誼]