Hadoop & Spark大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)
-
【作 者】主編 肖睿 雷剛躍
【I S B N 】978-7-5170-5643-0
【責(zé)任編輯】李炎
【適用讀者群】科技
【出版時(shí)間】2017-07-01
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數(shù)】308
【千字?jǐn)?shù)】416
【印 張】19.25
【定 價(jià)】¥58
【叢 書】大數(shù)據(jù)開發(fā)工程師系列
【備注信息】
簡(jiǎn)介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
大數(shù)據(jù)讓我們以一種前所未有的方式,通過對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),最終形成變革之力。本書圍繞Hadoop和Spark這兩個(gè)主流技術(shù)進(jìn)行講解,主要內(nèi)容包括Hadoop環(huán)境配置、分布式文件系統(tǒng)HDFS、分布式計(jì)算框架MapReduce、資源調(diào)度框架YARN與Hadoop新特性、大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)Hive、離線處理輔助系統(tǒng)、Spark Core、 Spark SQL、Spark Streaming等知識(shí)。
為保證最優(yōu)學(xué)習(xí)效果,本書緊密結(jié)合實(shí)際應(yīng)用,利用大量案例說明和實(shí)踐,提煉含金量十足的開發(fā)經(jīng)驗(yàn)。本書使用Hadoop和Spark進(jìn)行大數(shù)據(jù)開發(fā),并配以完善的學(xué)習(xí)資源和支持服務(wù),包括視頻教程、案例素材下載、學(xué)習(xí)交流社區(qū)、討論組等終身學(xué)習(xí)內(nèi)容,為開發(fā)者帶來全方位的學(xué)習(xí)體驗(yàn),更多技術(shù)支持請(qǐng)?jiān)L問課工場(chǎng)官網(wǎng):www.kgc.cn。
領(lǐng)先的實(shí)用技能——打造大數(shù)據(jù)開發(fā)工程師
科學(xué)的訓(xùn)練模式——授人以漁而不只是作品臨摹
真實(shí)的項(xiàng)目驅(qū)動(dòng)——行業(yè)知識(shí)與專業(yè)設(shè)計(jì)相呼應(yīng)
便捷的學(xué)習(xí)體驗(yàn)——傳統(tǒng)教材與二維碼革命性攜手
叢書設(shè)計(jì):
準(zhǔn)備好了嗎?進(jìn)入大數(shù)據(jù)時(shí)代!大數(shù)據(jù)已經(jīng)并將繼續(xù)影響人類的方方面面。2015年8月31日,經(jīng)李克強(qiáng)總理批準(zhǔn),國(guó)務(wù)院正式下發(fā)《關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》,這是從國(guó)家層面正式宣告大數(shù)據(jù)時(shí)代的到來!企業(yè)資本則以BAT互聯(lián)網(wǎng)公司為首,不斷進(jìn)行大數(shù)據(jù)創(chuàng)新,從而實(shí)現(xiàn)大數(shù)據(jù)的商業(yè)價(jià)值。本叢書根據(jù)企業(yè)人才實(shí)際需求,參考?xì)v史學(xué)習(xí)難度曲線,選取“Java +大數(shù)據(jù)”技術(shù)集作為學(xué)習(xí)路徑,旨在為讀者提供一站式實(shí)戰(zhàn)型大數(shù)據(jù)開發(fā)學(xué)習(xí)指導(dǎo),幫助讀者踏上由開發(fā)入門到大數(shù)據(jù)實(shí)戰(zhàn)的互聯(lián)網(wǎng)+大數(shù)據(jù)開發(fā)之旅!
叢書特點(diǎn):
1.以企業(yè)需求為設(shè)計(jì)導(dǎo)向
滿足企業(yè)對(duì)人才的技能需求是本叢書的核心設(shè)計(jì)原則,為此課工場(chǎng)大數(shù)據(jù)開發(fā)教研團(tuán)隊(duì),通過對(duì)數(shù)百位BAT一線技術(shù)專家進(jìn)行訪談、對(duì)上千家企業(yè)人力資源情況進(jìn)行調(diào)研、對(duì)上萬個(gè)企業(yè)招聘崗位進(jìn)行需求分析,從而實(shí)現(xiàn)技術(shù)的準(zhǔn)確定位,達(dá)到課程與企業(yè)需求的高契合度。
2.以任務(wù)驅(qū)動(dòng)為講解方式
叢書中的技能點(diǎn)和知識(shí)點(diǎn)都由任務(wù)驅(qū)動(dòng),讀者在學(xué)習(xí)知識(shí)時(shí)不僅可以知其然,而且可以知其所以然,幫助讀者融會(huì)貫通、舉一反三。
3.以實(shí)戰(zhàn)項(xiàng)目來提升技術(shù)
本叢書均設(shè)置項(xiàng)目實(shí)戰(zhàn)環(huán)節(jié),該環(huán)節(jié)綜合運(yùn)用書中的知識(shí)點(diǎn),幫助讀者提升項(xiàng)目開發(fā)能力。每個(gè)實(shí)戰(zhàn)項(xiàng)目都設(shè)有相應(yīng)的項(xiàng)目思路指導(dǎo)、重難點(diǎn)講解、實(shí)現(xiàn)步驟總結(jié)和知識(shí)點(diǎn)梳理。
4.以互聯(lián)網(wǎng)+實(shí)現(xiàn)終身學(xué)習(xí)
本叢書可通過使用課工場(chǎng)APP進(jìn)行二維碼掃描來觀看配套視頻的理論講解和案例操作,同時(shí)課工場(chǎng)(www.kgc.cn)開辟教材配套版塊,提供案例代碼及案例素材下載。此外,課工場(chǎng)還為讀者提供了體系化的學(xué)習(xí)路徑、豐富的在線學(xué)習(xí)資源和活躍的學(xué)習(xí)社區(qū),方便讀者隨時(shí)學(xué)習(xí)。
讀者對(duì)象:
1.大中專院校的老師和學(xué)生
2.編程愛好者
3.初中級(jí)程序開發(fā)人員
4.相關(guān)培訓(xùn)機(jī)構(gòu)的老師和學(xué)員
讀者服務(wù):
為解決本叢書中存在的疑難問題,讀者可以訪問課工場(chǎng)官方網(wǎng)站(www.kgc.cn),也可以發(fā)送郵件到ke@kgc.cn,我們的客服專員將竭誠(chéng)為您服務(wù)。
致謝:
本叢書是由課工場(chǎng)大數(shù)據(jù)開發(fā)教研團(tuán)隊(duì)研發(fā)編寫的,課工場(chǎng)(kgc.cn)是北京大學(xué)旗下專注于互聯(lián)網(wǎng)人才培養(yǎng)的高端教育品牌。作為國(guó)內(nèi)互聯(lián)網(wǎng)人才教育生態(tài)系統(tǒng)的構(gòu)建者,課工場(chǎng)依托北京大學(xué)優(yōu)質(zhì)的教育資源,重構(gòu)職業(yè)教育生態(tài)體系,以學(xué)員為本、以企業(yè)為基,構(gòu)建教學(xué)大咖、技術(shù)大咖、行業(yè)大咖三咖一體的教學(xué)矩陣,為學(xué)員提供高端、靠譜、炫酷的學(xué)習(xí)內(nèi)容!
感謝您購(gòu)買本叢書,希望本叢書能成為您大數(shù)據(jù)開發(fā)之旅的好伙伴!
本章任務(wù) 2
任務(wù)1 大數(shù)據(jù)概述 2
1.1.1 大數(shù)據(jù)基本概念 2
1.1.2 大數(shù)據(jù)對(duì)于企業(yè)帶來的挑戰(zhàn) 3
任務(wù)2 Hadoop概述 4
1.2.1 Hadoop簡(jiǎn)介 4
1.2.2 Hadoop生態(tài)系統(tǒng) 7
1.2.3 大數(shù)據(jù)應(yīng)用案例 9
任務(wù)3 Hadoop環(huán)境搭建 10
1.3.1 虛擬機(jī)安裝 11
1.3.2 Linux系統(tǒng)安裝 14
1.3.3 Hadoop偽分布式環(huán)境搭建 31
本章總結(jié) 34
本章作業(yè) 35
第2章 分布式文件系統(tǒng)HDFS 37
本章任務(wù) 38
任務(wù)1 初識(shí)HDFS 38
2.1.1 HDFS概述 38
2.1.2 HDFS基本概念 41
2.1.3 HDFS體系結(jié)構(gòu) 42
任務(wù)2 HDFS操作 44
2.2.1 HDFS shell訪問 44
2.2.2 Java API訪問 47
任務(wù)3 HDFS運(yùn)行機(jī)制 50
2.3.1 HDFS文件讀寫流程 51
2.3.2 HDFS副本機(jī)制 52
2.3.3 數(shù)據(jù)負(fù)載均衡 53
2.3.4 機(jī)架感知 54
任務(wù)4 HDFS進(jìn)階 55
2.4.1 Hadoop序列化 55
2.4.2 基于文件的數(shù)據(jù)結(jié)構(gòu)SequenceFile 60
2.4.3 基于文件的數(shù)據(jù)結(jié)構(gòu)MapFile 65
本章總結(jié) 67
本章作業(yè) 68
第3章 分布式計(jì)算框架
MapReduce 69
本章任務(wù) 70
任務(wù)1 MapReduce編程模型 70
3.1.1 MapReduce概述 70
3.1.2 MapReduce編程模型 71
3.1.3 MapReduce WordCount編程實(shí)例 72
任務(wù)2 MapReduce進(jìn)階 77
3.2.1 MapReduce類型 77
3.2.2 MapReduce輸入格式 78
3.2.3 MapReduce輸出格式 80
3.2.4 Combiner 81
3.2.5 Partitioner 84
3.2.6 RecordReader 87
任務(wù)3 MapReduce高級(jí)編程 94
3.3.1 Join的MapReduce實(shí)現(xiàn) 94
3.3.2 排序的MapReduce實(shí)現(xiàn) 101
3.3.3 二次排序的MapReduce實(shí)現(xiàn) 103
3.3.4 合并小文件的MapReduce實(shí)現(xiàn) 109
本章總結(jié) 113
本章作業(yè) 114
第4章 YARN與Hadoop新特性 115
本章任務(wù) 116
任務(wù)1 初識(shí)資源調(diào)度框架YARN 116
4.1.1 YARN產(chǎn)生背景 116
4.1.2 初識(shí)YARN 117
4.1.3 YARN運(yùn)行機(jī)制 119
任務(wù)2 HDFS新特性 121
4.2.1 HDFS NameNode HA 122
4.2.2 HDFS NameNode Federation 129
4.2.3 HDFS Snapshots 131
4.2.4 WebHDFS REST API 134
4.2.5 DistCp 135
任務(wù)3 YARN新特性 135
4.3.1 ResourceManager Restart 135
4.3.2 ResourceManager HA 136
本章總結(jié) 139
本章作業(yè) 139
第5章 大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)Hive 141
本章任務(wù) 142
任務(wù)1 初識(shí)Hive 142
5.1.1 Hive簡(jiǎn)介 142
5.1.2 Hive架構(gòu) 143
5.1.3 Hive與Hadoop的關(guān)系 144
5.1.4 Hive與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)對(duì)比 144
5.1.5 Hive數(shù)據(jù)存儲(chǔ) 145
5.1.6 Hive環(huán)境部署 145
任務(wù)2 Hive基本操作 146
5.2.1 DDL操作 147
5.2.2 DML操作 150
5.2.3 Hive shell操作 154
任務(wù)3 Hive進(jìn)階 155
5.3.1 Hive函數(shù) 155
5.3.2 Hive常用調(diào)優(yōu)策略 158
本章總結(jié) 163
本章作業(yè) 164
第6章 離線處理輔助系統(tǒng) 165
本章任務(wù) 166
任務(wù)1 使用Sqoop完成數(shù)據(jù)遷移 166
6.1.1 Sqoop簡(jiǎn)介 166
6.1.2 導(dǎo)入MySQL數(shù)據(jù)到HDFS 171
6.1.3 導(dǎo)出HDFS數(shù)據(jù)到MySQL 177
6.1.4 導(dǎo)入MySQL數(shù)據(jù)到Hive 179
6.1.5 Sqoop中Job的使用 180
任務(wù)2 工作流調(diào)度框架Azkaban 180
6.2.1 Azkaban簡(jiǎn)介 181
6.2.2 Azkaban部署 182
6.2.3 Azkaban實(shí)戰(zhàn) 186
本章總結(jié) 189
本章作業(yè) 189
第7章 Spark入門 191
本章任務(wù) 192
任務(wù)1 初識(shí)Spark 192
7.1.1 Spark概述 192
7.1.2 Spark優(yōu)點(diǎn) 193
7.1.3 Spark生態(tài)系統(tǒng)BDAS 195
任務(wù)2 Scala入門 198
7.2.1 Scala介紹 199
7.2.2 Scala函數(shù) 202
7.2.3 Scala面向?qū)ο?203
7.2.4 Scala集合 206
7.2.5 Scala進(jìn)階 209
任務(wù)3 獲取Spark源碼并進(jìn)行編譯 211
7.3.1 獲取Spark源碼 211
7.3.2 Spark源碼編譯 212
任務(wù)4 第一次與Spark親密接觸 214
7.4.1 Spark環(huán)境部署 214
7.4.2 Spark完成詞頻統(tǒng)計(jì)分析 215
本章總結(jié) 216
本章作業(yè) 217
第8章 Spark Core 219
本章任務(wù) 220
任務(wù)1 Spark的基石RDD 220
8.1.1 RDD概述 220
8.1.2 RDD常用創(chuàng)建方式 221
8.1.3 RDD的轉(zhuǎn)換 223
8.1.4 RDD的動(dòng)作 225
8.1.5 RDD的依賴 227
任務(wù)2 RDD進(jìn)階 230
8.2.1 RDD緩存 230
8.2.2 共享變量(Shared Variables) 233
8.2.3 Spark核心概念 235
8.2.4 Spark運(yùn)行架構(gòu) 236
任務(wù)3 基于RDD的Spark編程 237
8.3.1 開發(fā)前置準(zhǔn)備 237
8.3.2 使用Spark Core開發(fā)詞頻
計(jì)數(shù)WordCount 238
8.3.3 使用Spark Core進(jìn)行年齡統(tǒng)計(jì) 242
本章總結(jié) 243
本章作業(yè) 243
第9章 Spark SQL 245
本章任務(wù) 246
任務(wù)1 Spark SQL前世今生 246
9.1.1 為什么需要SQL 246
9.1.2 常用的SQL on Hadoop框架 247
9.1.3 Spark SQL概述 248
任務(wù)2 Spark SQL編程 250
9.2.1 Spark SQL編程入口 250
9.2.2 DataFrame是什么 251
9.2.3 DataFrame編程 252
任務(wù)3 Spark SQL進(jìn)階 259
9.3.1 Spark SQL外部數(shù)據(jù)源操作 259
9.3.2 Spark SQL函數(shù)的使用 263
9.3.3 Spark SQL常用調(diào)優(yōu) 266
本章總結(jié) 269
本章作業(yè) 269
第10章 Spark Streaming 271
本章任務(wù) 272
任務(wù)1 初始流處理框架及
Spark Streaming 272
10.1.1 流處理框架概述 272
10.1.2 Spark Streaming概述 274
任務(wù)2 Spark Streaming編程 277
10.2.1 Spark Streaming核心概念 278
10.2.2 使用Spark Streaming編程 282
任務(wù)3 Spark Streaming進(jìn)階 286
10.3.1 Spark Streaming整合Flume 287
10.3.2 Spark Streaming整合Kafka 290
10.3.3 Spark Streaming常用優(yōu)化策略 294
本章總結(jié) 297
本章作業(yè) 297
- 生活經(jīng)管more>>