内容简介
大数据让我们以一种****的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,最终形成变革之力。
《大数据开发工程师系列:Hadoop & Spark大数据开发实战》围绕Hadoop和Spark这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、SparkCore、Spark SQL、Spark Streaming等知识。
为保证学习效果,《大数据开发工程师系列:Hadoop & Spark大数据开发实战》紧密结合实际应用,利用大量案例说明和实践,提炼含金量十足的开发经验。
《大数据开发工程师系列:Hadoop & Spark大数据开发实战》使用Hadoop和Spark进行大数据开发,并配以完善的学习资源和支持服务,包括视频教程、案例素材下载、学习交流社区、讨论组等终身学习内容,为开发者带来全方位的学习体。
内页插图
目录
前言
关于引用作品版权说明
第1章 初识Hadoop
本章任务
任务1 大数据概述
1.1.1 大数据基本概念
1.1.2 大数据对于企业带来的挑战
任务2 Hadoop概述
1.2.1 Hadoop简介
1.2.2 HadooD生态系统
1.2.3 大数据应用案例
任务3 Hadoop环境措建
1.3.1 虚拟机安装
1.3.2 Linux系统安装
1.3.3 Hadoop伪分布式环境搭建
本章总结
本章作业
第2章 分布式文件系统HDFS
本章任务
任务1 初识HDFS
2.1.1 HDFS概述
2.1.2 HDFS基本概念
2.1.3 HDFS体系结构
任务2 HDFS操作
2.2.1 HDFS shell访问
2.2.2 Java API访问
任务3 HDFS运行机制
2.3.1 HDFS文件读写流程
2.3.2 HDFS副本机制
2.3.3 数据负载均衡
2.3.4 机架感知
任务4 HDFS进阶
2.4.1 Hadoop序列化
2.4.2 基于文件的数据结构SequenceFile
2.4.3 基于文件的数据结构MapFile
本章总结
本章作业
第3章 分布式计算框架MapReduce
本章任务
任务1 MapReduce编程模型
3.1.1 MapReduce概述
3.1.2 MapReduce编程模型
3.1.3 MapReduce Woracount编程实例
任务2 MapReduce进阶
3.2.1 MapReduce类型
3.2.2 MapReduce输入格式
3.2.3 MapReduce输出格式
3.2.4 Combiner
3.2.5 Partitioner
3.2.6 RecordReader
任务3 MapReduce高级编程
3.3.1 Join的MapReduce实现
3.3.2 排序的MapReduce实现
3.3.3 二次排序的MapReduce实现
3.3.4 合并小文件的MapReduce实现
本章总结
本章作业
第4章 YARN与Hadoop新特性
本章任务
任务1 初识资源调度框架YARN
4.1.1 YARN产生背景
4.1.2 初识YARN
4.1.3 YARN运行机制
任务2 HDFS新特性
4.2.1 HDFS NameNOde HA
4.2.2 HDFS NameN0de Federation
4.2.3 HDFSSnaoshots
4.2.4 WebHOFS RESTAPI
4.2.5 DistCp
任务3 YARN新特性
4.3.1 ResourceManager Restart
4.3.2 ResourceManager HA
本章总结
本章作业
第5章 大数据数据仓库Hive
本章任务
任务1 初识Hive
5.1.1 Hiye简介
5.1.2 Hiye架构
5.1.3 Hiye与Hadoop的关系
5.1.4 Hive与传统关系型数据库对比
5.1.5 Hive数据存储
5.1.6 Hive环境部署
任务2 Hive基本操作
5.2.1 DDL操作
5.2.2 DML操作
5.2.3 Hive shell操作
任务3 Hive进阶
5.3.1 Hive函数
5.3.2 Hive常用调优策略
本章总结
本章作业
第6章 离线处理辅助系统
本章任务
任务1 使用Sqoop完成数据迁移
6.1.1 Sqoop简介
6.1.2 导入MysQL数据到HDFS
6.1.3 导出HOFS数据到MySQL
6.1.4 导入MySQL数据到Hive
6.1.5 Sqoop中Job的使用
任务2 工作流调度框架Azkaban
6.2.1 Azkaban简介
6.2.2 Azkaban部署
6.2.3 Azkaban实战
本章总结
本章作业
第7章 Spark入门
本章任务
任务1 初识Spark
7.1.1 Spark概述
7.1.2 Spark优点
7.1.3 Spark生态系统BDAs
任务2 Scala入门
7.2.1 Scala介绍
7.2.2 Scala函数
7.2.3 Scala面向对象
7.2.4 Scala集合
7.2.5 Scala进阶
任务3 获取Spark源码并进行编译
7.3.1 获取Spark源码
7.3.2 Spark源码编译
任务4 第次与Spark亲密接触
7.4.1 Spark环境部署
7.4.2 Spark完成词频统计分析
本章总结
本章作业
第8章 SparkCore
本章任务
任务1 SparK的基石RDD
8.1.1 RDD概述
8.1.2 RDD常用创建方式
8.1.3 RDD的转换
8.1.4 ROD的动作
8.1.5 RDD的依赖
任务2 RDD进阶
8.2.1 RDD缓存
8.2.2 共享变量(Shared Variables)
8.2.3 Spark核心概念
8.2.4 Spark运行架构
任务3 基于RDD的Spark编程
8.3.1 开发前置准备
8.3.2 使用SparkCore开发词频计数WordCount
8.3.3 使用SparkCore进行年龄统计
本章总结
本章作业
第9章 Spark SQL
本章任务
任务1 SparkSQL前世今生
9.1.1 为什么需要SQL
9.1.2 常用的SQL on Hadoop框架
9.1.3 Spark SQL概述
任务2 Spark SQL编程
9.2.1 SparkSQL编程入口
9.2.2 DataFrame是什么
9.2.3 DataFrame编程
任务3 SparkSQL进阶
9.3.1 Spark SQL外部数据源操作
9.3.2 SparkSQL函数的使用
9.3.3 Spark SQL常用调优
本章总结
本章作业
第10章 Spark Streaming
本章任务
任务1 初始流处理框架及Spark Streaming
10.1.1 流处理框架概述
10.1.2 Spark Streaming概述
任务2 Spark Streaming编程
10.2.1 Spark Streaming核心概念
10.2.2 使用Spark Streaming编程
任务3 Spark Streaming进阶
10.3.1 Spark Streaming整合Flume
10.3.2 Spark Streaming整合Kafka
10.3.3 Spark Streaming常用优化策略
本章总结
本章作业
前言/序言
丛书设计:
准备好了吗?进入大数据时代!大数据已经并将继续影响人类的方方面面。2015年8月31日,经李克强总理批准,国务院正式下发《关于印发促进大数据发展行动纲要的通知》,这是从国家层面正式宣告大数据时代的到来!企业资本则以BAT互联网公司为首,不断进行大数据创新,从而实现大数据的商业价值。本丛书根据企业人才实际需求,参考历史学习难度曲线,选取“Java+大数据”技术集作为学习路径,旨在为读者提供一站式实战型大数据开发学习指导,帮助读者踏上由开发入门到大数据实战的互联网+大数据开发之旅!
丛书特点:
1.以企业需求为设计导向
满足企业对人才的技能需求是本丛书的核心设计原则,为此课工场大数据开发教研团队,通过对数百位BAT-线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析,从而实现技术的准确定位,达到课程与企业需求的高契合度。
2.以任务驱动为讲解方式
丛书中的技能点和知识点都由任务驱动,读者在学习知识时不仅可以知其然,而且可以知其所以然,帮助读者融会贯通、举一反三。
3.以实战项目来提升技术
本丛书均设置项目实战环节,该环节综合运用书中的知识点,帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。
4.以互联网+实现终身学习
本丛书可通过使用课工场APP进行二维码扫描来观看配套视频的理论讲解和案例操作,同时课工场(www.kgc.cn)开辟教材配套版块,提供案例代码及案例素材下载。此外,课工场还为读者提供了体系化的学习路径、丰富的在线学习资源和活跃的学习社区,方便读者随时学习。
读者对象:
1.大中专院校的老师和学生
2.编程爱好者
3.初中级程序开发人员
4.相关培训机构的老师和学员
读者服务:
为解决本丛书中存在的疑难问题,读者可以访问课工场官方网站(www.kgc.cn),也可以发送邮件到ke@kgc.cn,我们的客服专员将竭诚为您服务。
致谢:
本丛书是由课工场大数据开发教研团队研发编写的,课工场(kgc.cn)是北京大学旗下专注于互联网人才培养的高端教育品牌。作为国内互联网人才教育生态系统的构建者,课工场依托北京大学优质的教育资源,重构职业教育生态体系,以学员为本、以企业为基,构建教学大咖、技术大咖、行业大咖三咖一体的教学矩阵,为学员提供高端、靠谱、炫酷的学习内容!
感谢您购买本丛书,希望本丛书能成为您大数据开发之旅的好伙伴!
大数据开发工程师系列:Hadoop & Spark大数据开发实战 epub pdf mobi txt 电子书 下载 2024
大数据开发工程师系列:Hadoop & Spark大数据开发实战 下载 epub mobi pdf txt 电子书 2024