产品特色
编辑推荐
本书针对初学者的知识体系,适当简化大数据学习的难度,使得学习更加容易上手;知识架构是在培训了多届学员的基础上总结整理得来的,已经经历了实践的考验,证实了其的科学性;本书凝聚了10余位技术大牛的研发和授课经验,教学资料完整;书中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,使得学习者在进入企业后可以快速融入大数据技术相关工作岗位。
内容简介
本书的知识架构是在培训了多届学员的基础上总结整理得来的,已经经过了实践的考验,证实了其科学性;本书当中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,帮助学生在进入企业后可以很快融入大数据工作岗位。本书包括大数据概论、初识Hadoop、认识HDFS、HDFS的运行机制、访问HDFS、HadoopI/O详解、认识MapReduce编程模型、MapReduce应用编程开发、MapReduce的工作机制与YARN平台、MapReduce高级开发、MapReduce实例共11章内容。本书既可作为高等院校学习大数据技术的教材,亦可作为广大大数据技术学习者的入门用书。
作者简介
中科普开(北京)科技有限公司成立于2010年,是国内致力于IT新技术传播、普及的领航者,专注于云计算、大数据、物联网、移动互联网技术的培训及咨询服务。
目录
第1章大数据概论001
1.1大数据时代背景001
1.1.1大数据的数据源001
1.1.2大数据的价值和影响002
1.1.3大数据技术应用场景003
1.1.4大数据技术的发展前景004
1.2大数据基本概念005
1.2.1大数据定义005
1.2.2大数据结构类型007
1.2.3大数据核心特征007
1.2.4大数据技术008
1.2.5行业应用大数据实例010
1.3大数据系统011
1.3.1设计目标和原则011
1.3.2当前大数据系统012
1.4大数据与企业016
1.4.1大数据对企业的挑战性016
1.4.2企业大数据的发展方向019
1.4.3企业大数据观020
本章小结020
习题021
第2章初识Hadoop022
2.1Hadoop简介022
2.1.1Hadoop概况022
2.1.2Hadoop的功能和作用023
2.1.3Hadoop的优势023
2.1.4Hadoop的发展史024
2.1.5Hadoop的应用前景025
2.2深入了解Hadoop025
2.2.1Hadoop的体系结构025
2.2.2Hadoop与分布式开发027
2.2.3Hadoop生态系统029
2.3Hadoop与其他系统030
2.3.1Hadoop与关系型数据库管理系统030
2.3.2Hadoop与云计算032
2.4Hadoop应用案例032
2.4.1Hadoop在百度的应用032
2.4.2Hadoop在Yahoo!的应用033
2.4.3Hadoop在eBay的应用035
本章小结037
习题037
大数据
技术基础
目录
第3章认识HDFS039
3.1HDFS简介039
3.2HDFS的特性和设计目标040
3.2.1HDFS的特性040
3.2.2HDFS的设计目标041
3.3HDFS的核心设计042
3.3.1数据块042
3.3.2数据复制042
3.3.3数据副本的存放策略043
3.3.4机架感知045
3.3.5安全模式046
3.3.6负载均衡047
3.3.7心跳机制048
3.4HDFS的体系结构049
3.4.1Master/Slave架构049
3.4.2NameNode、SecondaryNameNode、DataNode050
本章小结055
习题055
第4章HDFS的运行机制056
4.1HDFS中数据流的读写056
4.1.1RPC实现流程056
4.1.2RPC实现模型057
4.1.3文件的读取059
4.1.4文件的写入060
4.1.5文件的一致模型061
4.2HDFS的HA机制062
4.2.1为什么有HA机制062
4.2.2HA集群和架构063
4.3HDFS的Federation机制064
4.3.1为什么引入Federation机制064
4.3.2Federation架构066
4.3.3多命名空间管理067
本章小结067
习题068
第5章访问HDFS069
5.1命令行常用接口069
5.1.1HDFS操作体验069
5.1.2HDFS常用命令071
5.2Java接口073
5.2.1从Hadoop URL中读取数据074
5.2.2通过FileSystem API读取数据075
5.2.3写入数据076
5.2.4创建目录078
5.2.5查询文件系统078
5.2.6删除数据081
5.3其他常用接口081
5.3.1Thrift081
5.3.2C语言082
5.3.3HTTP082
本章小结082
习题083
第6章Hadoop I/O详解084
6.1数据完整性084
6.1.1HDFS的数据完整性084
6.1.2验证数据完整性085
6.2文件压缩086
6.2.1Hadoop支持的压缩格式086
6.2.2压缩�步庋顾跛惴╟odec087
6.2.3压缩和输入分片091
6.3文件序列化092
6.3.1Writable接口093
6.3.2WritableComparable接口094
6.3.3Writable实现类095
6.3.4自定义Writable接口100
6.3.5序列化框架104
6.4Hadoop文件的数据结构104
6.4.1SequenceFile存储104
6.4.2MapFile存储108
本章小结111
习题111第7章识识MapReduce编程模型113
7.1MapReduce编程模型简介113
7.1.1什么是MapReduce113
7.1.2MapReduce程序的设计方法114
7.1.3新旧MapReduce简介115
7.1.4Hadoop MapReduce架构116
7.1.5MapReduce的优缺点117
7.2WordCount编程实例118
7.2.1WordCount的设计思路118
7.2.2编写WordCount代码118
7.2.3运行程序119
7.2.4代码讲解120
7.3MapReduce的编程122
7.3.1配置开发环境122
7.3.2编写Mapper类124
7.3.3编写Reducer类125
7.3.4编写main函数125
7.4MapReduce在集群上的运作127
7.4.1作业的打包和启动127
7.4.2MapReduce的Web界面128
7.4.3获取结果130
本章小结131
习题131
第8章MapReduce应用编程开发132
8.1MapReduce类型与格式132
8.1.1MapReduce的类型132
8.1.2输入格式137
8.1.3输出格式148
8.2Java API解析150
8.2.1作业配置与提交151
8.2.2InputFormat接口的设计与实现152
8.2.3OutputFormat接口的设计与实现157
8.2.4Mapper与Reducer解析159
本章小结163
习题163
第9MapReduce的工作机制与YARN平台165
9.1YARN平台简介165
9.1.1YARN的诞生165
9.1.2YARN的作用166
9.2YARN的架构166
9.2.1ResourceManager167
9.2.2ApplicationMaster168
9.2.3NodeManager168
9.2.4资源模型169
9.2.5ResourceRequest和Container169
9.2.6Container规范170
9.3剖析MapReduce作业运行机制170
9.4基于YARN的运行机制剖析171
9.5Shuffle和排序175
9.5.1map端175
9.5.2reduce端176
9.6任务的执行178
9.6.1任务执行环境178
9.6.2推测执行179
9.6.3关于OutputCommitters180
9.6.4任务JVM重用181
9.6.5跳过坏记录182
9.7作业的调度182
9.7.1公平调度器183
9.7.2容量调度器183
9.8在YARN上运行MapReduce实例184
9.8.1运行Pi实例184
9.8.2使用Web GUI监控实例185
本章小结189
习题190
第10章MapReduce高级开发191
10.1计数器191
10.1.1内置计数器191
10.1.2自定义的Java计数器193
10.2数据去重194
10.2.1实例描述194
10.2.2设计思路194
10.2.3程序代码194
10.3排序195
10.3.1实例描述196
10.3.2设计思路196
10.3.3程序代码196
10.4二次排序197
10.4.1二次排序原理197
10.4.2二次排序的算法流程198
10.4.3代码实现199
10.5平均值202
10.5.1实例描述202
10.5.2设计思路202
10.5.3程序代码203
10.6Join联接204
10.6.1Map端Join204
10.6.2Reduce端Join205
10.6.3Join实现表关联205
10.7倒排索引209
10.7.1倒排索引的分析和设计209
10.7.2倒排索引完整源码213
10.7.3运行代码结果214
本章小结215
习题215
第11章MapReduce实例216
11.1搜索引擎日志处理216
11.1.1背景介绍216
11.1.2数据收集216
11.1.3数据结构216
11.1.4需求分析217
11.1.5MapReduce编码实现217
11.2汽车销售数据分析223
11.2.1背景介绍224
11.2.2数据收集224
11.2.3数据结构 224
11.2.4需求分析224
11.2.5MapReduce编码实现225
11.3农产品价格分析234
11.3.1背景介绍234
11.3.2数据收集235
11.3.3数据结构235
11.3.4需求分析236
11.3.5MapReduce编码实现236
参考文献248
精彩书摘
第1章大数据概论
本章提要
在这个日新月异发展的社会中,人们发现未知领域的规律主要依赖抽样数据、局部数据和片面数据,甚至无法获得真实数据时只能纯粹依赖经验、理论、假设和价值观去认识世界。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。然而大数据时代的来临使人类拥有更多的机会和条件在各个领域更深入地获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律。大数据的出现帮助商家了解用户、锁定资源、规划生产、做好运营及开展服务。
本章主要从大数据时代背景、大数据基本概念、大数据系统以及大数据与企业等方面,让读者对大数据有初步的认识。
1.1大数据时代背景
中国庞大的人数和应用市场,其复杂性高并且充满变化,从而成为世界上拥有最复杂的大数据的国家。解决这种由大规模数据引发的问题,探索以大数据为基础的解决方案,是中国产业升级、效率提高的重要手段。因此,解决大数据这一问题不仅提高公司的竞争力,也能提高国家竞争力。
1.1.1大数据的数据源
近年来,随着信息技术的发展,我国在各个领域产生了海量数据,主要分布如下。
1. 以BAT为代表的互联网公司
(1) 阿里巴巴: 目前保存的数据量为近百个拍字节(PB),90%以上是电商数据、交易数据、用户浏览和点击网页数据、购物数据。
(2) 百度: 2013年的数据总量接近一千个拍字节(PB),主要来自中文网、百度推广、百度日志、UGC,由于占有70%以上的搜索市场份额从而坐拥庞大的搜索数据。
(3) 腾讯: 存储数据经压缩处理后总量在100PB左右,数据量月增10%,主要是大量社交、游戏等领域积累的文本、音频、视频和关系类数据。
大数据
技术基础
00第1章
大数据概论
002. 电信、金融与保险、电力与石化系统
(1) 电信: 包括用户上网记录、通话、信息、地理位置等。运营商拥有的数据量都在10PB以上,年度用户数据增长数十拍字节(PB)。
(2) 金融与保险: 包括开户信息数据、银行网点和在线交易数据、自身运营的数据等。金融系统每年产生数据达数十拍字节(PB),保险系统数据量也接近拍字节(PB)级别。
(3) 电力与石化: 仅国家电网采集获得的数据总量就达到10个拍字节(PB)级别,石化行业、智能水表等每年产生和保存下来的数据量也达到数十拍字节(PB)级别。
3. 公共安全、医疗、交通领域
(1) 公共安全: 在北京,就有50万个监控摄像头,每天采集视频数量约3PB,整个视频监控每年保存下来的数据在数百拍字节(PB)以上。
(2) 医疗卫生: 据了解,整个医疗卫生行业一年能够保存下来的数据就可达到数百PB。
(3) 交通: 航班往返一次就能产生太字节(TB)级别的海量数据;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十拍字节(PB)。
4. 气象与地理、政务与教育等领域
(1) 气象与地理: 中国幅页辽阔,气象局保存的数据为4~5PB,每年约增数百个太字节(TB),各种地图和地理位置信息每年约增数十太字节(PB)。
(2) 政务与教育: 北京市政务数据资源网涵盖旅游、教育、交通、医疗等门类,一年上线公布400余个数据包。政务数据多为结构化数据。
5. 其他行业
线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量还处于积累期,整个体积都不算大,多则达到拍字节(PB)级别,少则几百太字节(TB),甚至只有数十太字节(TB)级别,但增速很快。
1.1.2大数据的价值和影响
数量巨大、与微观情境相结合的运行记录信息的最终结果就是大数据。尽管运行记录信息不是大数据的全部,但却应该是以后大数据的主流。目前看得到的金融、电信、航空、电商、零售渠道等领域中的大数据,多数也都是运行记录信息。大数据具有采集过程价值未知、力争全面、即时、系统性并发的记录方式,以及主受体统一和大微观的特征,这些特征决定了大数据的价值发挥。
大数据的应用很广泛,解决了大量的日常问题。大数据是利害攸关的,它将重塑人们的生活、工作和思维方式,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。大数据需要人们重新讨论决策、命运和正义的性质。人们的世界观正受到大数据优势的挑战,拥有大数据不但意味着掌握过去,更意味着能够预测未来。因此,大数据给人们带来了巨大的价值和影响。
(1) 全面洞察客户信息。全面分析来自渠道的反馈、社会传媒等多源信息,让每个客户作为个体了解全景。
(2) 提升企业的资源管理: 利用实时数据实现预测性维护,并减少故障,推动产品和服务开发。
(3) 数据深度利用。梳理结构化、非结构化、海量历史/实时、地理信息4类数据资源,以企业核心业务及应用为主线实现四类数据资源的关联利用。
(4) 风险及时感知和控制。通过全面数据分析改进风险模型,结合交易流数据实时捕获风险,及时有效地控制。
(5) 辅助智能决策。实时分析所有的运营数据和效果反馈,优化运营流程。利用投资回报率最大程度减少信息技术成本。
(6) 更快和更大规模的产品创新。多源捕获市场反馈,利用海量市场数据和研究数据来快速驱动创新。
1.1.3大数据技术应用场景
当前,大数据技术的应用涉及各个行业领域。
1. 大数据在金融行业的应用
近年来,随着“互联网金融”概念的兴起,催生了一大批金融、类金融机构转型或布局的服务需求,相关产业服务应运而生。而随着互联网金融向纵深发展,行业竞争日趋白热化,金融、类金融机构在其中的短板日益凸显。为了更好地获得最佳商机,金融行业也步入了大数据时代。
华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪。人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多来决定公司股票的买入还是卖出。
阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷款,并且不需要这些中小企业的担保。目前阿里公司已放贷款上千亿元,坏账率仅为0.3%。
2. 大数据在政府的应用
为充分运用大数据的先进理念、技术和资源,加强对我国各地市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力,我国一些省市运用大数据加强对市场主体服务和监管实施方案已然出炉。
3. 大数据在医疗健康的应用
随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模也在以前所未有的速度迅猛增长,甚至产生了无法利用目前主流软件工具的现象,这些医疗数据能帮助医改在合理的时间内达到撷取、管理信息并整合成为能够帮助医院进行更积极的经营决策的有用信息。这些具有特殊性、复杂性的庞大的医疗大数据,仅靠个人甚至个别机构来进行搜索,那基本是不可能完成的。
4. 大数据在宏观经济管理领域的应用
IBM日本分公司建立了一个经济指标预测系统,它从互联网新闻中搜索出能影响制造业的480项经济数据,再利用这些数据进行预测,准确度相当高。
印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言预测琼斯工业指数,准确率高达87%。
淘宝网建立了“淘宝CPI”,通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI,预测某个时间段的经济走势比国家统计局的CPI还提前半个月。
5. 大数据在农业领域的应用
由Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,各地的降雨、气温和土壤状况及历年农作物产量做成紧凑的图表,从而能够预测美国任一农场下一年的产量。农场主可以去该公司咨询明年种什么能卖出去、能赚钱,说错了该公司负责赔偿,赔偿金额比保险公司还要高,但到目前为止还没赔过。
通过对手机上的农产品“移动支付”数据、“采购投入”数据和“补贴”数据分析,可准确预测农产品生产趋势,政府可依此决定出台激励实施和确定合适的作物存储量,还可以为农民提供服务。
6. 大数据在商业领域的应用
沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产
大数据技术基础 epub pdf mobi txt 电子书 下载 2024
大数据技术基础 下载 epub mobi pdf txt 电子书 2024