大数据技术基础 pdf epub mobi txt 电子书下载 2026

Name: 大数据技术基础 pdf epub mobi txt 电子书 2026
SKU: 11979800
Rating: 4 (10 reviews)

简体网页||繁体网页

☆☆☆☆☆

中科普开著

图书标签:

大数据
数据分析
Hadoop
Spark
数据挖掘
云计算
数据库
Python
Java
机器学习

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302437574

版次：1

商品编码：11979800

包装：平装

开本：16开

出版时间：2016-06-01

用纸：胶版纸

页数：247

字数：396000

具体描述

产品特色

编辑推荐

　　本书针对初学者的知识体系，适当简化大数据学习的难度，使得学习更加容易上手；知识架构是在培训了多届学员的基础上总结整理得来的，已经经历了实践的考验，证实了其的科学性；本书凝聚了10余位技术大牛的研发和授课经验，教学资料完整；书中的案例都为企业实际开发的案例，通过学习这些大量的实际案例，使得学习者在进入企业后可以快速融入大数据技术相关工作岗位。

内容简介

　　本书的知识架构是在培训了多届学员的基础上总结整理得来的，已经经过了实践的考验，证实了其科学性；本书当中的案例都为企业实际开发的案例，通过学习这些大量的实际案例，帮助学生在进入企业后可以很快融入大数据工作岗位。本书包括大数据概论、初识Hadoop、认识HDFS、HDFS的运行机制、访问HDFS、HadoopI/O详解、认识MapReduce编程模型、MapReduce应用编程开发、MapReduce的工作机制与YARN平台、MapReduce高级开发、MapReduce实例共11章内容。本书既可作为高等院校学习大数据技术的教材，亦可作为广大大数据技术学习者的入门用书。

作者简介

　　中科普开（北京）科技有限公司成立于2010年，是国内致力于IT新技术传播、普及的领航者，专注于云计算、大数据、物联网、移动互联网技术的培训及咨询服务。

第1章大数据概论001
1.1大数据时代背景001
1.1.1大数据的数据源001
1.1.2大数据的价值和影响002
1.1.3大数据技术应用场景003
1.1.4大数据技术的发展前景004
1.2大数据基本概念005
1.2.1大数据定义005
1.2.2大数据结构类型007
1.2.3大数据核心特征007
1.2.4大数据技术008
1.2.5行业应用大数据实例010
1.3大数据系统011
1.3.1设计目标和原则011
1.3.2当前大数据系统012
1.4大数据与企业016
1.4.1大数据对企业的挑战性016
1.4.2企业大数据的发展方向019
1.4.3企业大数据观020
本章小结020
习题021
第2章初识Hadoop022
2.1Hadoop简介022
2.1.1Hadoop概况022
2.1.2Hadoop的功能和作用023
2.1.3Hadoop的优势023
2.1.4Hadoop的发展史024
2.1.5Hadoop的应用前景025
2.2深入了解Hadoop025
2.2.1Hadoop的体系结构025
2.2.2Hadoop与分布式开发027
2.2.3Hadoop生态系统029
2.3Hadoop与其他系统030
2.3.1Hadoop与关系型数据库管理系统030
2.3.2Hadoop与云计算032
2.4Hadoop应用案例032
2.4.1Hadoop在百度的应用032
2.4.2Hadoop在Yahoo！的应用033
2.4.3Hadoop在eBay的应用035
本章小结037
习题037
大数据
技术基础
目录
第3章认识HDFS039
3.1HDFS简介039
3.2HDFS的特性和设计目标040
3.2.1HDFS的特性040
3.2.2HDFS的设计目标041
3.3HDFS的核心设计042
3.3.1数据块042
3.3.2数据复制042
3.3.3数据副本的存放策略043
3.3.4机架感知045
3.3.5安全模式046
3.3.6负载均衡047
3.3.7心跳机制048
3.4HDFS的体系结构049
3.4.1Master/Slave架构049
3.4.2NameNode、SecondaryNameNode、DataNode050
本章小结055
习题055
第4章HDFS的运行机制056
4.1HDFS中数据流的读写056
4.1.1RPC实现流程056
4.1.2RPC实现模型057
4.1.3文件的读取059
4.1.4文件的写入060
4.1.5文件的一致模型061
4.2HDFS的HA机制062
4.2.1为什么有HA机制062
4.2.2HA集群和架构063
4.3HDFS的Federation机制064
4.3.1为什么引入Federation机制064
4.3.2Federation架构066
4.3.3多命名空间管理067
本章小结067
习题068
第5章访问HDFS069
5.1命令行常用接口069
5.1.1HDFS操作体验069
5.1.2HDFS常用命令071
5.2Java接口073
5.2.1从Hadoop URL中读取数据074
5.2.2通过FileSystem API读取数据075
5.2.3写入数据076
5.2.4创建目录078
5.2.5查询文件系统078
5.2.6删除数据081
5.3其他常用接口081
5.3.1Thrift081
5.3.2C语言082
5.3.3HTTP082
本章小结082
习题083
第6章Hadoop I/O详解084
6.1数据完整性084
6.1.1HDFS的数据完整性084
6.1.2验证数据完整性085
6.2文件压缩086
6.2.1Hadoop支持的压缩格式086
6.2.2压缩�步庋顾跛惴╟odec087
6.2.3压缩和输入分片091
6.3文件序列化092
6.3.1Writable接口093
6.3.2WritableComparable接口094
6.3.3Writable实现类095
6.3.4自定义Writable接口100
6.3.5序列化框架104
6.4Hadoop文件的数据结构104
6.4.1SequenceFile存储104
6.4.2MapFile存储108
本章小结111
习题111第7章识识MapReduce编程模型113
7.1MapReduce编程模型简介113
7.1.1什么是MapReduce113
7.1.2MapReduce程序的设计方法114
7.1.3新旧MapReduce简介115
7.1.4Hadoop MapReduce架构116
7.1.5MapReduce的优缺点117
7.2WordCount编程实例118
7.2.1WordCount的设计思路118
7.2.2编写WordCount代码118
7.2.3运行程序119
7.2.4代码讲解120
7.3MapReduce的编程122
7.3.1配置开发环境122
7.3.2编写Mapper类124
7.3.3编写Reducer类125
7.3.4编写main函数125
7.4MapReduce在集群上的运作127
7.4.1作业的打包和启动127
7.4.2MapReduce的Web界面128
7.4.3获取结果130
本章小结131
习题131
第8章MapReduce应用编程开发132
8.1MapReduce类型与格式132
8.1.1MapReduce的类型132
8.1.2输入格式137
8.1.3输出格式148
8.2Java API解析150
8.2.1作业配置与提交151
8.2.2InputFormat接口的设计与实现152
8.2.3OutputFormat接口的设计与实现157
8.2.4Mapper与Reducer解析159
本章小结163
习题163
第9MapReduce的工作机制与YARN平台165
9.1YARN平台简介165
9.1.1YARN的诞生165
9.1.2YARN的作用166
9.2YARN的架构166
9.2.1ResourceManager167
9.2.2ApplicationMaster168
9.2.3NodeManager168
9.2.4资源模型169
9.2.5ResourceRequest和Container169
9.2.6Container规范170
9.3剖析MapReduce作业运行机制170
9.4基于YARN的运行机制剖析171
9.5Shuffle和排序175
9.5.1map端175
9.5.2reduce端176
9.6任务的执行178
9.6.1任务执行环境178
9.6.2推测执行179
9.6.3关于OutputCommitters180
9.6.4任务JVM重用181
9.6.5跳过坏记录182
9.7作业的调度182
9.7.1公平调度器183
9.7.2容量调度器183
9.8在YARN上运行MapReduce实例184
9.8.1运行Pi实例184
9.8.2使用Web GUI监控实例185
本章小结189
习题190
第10章MapReduce高级开发191
10.1计数器191
10.1.1内置计数器191
10.1.2自定义的Java计数器193
10.2数据去重194
10.2.1实例描述194
10.2.2设计思路194
10.2.3程序代码194
10.3排序195
10.3.1实例描述196
10.3.2设计思路196
10.3.3程序代码196
10.4二次排序197
10.4.1二次排序原理197
10.4.2二次排序的算法流程198
10.4.3代码实现199
10.5平均值202
10.5.1实例描述202
10.5.2设计思路202
10.5.3程序代码203
10.6Join联接204
10.6.1Map端Join204
10.6.2Reduce端Join205
10.6.3Join实现表关联205
10.7倒排索引209
10.7.1倒排索引的分析和设计209
10.7.2倒排索引完整源码213
10.7.3运行代码结果214
本章小结215
习题215
第11章MapReduce实例216
11.1搜索引擎日志处理216
11.1.1背景介绍216
11.1.2数据收集216
11.1.3数据结构216
11.1.4需求分析217
11.1.5MapReduce编码实现217
11.2汽车销售数据分析223
11.2.1背景介绍224
11.2.2数据收集224
11.2.3数据结构 224
11.2.4需求分析224
11.2.5MapReduce编码实现225
11.3农产品价格分析234
11.3.1背景介绍234
11.3.2数据收集235
11.3.3数据结构235
11.3.4需求分析236
11.3.5MapReduce编码实现236
参考文献248

精彩书摘

　　第1章大数据概论
　　本章提要
　　在这个日新月异发展的社会中，人们发现未知领域的规律主要依赖抽样数据、局部数据和片面数据，甚至无法获得真实数据时只能纯粹依赖经验、理论、假设和价值观去认识世界。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。然而大数据时代的来临使人类拥有更多的机会和条件在各个领域更深入地获得和使用全面数据、完整数据和系统数据，深入探索现实世界的规律。大数据的出现帮助商家了解用户、锁定资源、规划生产、做好运营及开展服务。
　　本章主要从大数据时代背景、大数据基本概念、大数据系统以及大数据与企业等方面，让读者对大数据有初步的认识。
　　1.1大数据时代背景
　　中国庞大的人数和应用市场，其复杂性高并且充满变化，从而成为世界上拥有最复杂的大数据的国家。解决这种由大规模数据引发的问题，探索以大数据为基础的解决方案，是中国产业升级、效率提高的重要手段。因此，解决大数据这一问题不仅提高公司的竞争力，也能提高国家竞争力。
　　1.1.1大数据的数据源
　　近年来，随着信息技术的发展，我国在各个领域产生了海量数据，主要分布如下。
　　1. 以BAT为代表的互联网公司
　　(1) 阿里巴巴: 目前保存的数据量为近百个拍字节(PB)，90%以上是电商数据、交易数据、用户浏览和点击网页数据、购物数据。
　　(2) 百度: 2013年的数据总量接近一千个拍字节(PB)，主要来自中文网、百度推广、百度日志、UGC，由于占有70%以上的搜索市场份额从而坐拥庞大的搜索数据。
　　(3) 腾讯: 存储数据经压缩处理后总量在100PB左右，数据量月增10%，主要是大量社交、游戏等领域积累的文本、音频、视频和关系类数据。
　　大数据
　　技术基础
　　00第1章
　　大数据概论
　　002. 电信、金融与保险、电力与石化系统
　　(1) 电信: 包括用户上网记录、通话、信息、地理位置等。运营商拥有的数据量都在10PB以上，年度用户数据增长数十拍字节(PB)。
　　(2) 金融与保险: 包括开户信息数据、银行网点和在线交易数据、自身运营的数据等。金融系统每年产生数据达数十拍字节(PB)，保险系统数据量也接近拍字节(PB)级别。
　　(3) 电力与石化: 仅国家电网采集获得的数据总量就达到10个拍字节(PB)级别，石化行业、智能水表等每年产生和保存下来的数据量也达到数十拍字节(PB)级别。
　　3. 公共安全、医疗、交通领域
　　(1) 公共安全: 在北京，就有50万个监控摄像头，每天采集视频数量约3PB，整个视频监控每年保存下来的数据在数百拍字节(PB)以上。
　　(2) 医疗卫生: 据了解，整个医疗卫生行业一年能够保存下来的数据就可达到数百PB。
　　(3) 交通: 航班往返一次就能产生太字节(TB)级别的海量数据；列车、水陆路运输产生的各种视频、文本类数据，每年保存下来的也达到数十拍字节(PB)。
　　4. 气象与地理、政务与教育等领域
　　(1) 气象与地理: 中国幅页辽阔，气象局保存的数据为4～5PB，每年约增数百个太字节(TB)，各种地图和地理位置信息每年约增数十太字节(PB)。
　　(2) 政务与教育: 北京市政务数据资源网涵盖旅游、教育、交通、医疗等门类，一年上线公布400余个数据包。政务数据多为结构化数据。
　　5. 其他行业
　　线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量还处于积累期，整个体积都不算大，多则达到拍字节(PB)级别，少则几百太字节(TB)，甚至只有数十太字节(TB)级别，但增速很快。
　　1.1.2大数据的价值和影响
　　数量巨大、与微观情境相结合的运行记录信息的最终结果就是大数据。尽管运行记录信息不是大数据的全部，但却应该是以后大数据的主流。目前看得到的金融、电信、航空、电商、零售渠道等领域中的大数据，多数也都是运行记录信息。大数据具有采集过程价值未知、力争全面、即时、系统性并发的记录方式，以及主受体统一和大微观的特征，这些特征决定了大数据的价值发挥。
　　大数据的应用很广泛，解决了大量的日常问题。大数据是利害攸关的，它将重塑人们的生活、工作和思维方式，比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。大数据需要人们重新讨论决策、命运和正义的性质。人们的世界观正受到大数据优势的挑战，拥有大数据不但意味着掌握过去，更意味着能够预测未来。因此，大数据给人们带来了巨大的价值和影响。
　　(1) 全面洞察客户信息。全面分析来自渠道的反馈、社会传媒等多源信息，让每个客户作为个体了解全景。
　　(2) 提升企业的资源管理: 利用实时数据实现预测性维护，并减少故障，推动产品和服务开发。
　　(3) 数据深度利用。梳理结构化、非结构化、海量历史/实时、地理信息4类数据资源，以企业核心业务及应用为主线实现四类数据资源的关联利用。
　　(4) 风险及时感知和控制。通过全面数据分析改进风险模型，结合交易流数据实时捕获风险，及时有效地控制。
　　(5) 辅助智能决策。实时分析所有的运营数据和效果反馈，优化运营流程。利用投资回报率最大程度减少信息技术成本。
　　(6) 更快和更大规模的产品创新。多源捕获市场反馈，利用海量市场数据和研究数据来快速驱动创新。
　　1.1.3大数据技术应用场景
　　当前，大数据技术的应用涉及各个行业领域。
　　1. 大数据在金融行业的应用
　　近年来，随着“互联网金融”概念的兴起，催生了一大批金融、类金融机构转型或布局的服务需求，相关产业服务应运而生。而随着互联网金融向纵深发展，行业竞争日趋白热化，金融、类金融机构在其中的短板日益凸显。为了更好地获得最佳商机，金融行业也步入了大数据时代。
　　华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪。人们高兴的时候会买股票，而焦虑的时候会抛售股票，它通过判断全世界高兴的人多还是焦虑的人多来决定公司股票的买入还是卖出。
　　阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业，给他们提供贷款，并且不需要这些中小企业的担保。目前阿里公司已放贷款上千亿元，坏账率仅为0.3%。
　　2. 大数据在政府的应用
　　为充分运用大数据的先进理念、技术和资源，加强对我国各地市场主体的服务和监管，推进简政放权和政府职能转变，提高政府治理能力，我国一些省市运用大数据加强对市场主体服务和监管实施方案已然出炉。
　　3. 大数据在医疗健康的应用
　　随着医疗卫生信息化建设进程的不断加快，医疗数据的类型和规模也在以前所未有的速度迅猛增长，甚至产生了无法利用目前主流软件工具的现象，这些医疗数据能帮助医改在合理的时间内达到撷取、管理信息并整合成为能够帮助医院进行更积极的经营决策的有用信息。这些具有特殊性、复杂性的庞大的医疗大数据，仅靠个人甚至个别机构来进行搜索，那基本是不可能完成的。
　　4. 大数据在宏观经济管理领域的应用
　　IBM日本分公司建立了一个经济指标预测系统，它从互联网新闻中搜索出能影响制造业的480项经济数据，再利用这些数据进行预测，准确度相当高。
　　印第安纳大学学者利用Google提供的心情分析工具，根据用户近千万条短信、微博留言预测琼斯工业指数，准确率高达87%。
　　淘宝网建立了“淘宝CPI”，通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI，预测某个时间段的经济走势比国家统计局的CPI还提前半个月。
　　5. 大数据在农业领域的应用
　　由Google前雇员创办Climate公司，从美国气象局等数据库中获得几十年的天气数据，各地的降雨、气温和土壤状况及历年农作物产量做成紧凑的图表，从而能够预测美国任一农场下一年的产量。农场主可以去该公司咨询明年种什么能卖出去、能赚钱，说错了该公司负责赔偿，赔偿金额比保险公司还要高，但到目前为止还没赔过。
　　通过对手机上的农产品“移动支付”数据、“采购投入”数据和“补贴”数据分析，可准确预测农产品生产趋势，政府可依此决定出台激励实施和确定合适的作物存储量，还可以为农民提供服务。
　　6. 大数据在商业领域的应用
　　沃尔玛基于每个月4500万的网络购物数据，并结合社交网络上有关产品的大众评分，开发机器学习语义搜索引擎“北极星”，方便浏览，在线购物者因此增加10%～15%，销售额增加十多亿美元。
　　沃尔玛通过手机定位，可以分析顾客在货柜前停留时间的长短，从而判断顾客对什么商品感兴趣。
　　不仅仅是通过手机定位，实际上美国有的超市在购物推车上也安装了位置传感器，根据顾客在不同货物前停留时间的长短来分析顾客可能的购物行为。
　　在淘宝网上买东西时，消费者会在阿里的广告交易平台上留下记录，阿里不仅从交易记录平台把消费记录拿来供自己使用，还会把消费记录卖给其他商家。
　　7. 大数据在银行的应用
　　在信用卡服务方面，银行首先利用移动互联网技术的定位功能确定商圈，目前已实际覆盖全国161个商圈，累计服务千万人次；其次利用用户活动轨迹追踪，确定高价值商业圈设计业务；再利用大数据进行客户需求的体验分析。既包括客户的需要，也包括客户的体验，最终实现用户体验的LIKE曲线。
　　1.1.4大数据技术的发展前景
　　据预测，到2020年，全球需要存储的数据量将达到35万亿吉字节(GB)，是2009年数据存储量的44倍。根据IDC的研究，2010年底全球的数据量已达到120万拍字节(PB)。这些数据如果使用光盘存储，摞起来可以从地球到月球一个来回。对于商业而言，这里孕育着巨大的市场机会，庞大的数据就是一个信息金矿。数据是企业的重要资产。因此，大数据将人们带进了一个更有前景的领域。
　　在大数据时代，一批新的大数据技术正在涌现，将改变人们分析处理海量数据的方式，使人们更快、更经济地获得所需的结果。传统商业智能限于技术瓶颈很大程度上是对抽样数据进行分析。大数据技术就是要打破传统商业智能领域的局限。大数据技术不但能处理结构化数据，还能分析和处理各种半结构化和非结构化数据，甚至从某种程度上，更擅长处理非结构化数据，例如Hadoop。而在现实生活中，这样的数据更为普遍，增长得更为迅速。例如，社交媒体中的各种交互活动、购物网站用户点击行为、图片、电子邮件等。可以说，正是此类数据的爆炸性催生了大数据相关技术的出现和完善，从而让人们知道在一个资源有限的世界中应该提取哪些有价值的信息。
　　大数据技术的出现和完善还可以帮助健康保险公司不做体检就能决定保险覆盖面，并降低提醒病人服药的成本。通过大数据的相关性，语言可以得到翻译，汽车可以在预测的基础上自行驾驶。人们之所以能做所有的这些事，新工具的使用只是一个很小的因素，比拥有更快的处理器、更多的存储器，更智能的软件和算法更重要的是，人们拥有了更多的数据，继而世界上更多的事物被数据化了。显然，人类量化世界的雄心先于计算机革命，但是数字工具将数据化提升到了新的高度。不仅移动电话能够跟踪到呼叫的人和被呼叫人所在的位置，而且同样的数据也能用于断定来人是否生病了。
　　能置身于信息流中央并且能够收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力，即一个能容纳大数据的心态，但价值的核心归功于数据本身。有时，重要的资产并不仅仅是能清楚看到的信息，聪明的公司可以用它来改善现有的服务，或推出全新的服务。
　　大数据将成为理解和解决当今许多紧迫的全球问题所不可或缺的重要工具。在应对气候变化问题时，需要对污染相关的数据进行分析得出最佳方案，从而明确努力方向，找出解决问题的方法。全球范围内遍布的大量传感设备，包括智能手机内部的传感器，使人们能以更高的细节水平模拟环境。而世界贫困人口迫切需要提高医疗保健服务，降低医疗费用，这很大程度上可以靠自动化来实现。当下许多似乎需要人类判断力才能进行的事情，其实可以完全交由计算机来做，比如癌细胞活检、传染病爆发前期的模式预测等。
　　大数据也被用于发展经济和理解如何预防冲突。基于手机动向数据显示，非洲许多贫民窟地区经济活动十分活跃。大数据还揭示了最有可能引发种族关系紧张的社区以及解除难民危机的方式。只有当科技应用于生活的方方面面时，大数据的使用范围才能进一步扩大。
　　大数据能帮助人们更好地进行已有的工作，并处理全新事务。在不久的将来，人们将在生活的方方面面使用到大数据。当大数据成为日常生活的一部分后，它将会极大地改变人们对未来的看法。
　　大数据时代造就了一个数据库无所不在的世界，数据监管部门面临前所未有的压力和责任。如何避免数据泄露对国家利益、公众利益、个人隐私造成伤害？如何避免信息不对称，对困难群体的利益构成伤害？在有效控制风险之前，也许还是让“大数据”继续待在笼子里更好一些。
　　大数据的经济价值已经被人们认可，大数据的技术正逐渐成熟，一旦完成数据的整合和监管，大数据爆发的时代即将到来。人们现在要做的，就是选好自己的方向，为迎接大数据的到来提前做好准备。
　　以未来的视角看，无论是政府、互联网公司、IT企业，还是行业用户，只要以开放的心态、创新的勇气拥抱“大数据”，大数据时代就一定有属于中国的机会。
　　1.2大数据基本概念〖*2〗1.2.1大数据定义麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The next frontier for innovation,competition and productivity》中给出的大数据定义是: 大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调，并不是说一定要超过特定太字节(TB)值的数据集才能算是大数据。
　　国际数据公司(IDC)从大数据的四个特征来定义，即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
　　亚马逊公司(全球最大的电子商务公司)的大数据科学家John Rauser 给出了一个简单的定义: 大数据是任何超过了一台计算机处理能力的数据量。
　　维基百科中只有短短的一句话: “巨量资料(Big Data)，或称大数据，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”
　　而在百度百科中是这样定义的: “大数据(Big Data)，是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。”
　　综合上面的定义，可以得出以下几点。
　　(1) 大数据并没有明确的界限，它的标准是可变的。大数据在今天的不同行业中的范围可以从几十太字节(TB)到几拍字节(PB)，但在20年前1GB的数据已然是大数据了。可见，随着计算机软硬件技术的发展，符合大数据标准的数据集容量也会增长。
　　(2) 大数据不仅仅只是大，它还包含了数据集规模已经超过了传统数据库软件获取、存储、分析和管理能力的意思。
　　IDC报告显示，计到2020年全球数据总量将超过40ZB(相当于4万亿GB)，这一数据量是2011年的22倍。在过去几年，全球的数据量以每年58%的速度增长，在未来这个速度会更快。如果按照现在存储容量每年增长40%的速度计算，到2017年需要存储的数据量甚至会大于存储设备的总容量。如何利用大数据解决科研、医疗、能源、商业、政府管理、城市建设等领域的问题，是全世界面临的问题。
　　举几个大家熟悉例子: 2014年11月19日，百度在京召开“百度云两周年媒体沟通会”，正式宣布百度云总用户数突破两亿，百度云数据存储量达5EB，这些数据足以塞满3.4亿部16GB内存的iPhone6，如果将这些手机首尾相连，可以在地球和月球之间搭建16条星际通道。
　　2014年3月7日，在阿里巴巴有史以来最大型对外开放的数据峰会“2014西湖品学大数据峰会”上，阿里巴巴大数据负责人披露了阿里巴巴目前的数据储存情况。目前在阿里巴巴数据平台事业部的服务器上，攒下了超过100PB已处理过的数据，等于104857600GB，相当于4万个西雅图中央图书馆，580亿本藏书。仅淘宝和天猫两个子公司每日新增的数据量，就足以让一个人连续不断看上28年的电影。而如果将一个人作为服务器，则此人处理的数据量相当于每秒钟看上837集的《来自星星的你》。
　　在2013年的数据大会上，腾讯公司数据平台总经理助理蒋杰透露，腾讯QQ目前拥有8亿用户、4亿移动用户，在数据仓库存储的数据量单机群数量已达到4400台，总存储数据量经压缩处理后约100PB，并且这一数据还在日增200～300TB、月增加率为10%的速度增长。
　　1993 年，《纽约客》刊登了一幅漫画，标题是“互联网上，没有人知道你是一条狗”。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5 万美元。当时关注互联网社会学的一些专家，甚至担忧“计算机异性扮装”而引发的社会问题。
　　20多年后，互联网发生了巨大的变化，移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时，也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗，还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实，每个人在互联网进入到大数据时代都将是透明存在的。
　　1.2.2大数据结构类型
　　当今企业存储的数据不仅仅是内容多，而且结构已发生了极大改变，不再仅仅是以二维表的规范结构存储。大量的数据来自不是结构化的数据类型(半结构化数据、准结构化数据或非结构化数据)，如办公文档、文本、图片、XML、 HTML、各类报表、图片、音频和视频等，并且这些数据在企业的所有数据中是大量且增长迅速的。企业80%的数据来自不是结构化的数据类型，结构化数据仅有20%。全球结构化数据增长速度约为32%，而不是结构化的数据类型增速高达63%。预计今年不是结构化的数据类型占有比例将达到互联网整个数据量的75%以上。
　　(1) 结构化数据: 包括预定义的数据类型、格式和结构的数据。例如，关系型数据库中的数据。
　　(2) 半结构化数据: 具有可识别的模式并可以解析的文本数据文件。例如，自描述和具有定义模式的XML数据文件。
　　(3) 准结构化数据: 具有不规则数据格式的文本数据，使用工具可以使之格式化。例如，包含不一致的数据值和格式化的网站点击数据，可参考http://www.zkpk.org/。
　　(4) 非结构化数据: 没有固定结构的数据，通常保存为不同类型的文件。例如，文本文档、图片、音频和视频。
　　1.2.3大数据核心特征
　　业界通常用4个V，即Volume(数据量大)、Variety(类型繁多)、Value(价值密度低)、Velocity(速度快，时效高)来概括大数据的特征。
　　……

前言/序言

　　为什么要写这本书
　　近年来，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。它已经上过《纽约时报》、《华尔街日报》的专栏封面，进入美国白宫官网的新闻，现身在国内一些互联网主题的讲座沙龙中，甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡称: “数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通信等行业存在已有时日，却因为近年来互联网和信息行业的发展而引起人们关注。数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然很多企业可能还没有意识到数据爆炸性增长带来问题的隐患，但是随着时间的推移，人们将越来越多地意识到数据对企业的重要性。
　　在如今的社会，大数据的应用越来越彰显它的优势，它占领的领域也越来越大，如电子商务、O2O、物流配送等，各种利用大数据进行发展的领域正在协助企业不断地发展新业务和创新运营模式。有了大数据这个概念，对于消费者行为的判断，产品销售量的预测，精确的营销范围以及存货的补给已经得到全面的改善与优化。然而，这些数据的规模是如此庞大，以至于不能用G或T来衡量。
　　为了解决这些数据的存储和相关计算问题，就必须构建一个强大且稳定的分布式集群系统作为搜索引擎的基础架构支撑平台，但是对于大多数互联网公司而言，研发这样一个高效性能系统往往要支付高昂的费用。经过多年的发展，如今已形成了以Hadoop为核心的大数据生态系统，开创了通用海量数据处理基础架构平台的先河。Hadoop是一个优秀的分布式计算系统，利用通用的硬件就可以构建一个强大、稳定、简单并且高效的分布式集群计算系统，完全可以满足互联网公司基础架构平台的需求，付出相对低廉的代价就可以轻松处理超大规模的数据。因此，使用Hadoop的公司越来越多，具有丰富工作经验的Hadoop人才也就越来越供不应求，从而学习和使用Hadoop的爱好者和开发者也越来越多，编写这本书也正是为了帮助更多的人学习并掌握Hadoop技术，从而推动Hadoop技术在中国的推广，进而推动中国信息产业的发展。
　　读者对象
　　本书适合以下读者阅读:
　　（1）大数据技术的学习者和爱好者；
　　（2）有Java基础的开发者；
　　（3） Hadoop技术开发者；大数据
　　技术基础
　　前言
　　（4） Hadoop集群运维开发者；
　　（5）分布式系统的相关研发人员。
　　如何阅读本书
　　本书分为三个部分。
　　第一部分为简介。简介部分为第1章，主要介绍了大数据的时代背景，从大数据来源到大数据的价值和影响，以及对应用场景和发展前景的介绍，帮助用户明白什么是大数据，大数据是用来干什么的，以及大数据的发展前景是怎样的。大数据的基本概念，首先明白什么是大数据，大数据中数据结构的复杂度，重点明白大数据的四个核心特征，接着了解大数据所使用的技术，最后介绍了一些大数据的应用实例，帮助大家更好地理解大数据、大数据系统，理解其核心设计目标，在系统设计目标的实现过程中，系统还需遵循一定的设计原则。
　　第二部分为Hadoop技术的讲解，包括第2章到第9章。从认识Hadoop开始到正式介绍Hadoop的基本应用，通过HDFS分布式文件系统和MapReduce并行计算模型从理论到实现机制的角度对Hadoop计算进行讲解。讲述了HDFS的特性和目标、核心设计、体系结构以及HDFS中数据流的读写、HA机制和Federation机制，同时重点介绍了HDFS的命令行接口和Java接口。接着介绍了Hadoop I/O，讲述了数据的完整性、文件压缩、问价序列化和Hadoop文件的数据结构。最后是对MapReduce的讲解，由浅入深，讲述了MapReduce的编程模型，MapReduce应用编程开发，包括MapReduce的类型格式，Java API解析，还重点讲述了MapReduce的工作机制与YARN平台，包括MapReduce作业运行机制的剖析、shuffle和排序、任务的执行、作业调度、YARN平台的简介和架构。
　　第三部分为实战部分，包括第10章和第11章。首先是从几个具体的小实例讲解了简单高效的MapReduce编程方式。然后通过最后的MapReduce编程实例，带我们进入大数据实战项目，帮助学习者更深入地掌握Hadoop技术。
　　勘误和支持
　　除本书编委会以外，参加本书编写的工作人员有: 毛妍、白高平、赵真。由于本书编写者水平有限，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正，可以将书中遇到的错误和问题发邮件，希望您能提出更多宝贵的意见，期待您的真挚反馈。

《跨越星辰：宇宙探索的未知边界》内容简介：浩瀚无垠的宇宙，自古以来便激发着人类最深邃的好奇与无限的遐想。从仰望星空、编织神话，到如今驾驭科技、探索深空，《跨越星辰：宇宙探索的未知边界》以详实的内容、严谨的逻辑，为我们揭示了人类与宇宙对话的波澜壮阔的历程。本书并非对已知的宇宙规律进行简单罗列，而是聚焦于那些我们尚未触及、尚未理解的“未知边界”，深入剖析人类为了跨越这些边界所付出的努力、取得的突破以及面临的挑战。本书的开篇，将带领读者回到人类文明的起点，回顾那些古老文明是如何凭借朴素的智慧和敏锐的观察，描绘出早期宇宙的图景。从巴比伦人精确的天文观测，到古希腊哲学家对宇宙结构的思考，再到中国古代的天文仪器，我们将看到，对宇宙的认知，是人类文明得以萌芽和发展的重要驱动力。书中将详细阐述早期天文学家们是如何通过对日月星辰运行轨迹的记录，逐渐建立起时间的概念，并为后来的科学发展奠定基础。随着科学革命的到来，人类探索宇宙的工具和理论发生了翻天覆地的变化。本书将深入探讨哥白尼的日心说如何颠覆了地心说的统治地位，开普勒的三大定律如何精确描述了行星的运动，以及牛顿的万有引力定律如何为我们理解宇宙运行的宏观规律提供了普适性的解释。我们将不仅仅停留在理论的介绍，更会深入分析这些科学革命是如何在当时的社会背景下引发思想的巨大碰撞，以及它们如何一步步将人类的视野从地球扩展到整个太阳系。进入20世纪，天文学的发展呈现出爆炸性的增长。本书将重点介绍爱因斯坦的相对论，解释它如何深刻地改变了我们对时间、空间、质量和能量的认知，并为理解黑洞、引力波等极端宇宙现象奠定了理论基础。我们将探讨哈勃望远镜的诞生及其带来的革命性发现，如何证实了宇宙的膨胀，揭示了星系的遥远与多样，以及我们所处宇宙并非永恒不变的事实。本书将详细描述这些里程碑式的发现是如何通过精密的观测和大胆的推测实现的，以及它们是如何不断刷新我们对宇宙的认知上限。然而，真正的“未知边界”在于宇宙的深处和其运作的本质。本书将花费大量篇幅，聚焦于那些尚未被完全理解的宇宙奥秘。我们将深入探讨暗物质和暗能量的谜团。科学家们通过对星系旋转速度、宇宙大尺度结构的观测，推断出宇宙中存在着大量我们看不见的物质，即暗物质，它们在引力作用上扮演着至关重要的角色。而暗能量，则被认为是导致宇宙加速膨胀的神秘力量。本书将详细介绍探测暗物质和暗能量的各种前沿方法，包括粒子探测实验、天文观测等，并分析目前研究中存在的争议和挑战。我们将探讨科学家们是如何通过精巧的实验设计，试图捕捉那些几乎无法直接观测到的粒子，以及如何通过分析宇宙微波背景辐射等信息来揭示暗能量的性质。除了暗物质与暗能量，本书还将深入讨论宇宙的起源与演化。大爆炸理论作为目前最为主流的宇宙起源模型，其证据链条将在这里被详细梳理。我们将探讨早期宇宙的极端环境，夸克-胶子等离子体、宇宙暴胀等概念，并深入分析这些理论如何解释我们今天观察到的宇宙的均一性和各向同性。同时，本书也将探讨宇宙终极命运的可能性，例如热寂、大撕裂、大挤压等，并分析当前科学界对此的推测与展望。我们将跟随科学家们一起，通过模拟和理论推导，试图预测宇宙在遥远的未来将走向何方。生命的起源与地外生命的存在，是人类探索宇宙过程中最令人着迷的课题之一。《跨越星辰：宇宙探索的未知边界》将专门开辟章节，深入探讨这个问题。本书将回顾地球生命起源的最新科学假说，从原始汤理论到深海热泉假说，以及对早期生命形式的 DNA 和 RNA 的研究。随后，我们将目光投向宇宙，分析搜寻地外生命（SETI）的历程和方法。本书将详细介绍地外文明搜寻的各种策略，例如利用射电望远镜监听宇宙中的微弱信号，以及通过分析系外行星的大气成分来寻找生物标记。我们将探讨那些可能存在生命的类地行星，分析它们所处恒星的宜居带，以及构成生命所必需的水、碳等元素的存在可能性。本书将引导读者思考，如果生命在宇宙中并非独一无二，那么其形式和演化路径又会是怎样的？本书还将关注人类探索宇宙的实际行动。我们将详细介绍载人航天技术的发展，从早期苏联和美国的太空竞赛，到国际空间站的合作，再到如今私人航天公司的崛起。本书将重点介绍载人火星探测的计划和挑战，包括长期太空旅行对人体的影响、生命维持系统的设计、火星资源的利用等。我们将深入分析月球基地建设的意义和可行性，以及小行星采矿等未来太空经济的构想。本书将通过大量的案例分析，展现人类如何从梦想走向实践，如何一步步将触角延伸到更远的星辰大海。最后，《跨越星辰：宇宙探索的未知边界》并非仅仅停留在科学知识的层面，它更是一次关于人类智慧、勇气与前瞻性的思考。在探索未知边界的过程中，我们不仅拓展了对宇宙的认知，更深刻地反思了人类自身在宇宙中的位置，以及我们作为智慧生命的责任。本书将强调科学探索的合作精神，不同国家、不同领域的科学家如何携手合作，共同攻克宇宙探索中的难题。同时，本书也将引发读者对未来科技发展方向的思考，以及人类文明在浩瀚宇宙中的长远发展前景。《跨越星辰：宇宙探索的未知边界》旨在为所有对宇宙充满好奇的读者提供一次深度而引人入胜的探索之旅，它将点燃你的求知欲，拓展你的视野，让你重新审视我们赖以生存的这颗蓝色星球，并激励你去仰望那片璀璨的星空，思考人类的未来，以及我们与宇宙之间永恒的联系。这本书将带你踏上一条由已知走向未知的壮丽征程，去感受人类不懈探索宇宙的精神，去触碰那隐藏在星辰大海深处的无限可能。

用户评价

评分☆☆☆☆☆

这本书的写作风格非常务实，它更多地关注“怎么做”和“为什么这么做”，而不是停留在空泛的概念层面。我曾尝试阅读过一些理论性极强的著作，结果往往是看得懂每一个字，但合上书本后，却无法将这些知识应用到实际工作中。这本书则完全不同，它通过大量的案例和实际场景的分析，让我能够将理论知识与实践经验相结合。例如，在讲解数据仓库设计时，书中给出了几种不同的建模方法，并分析了它们各自的优缺点，让我能够根据实际需求选择最合适的方案。对于那些想要将大数据技术落地到企业实际业务中的朋友们来说，这本书无疑是一本不可多得的实践指南。它不仅提供了技术上的指导，更重要的是，它传递了一种解决问题的思路和方法，让我能够在面对复杂的数据挑战时，能够更有条理、更有效地去分析和解决。

评分☆☆☆☆☆

这本书简直是我的救星！作为一名初入数据分析领域的新手，我之前对“大数据”这个概念总是感觉云里雾里，知其然却不知其所以然。市面上充斥着各种高深的理论和复杂的算法，看得我头晕眼花。直到我翻开这本书，才感觉拨开了迷雾，看到了清晰的道路。作者用非常平实易懂的语言，将大数据背后的核心思想和基本框架娓娓道来。我特别喜欢其中对数据采集、存储、处理和分析流程的讲解，每一个环节都剖析得入木三分，让我理解了数据是如何从海量信息中提炼出有价值的洞察的。书中还穿插了不少生动形象的比喻，比如将数据仓库比作一个巨大的图书馆，将数据处理比作整理图书的过程，这些都帮助我快速建立起宏观的认知。最重要的是，这本书没有直接上来就讲那些令人望而却步的技术细节，而是先搭建了一个坚实的基础，让我知道“为什么”要这样做，以及“大体上”是怎么做的。这为我后续深入学习具体的工具和技术打下了坚实的基础，让我不再是那个一头雾水的门外汉，而是拥有了初步的全局观。

评分☆☆☆☆☆

我一直认为，大数据技术是一个日新月异的领域，学习的重点不应该仅仅是掌握现有的工具，更重要的是理解其背后的核心思想和发展趋势。这本书在这方面做得非常出色。它不仅介绍了当前主流的大数据技术，还对未来的发展方向进行了前瞻性的探讨。我尤其对书中关于人工智能与大数据融合的章节印象深刻，它让我看到了大数据技术在未来将扮演更加重要的角色，并对机器学习、深度学习等技术有了更深的认识。这本书让我感觉到，我所学的知识不仅仅是“点”，更是能够“连接”未来的“线”。它为我打开了一个更广阔的视野，让我不再局限于当前的某个技术点，而是能够更长远地规划自己的学习路径和职业发展。这本书让我不仅学到了“是什么”，更学到了“为什么”和“将去向何方”。

评分☆☆☆☆☆

这本书的结构安排和内容深度都非常适合我这种想要快速掌握大数据技术精髓的开发者。我之前参与过一些数据密集型的项目，虽然能完成任务，但总觉得自己在“知其然，不知其所以然”的状态。这本书提供了一个绝佳的视角，让我能够从更宏观的层面去理解大数据技术的设计哲学和工程实践。我特别喜欢书中关于数据治理和数据质量的部分，这部分往往是许多技术书籍容易忽略的，但对于实际项目来说却至关重要。作者阐述了数据生命周期的各个阶段，以及在每个阶段需要关注的关键问题，这让我深刻认识到，技术本身只是工具，如何有效地管理和运用数据，才是决定项目成败的关键。此外，书中对大数据安全和隐私的讨论，也让我警醒，在享受技术带来的便利的同时，也要时刻关注潜在的风险。这本书让我明白，在大数据时代，技术能力和安全意识同样重要，相辅相成。

评分☆☆☆☆☆

这本书对于有一定数据基础，但想系统性梳理大数据技术体系的同行来说，绝对是物超所值。我之前接触过一些大数据相关的零散知识，比如 Hadoop 的一些组件，Spark 的一些 API，但总感觉像是在拼凑一块不完整的拼图。这本书就像是那个关键的“底板”，将所有分散的碎片一一对应，然后牢牢地粘合在一起，形成了一幅清晰完整的图景。我非常欣赏作者在介绍不同技术时，不是简单地罗列功能，而是深入分析了它们各自的设计理念、解决的问题以及在整个大数据生态中的位置。例如，在讲到数据存储时，它不仅介绍了 HDFS，还对比了 NoSQL 数据库的优势，让我理解了在不同场景下选择合适存储方案的重要性。在数据处理部分，它系统地阐述了批处理和流处理的区别与联系，并引出了 MapReduce、Spark Streaming 等经典模型。读完后，我感觉自己对大数据技术栈的理解不再是“点”的认知，而是“线”和“面”的连接，能够更清晰地把握整个技术发展的脉络和演进方向。

评分☆☆☆☆☆

我为什么喜欢在京东买东西，因为今天买明天就可以送到。我为什么每个商品的评价都一样，因为在京东买的东西太多太多了，导致积累了很多未评价的订单，所以我统一用段话作为评价内容。京东购物这么久，有买到很好的产品，也有买到比较坑的产品，如果我用这段话来评价，说明这款产品没问题，至少85分以上，我绝对不会偷懒到复制粘贴评价，我绝对会用心的差评，这样其他消费者在购买的时候会作为参考，会影响该商品销量，而商家也会因此改进商品质量。

评分☆☆☆☆☆

入门学习之选

评分☆☆☆☆☆

好评。

评分☆☆☆☆☆

买的新书送来本旧书！！！

评分☆☆☆☆☆

物美价廉。很好

评分☆☆☆☆☆

物美价廉。很好

评分☆☆☆☆☆

学起来