内容简介
数据仓库专家KrishKrishnan以清晰和简明的阐述,带领我们了解在大数据时代如何升级数据仓库并帮助企业做出智能决策。全书分为三部分:部分讨论大数据技术及其应用案例;第二部分讲解数据仓库技术,包括数据仓库的架构选择、工作负载和新兴技术;第三部分讨论大数据和数据仓库的集成,包括数据分析、数据可视化、信息生命周期管理、数据科学家的角色变迁等。本书适合从事数据架构、分析、挖掘等工作的技术人员和管理人员阅读,也适合学习相关专业的学生参考。
作者简介
克里什·克里希南(Krish Krishnan) Sixth Sense Advisors公司创始人兼CEO,高性能数据仓库解决方案和非结构化数据方面的策略、架构和实现专家。作为富有远见的数据仓库思想领导者和实践者,他是该领域公认的顾问之一。
目录
目 录
译者序
前言
致谢
作者简介
第一部分 大数据
第1章 大数据简介2
1.1 引言2
1.2 大数据2
1.3 大数据的定义4
1.4 为什么需要大数据?为什么是现在4
1.5 大数据示例5
1.5.1 社交媒体的文章5
1.5.2 调查数据分析6
1.5.3 调查数据7
1.5.4 气象数据8
1.5.5 Twitter数据8
1.5.6 集成和分析8
1.5.7 附加数据的类型10
1.6 总结11
延伸阅读11
第2章 使用大数据12
2.1 引言12
2.2 数据爆炸12
2.3 数据体量13
2.3.1 机器数据14
2.3.2 应用日志14
2.3.3 点击流日志14
2.3.4 外部或第三方数据15
2.3.5 电子邮件15
2.3.6 合同15
2.3.7 地理信息系统和地理空间数据16
2.3.8 示例:Funshots公司17
2.4 数据速度19
2.4.1 Amazon、Facebook、Yahoo和Google19
2.4.2 传感器数据19
2.4.3 移动网络20
2.4.4 社交媒体20
2.5 数据多样性21
2.6 总结22
第3章 大数据处理架构23
3.1 引言23
3.2 再论数据处理23
3.3 数据处理技术24
3.4 数据处理基础设施的挑战25
3.4.1 存储25
3.4.2 传输25
3.4.3 处理26
3.4.4 速度或吞吐量26
3.5 全共享架构与无共享架构的比较26
3.5.1 全共享架构27
3.5.2 无共享架构27
3.5.3 OLTP与数据仓库28
3.6 大数据处理28
3.6.1 基础设施方面31
3.6.2 数据处理方面32
3.7 电信大数据研究32
3.7.1 基础设施34
3.7.2 数据处理34
第4章 大数据技术简介35
4.1 引言35
4.2 分布式数据处理36
4.3 大数据处理需求38
4.4 大数据处理技术39
4.5 Hadoop42
4.5.1 Hadoop核心组件43
4.5.2 Hadoop总结69
4.6 NoSQL69
4.6.1 CAP定理69
4.6.2 键-值对:Voldemort70
4.6.3 列簇存储:Cassandra70
4.6.4 文档数据库:Riak76
4.6.5 图数据库77
4.6.6 NoSQL小结78
4.7 文本ETL处理78
延伸阅读79
第5章 大数据驱动的商业价值80
5.1 引言80
5.2 案例研究1:传感器数据81
5.2.1 摘要81
5.2.2 Vestas81
5.2.3 概述81
5.2.4 利用风力发电81
5.2.5 把气候变成资本82
5.2.6 跟踪大数据的挑战83
5.2.7 维持数据中心的能源效率83
5.3 案例研究2:流数据84
5.3.1 摘要84
5.3.2 监控和安全:TerraEchos84
5.3.3 需求84
5.3.4 解决方案84
5.3.5 效益84
5.3.6 先进的光纤网结合实时流数据85
5.3.7 解决方案组件85
5.3.8 扩展安全边界创建战略优势85
5.3.9 关联传感器数据使得假阳性率为零86
5.4 案例研究3:通过大数据分析改善患者预后86
5.4.1 摘要86
5.4.2 业务目标87
5.4.3 挑战87
5.4.4 概述:给从业人员新的洞察以指导患者护理87
5.4.5 挑战:将传统数据仓库生态系统与大数据融合87
5.4.6 解决方案:为大数据分析做好准备88
5.4.7 结果:消除“数据陷阱”88
5.4.8 为什么是aster88
5.4.9 关于Aurora89
5.5 案例研究4:安大略大学技术学院—利用关键数据,提供积极的患者护理89
5.5.1 摘要89
5.5.2 概述89
5.5.3 商业上的收益90
5.5.4 更好地利用数据资源90
5.5.5 智慧医疗保健91
5.5.6 解决方案组件91
5.5.7 融合人类知识与技术92
5.5.8 扩大Artemis的影响92
5.6 案例研究5:微软SQL Server客户解决方案93
5.6.1 客户画像93
5.6.2 解决方案的亮点93
5.6.3 业务需求93
5.6.4 解决方案94
5.6.5 好处94
5.7 案例研究6:以客户为中心的数据集成95
5.7.1 概述95
5.7.2 解决方案设计98
5.7.3 促成更好的交叉销售和追加销售的机会99
5.8 总结100
第二部分 数据仓库
第6章 再论数据仓库102
6.1 引言102
6.2 传统的数据仓库或DW 1.0103
6.2.1 数据架构103
6.2.2 基础设施104
6.2.3 数据仓库的陷阱106
6.2.4 建立数据仓库的架构方法111
6.3 DW 2.0113
6.3.1 Inmon的DW 2.0概述114
6.3.2 DSS 2.0概述115
6.4 总结116
延伸阅读116
第7章 数据仓库的再造118
7.1 引言118
7.2 企业数据仓库平台118
7.2.1 事务型系统119
7.2.2 运营数据存储区119
7.2.3 分段区120
7.2.4 数据仓库120
7.2.5 数据集市120
7.2.6 分析型数据库121
7.2.7 数据仓库的问题121
7.3 再造数据仓库的选择122
7.3.1 平台再造122
7.3.2 平台工程123
7.3.3 数据工程124
7.4 使数据仓库现代化125
7.5 使数据仓库现代化的案例研究127
7.5.1 当前状态分析127
7.5.2 推荐127
7.5.3 现代化的业务收益128
7.5.4 一体机的选择过程128
7.6 总结132
第8章 数据仓库中的工作负载管理133
8.1 引言133
8.2 当前状态133
8.3 工作负载的定义134
8.4 了解工作负载135
8.4.1 数据仓库输出136
8.4.2 数据仓库输入137
8.5 查询分类138
8.5.1 宽/宽138
8.5.2 宽/窄139
8.5.3 窄/宽139
8.5.4 窄/窄139
8.5.5 非结构化/半结构化数据140
8.6 ETL和CDC的工作负载140
8.7 度量141
8.8 当前系统设计的局限142
8.9 新工作负载和大数据143
8.10 技术选择144
8.11 总结144
第9章 应用到数据仓库的新技术145
9.1 引言145
9.2
前言/序言
前 言Web 2.0改变了我们的生活和工作方式,比如开展业务、与客户沟通、与朋友和家人共享信息、用业务收入和客户花销份额来衡量成功,以及定义品牌管理。最重要的是,它创造了一种独一无二的生财之道。无论是安排度假地点、购买最新型的电视、更换移动服务供应商,还是想要为郊游买最好的食材,你都可以通过互联网查看顾客的评论和读者的推荐。同样,在个人生活中,你可以使用 Facebook、YouTube、iTunes、Instagram和Flickr分享你喜欢的音乐、电影、照片和视频。
当今,企业所提供的产品和服务的个性化为消费者创造了许多机会,同时也大大促进了数据量增大、数据格式(品种)增多和数据生产速度加快。数据的关键价值是,当我们使用地理和人口学数据建模来创建关于相似人群的个性、行为和影响的聚类时,能够找到在数据中隐含的智慧。
向服务的个性化和以客户为中心的商业模式进行转变形成了三个不同的趋势。
众包。这是Jeff Howe于2006年在《连线》杂志上提出的术语。众包是在当今世界使用协同智能研究人类行为的过程。信息管理和个人层次上的推荐共享共同形成了业界的趋势。
众包已演变成一个强有力的工具。它现在在商业上有很多用途,例如寻找有竞争力的研究、客户情感分析和因果分析等。同时还部署了其他的分析模型,例如协作过滤、推荐和机器学习算法。
众包的最佳案例之一是当时身为参议员的奧巴马在2008年的总统候选人提名竞选中筹款。通过使用互联网和社交媒体作为一种个性化的联系渠道,他在筹措资金方面明显超过了其他候选人,从而能够进行有效的竞选。
社交媒体分析。今天的消费者依靠的数据和信息是通过社交媒体渠道获得的,而这些数据和信息又依赖于将这个平台作为其“个人决策支持平台”的广大用户所做出的个人决策。这使得更多的人利用社交媒体作为与客户、合作伙伴和供应商直接和间接的沟通渠道。今天,如果你没有使用社交媒体,那么你是过时的,尤其是与90后和新千年的客户群相比。
如何度量你的社交媒体渠道和沟通策略的有效性?这表明你从哪里开始实施一项社交媒体分析战略。该战略应从两个角度进行度量,包括从内向外和从外向内。在这一领域一个企业的成熟和演变往往需要经过多个阶段。在现在的新闻和互联网上,你会发现一些使用该策略成功进行业务变革的例子。
游戏化。今天的另一个热门趋势是在企业内外使用游戏化策略来吸引员工、客户、潜在客户和任何对你的业务和服务感兴趣的人。
游戏化基于博弈理论和统计模型的组合,在对“长尾”得到的结果进行建模时,这已成为一种非常有效的工具。它也是在Web 2.0时代由Chris Andersson定义的术语,他还专门就这个主题写了一本书。
这一策略最好的例子是在2012年美国总统大选中,竞选策略专家使用博弈论和统计模型寻找目标选民,而且非常有效。奥巴马总统的竞选专门使用这种组合作为一种有效的和颠覆性的策略,从个人层次在候选人和选民之间创建了很多需要的连接。
从Web 2.0的观点来看,所有趋势、理论和成果的共同主线可以归结为两点。
使用Web 2.0平台所需要的数据量远远大于现今企业所用到的。
在计算的历史上,使用统计模型和分析的需求比以往更加强烈。
这两个事实已经被Facebook、Groupon、Google、Yahoo、Apple和其他财富500强公司证明是成功的。
数据带来了如下问题:如何计算海量和多样的数据,以及如何应对数据体量。这是Google、Facebook和Yahoo清楚展示的方式;前者创造了一种新的计算模型,该模型基于文件系统和一种叫作MapReduce的编程语言。MapReduce扩展了搜索引擎的能力,能够同时处理多个查询。2002年,架构师Doug Cutting和Mike Carafella正在做开源搜索引擎项目Nutch,这促使他们基于Google模型来对底层架构进行建模。这也使得Nutch成为一个开源的Apache项目。该项目于2006年被Yahoo所采用,称为Hadoop。在过去的几年中Hadoop成就了大量的公司,这些公司有商业化的解决方案,同时将相应功能回馈给基础的开源项目,这是一种真正基于协作的软件和框架开发。
另外一项技术也演化为一个强大的平台,即NoSQL(Not only SQL)运动。该平台基于Eric Brewer在2002年提出的CAP定理。根据CAP定理,一个数据库不能在任何一个时间点满足ACID兼容的所有规则,同时又是可扩展的和灵活的。然而,在一致性、可用性和分区容忍性三个基本性质中,一个数据库可以满足三个性质中的两个,从而创建可扩展的分布式结构,该架构可以演变成满足水平方向上缩放的可扩展性要求并提供更高的吞吐量,因为在这种环境中计算和存储是非常接近的,同时是一个允许多种一致性级别的分布式架构。
Facebook是NoSQL架构的最早提倡者之一,因为他们要解决用户的可扩展性和可用性要求,其用户量仅次于中国和印度的人口。Cassandra是一个流行的数据库,在Facebook经历了很长时间的开发和使用(现在由于更大的可扩展性需求,它已经被Facebook抛弃)。许多其他公司把它与Hadoop以及其他传统的RDBMS解决方案一起使用。它仍然是一个的Apache项目,并且正在添加更多的功能。
随着这些新技术和商业模式的出现,也出现了大量噪音,并导致了混乱。这些趋势或噪音之一是“数据仓库的死亡”,这在全球都带来了严重影响,因为企业已不只投入数以百万计的美元来搭建这种决策支持平台,而且基于其输出开发了若干下游系统。
作为传统的数据仓库领域和大数据领域中都有经验的数据实践者和咨询师,我开始在数据仓储研究所(TDWI)教授课程,在许多国际峰会和其他会议中谈论大数据和数据仓库,以消除数据仓库的“死亡”所带来的恐怖。在过去四年中,在全球关于这个话题展开了大量讨论之后,我决定写这本书并讨论大数据。包括谁使用大数据,它是如何影响数据仓库世界的,以及数据分析的未来,更重要的是,下一代数据库仓库的概念以及它是如何构建的。
坦白地说,我们将继续构建和使用数据仓库,而且它将仍然是“单一版本的事实”,但我们将不再使用RDBMS作为数据仓库和分析的平台。在写这本书的时候,我们看到每隔几个月,有时是几周,Hadoop、MapReduce和NoSQL就会发生变化,新功能就会浮出水面。人们正在设计和搭建这些架构,它们可以处理大型和复杂的数据,能够在批处理环境中有效处理数据,但是比起关系数据库管理系统在实时和交互能力方面比较有限。该架构的最终状态将是这些架构的异构组合,以共同创建一个强大和巨大的决策支持架构,这个系统的名称依然是数据仓库。
在读这本书时,你会发现三个不同的部分。第一部分讨论大数据,包括大数据技术及来自早期实践者的用例。第二部分介绍数据仓库、它失败的原因、新的架构选项、工作负载、工作负载驱动的架构,以及大数据和数据仓库的集成技术。第三部分涉及数据治理、数据可视化、信息生命周期管理、数据科学家,以及适合大数据的数据仓库。附录包括来自供应商的实现和一个关于如何建立医疗保健信息工厂的案例研究。
本书的总体目标是帮助你了解大数据和数据仓库的复杂层次,同时为你提供关于如何有效使用所有这些技术和架构来设计下一代数据仓库的信息。
下面描述各章的内容和全书组织结构,为你提供阅读路线图。在逐章阅读时,这些章节结合起来就会为你提供简洁而深入的理解。
第一部分:大数据第1章的重点是让你彻底理解大数据。我们避免使用流行词,探讨了新兴的大数据领域和它对企业的重要性。
第2章的重点是大数据隐含的复杂之处(即三个V—体量、速度以及多样性和多义性),如何处理这些特点,以及在这些主题域有哪些隐藏的陷阱。
第3章重点讨论需要或者设计什么架构以进行大数据处理,还讨论了算法级的方法、分类系统、集群和其他内容。
第4章重点讨论的是为解决大规模数据处理,核心技术是如何演化的。这些技术包括Hadoop及其生态系统、NoSQL数据库和其他技术。这一章对于这些技术的介绍是极其浓缩的,建议你进一步阅读有关这些主题的核心书目。
第5章论述在现实生活中不同公司利用大数据实现价值的各种用例。这些用例涉及B2B、B2C、C2C等场景,该章还介绍在每个场景中是如何定义和实现价值的。
第二部分:数据仓库第6章重点追溯数据库仓库的起源以及这些年来的演化。该章讨论早期版本的缺陷所导致的数据仓库的失败,以及如何识别和避免这些缺陷。
第7章主要介绍如何以及为什么要现代化数据仓库架构。这将为你提供概念上的思想以及实现上的一些选项。
第8章重点介绍工作负载,及其在数据仓库和大数据领域中的真正含义,理解工作负载的重要性,以及基于工作负载如何创建数据仓库的架构。对于任何数据管理解决方案来说,这都是其未来架构最重要和最关键的方面之一。
第9章重点讨论那些已持续应用到企业中的新兴技术,特别是在处理数据库仓库的性能和可扩展性方面。该章还讨论数据仓库一体机、云计算、数据虚拟化和内存计算。
第三部分:构建大数据-数据仓库第10章重点介绍将数据仓库与大数据集成的方法和相关的技术,这些技术的采用基于公司的数据类型、当前演化状态和现有技术。
第11章重点讨论在大数据领域中通过部署有效的MDM和元数据策略来创建数据驱动的架构。它强调对数据管理的这两大支柱的需求,特别是在大数据领域。该章还讨论语义层和基于语义网的方法。
第12章的重点是管理大数据的生命周期,包括哪些数据是基本的,在处理前和处理后如何以及在哪里保存数据。还将讨论企业大数据中如果不实现一个鲁棒的ILM策略会带来哪些问题。
第13章涉及使用大数据的最终目标,也就是提供强大的可视化,分析大数据,最重要的是,新兴的数据科学家的角色。这里的目标是为你提供关于这些主题的概念性的想法以及它们如何影响整体的大数据策略。
第14章着重介绍在财富500强企业的下一代数据仓库的实际实施中的最终架构。目的是当你的企业演化到新的数据领域后,为你提供一些面向未来的想法。
附录附录A展示具体的客户案例研究。
附录B给出建设医疗保健信息工厂的案例研究。
致 谢本书的出版离不开太多人的支持,我要感谢他们在本书的出版过程中给予的支持和帮助。
首先,我要感谢我的妻子和两个儿子一直以
大数据与数据仓库:集成、架构与管理 epub pdf mobi txt 电子书 下载 2024
大数据与数据仓库:集成、架构与管理 下载 epub mobi pdf txt 电子书 2024