具体描述
作 者:(美)拉尔夫·金博尔(Ralph Kimball) 等 著;蒲成 译 定 价:118 出 版 社:清华大学出版社 出版日期:2017年08月01日 页 数:681 装 帧:平装 ISBN:9787302475798 ●第1章 读本概览 1
●1.1 抑制住立即开始编码的冲动 1
●1.2 设置边界 3
●1.3 数据争夺 5
●1.4 流言终结者 7
●1.5 划分数据世界 9
●1.6 集成式企业数据仓库的必要步骤 10
●1.6.1 集成式EDW会交付什么 11
●1.6.2 集成的试金石 11
●1.6.3 组织挑战 12
●1.6.4 一致化维度和事实 12
●1.6.5 使用总线矩阵与管理层交流 12
●1.6.6 管理集成式EDW的主干 13
●1.6.7 维度管理器 14
●1.6.8 事实提供者 15
●1.6.9 配置商业智能(BI)工具 16
●1.6.10 连带责任 17
●1.7 钻取以寻求原因 17
●1.8 渐变维度 19
●1.8.1 渐变维度的三种原生类型 20
●部分目录
内容简介
作为数据仓库和商业智能(DW/BI)行业中很有影响力的领军人物,Ralph Kimball、Margy Ross得到了世界范围内的认可和尊重,他们在《数据仓库与商业智能宝典(靠前版)》中确立了行业标准。现在,在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中已经更新了65篇Design Tip和白皮书,从而汇集了DW/BI技术创新前沿的著作。从项目规划和需求收集,到维度建模、ETL和BI应用,本书涵盖了你在数据仓库和商业智能中将会遇到的所有内容。这些无与伦比的文章提供了成功地设计、部署和维护DW/BI系统的重要建议。 (美)拉尔夫·金博尔(Ralph Kimball) 等 著;蒲成 译 Ralph Kimball创立了Kimball Group。自20世纪80年代中期开始,他就一直是DW/BI行业关于维度化方法的思想,并且已经培训了超过20 000名IT专家。在任职于Metaphor和创立Red Brick Systems之前,Ralph在施乐帕克研究中心(Xerox PARC)参与创建了Star工作站。Ralph拥有斯坦福大学电子工程专业的博士学位。
Margy Ross是Kimball Group和Decision Works Consulting的董事长。她从19等 Kimball Group的文章和Design Tip归档文件一直都是我们网站(www.kimballgroup.com)上浏览量大的。回顾20年前Ralph初于1995年发表的DBMS杂志文章,这些归档文件探究了超过250个主题,有时比我们的书籍或课程探究的程度还要深。
在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中,我们以连贯的方式组织了所有这些文章。不过本书并不仅仅是过去的杂志文章和Design Tip一字不变的集合。我们已经精简了多余的内容,确保所有文章都以一致词汇来编写,并且更新了许多图片。本书中的文章都进行了重新编辑和改进。
经过慎重的讨论之后,我们决定更新整本书中的时间基准以及内容,以便提供2015的视角,而不是将旧日期或者过时的概念留在这些文章中。因此,2007年所写的文章可能等
洞察企业数据价值,驱动智慧决策 在当今信息爆炸的时代,数据已成为企业最宝贵的资产之一。如何有效地收集、存储、管理和分析这些海量数据,从中挖掘出有价值的洞察,并最终转化为驱动业务增长的决策,是每一个寻求在激烈竞争中脱颖而出的企业面临的共同挑战。本书旨在为读者提供一套系统化、实操性的解决方案,帮助企业构建强大的数据基础设施,解锁数据潜能,实现智能化运营和战略升级。 第一部分:数据仓库的基石——构建坚实的数据基础 本部分将深入探讨数据仓库的设计、构建与管理,为企业搭建可靠的数据基石。 第一章:数据仓库概述与核心概念 数据仓库的定义与目标: 深入解析数据仓库是什么,它与传统数据库有何本质区别,以及构建数据仓库的根本目的——支持决策分析。我们将讨论数据仓库如何从事务型数据库中分离出来,专注于历史数据分析和主题导向。 数据仓库的关键特征: 详细阐述主题导向(Subject-Oriented)、集成性(Integrated)、非易失性(Non-volatile)和时变性(Time-Variant)这四大核心特征,并结合实际案例说明这些特征的重要性。 数据仓库与商业智能(BI)的关系: 明确数据仓库作为商业智能技术栈的核心组成部分,提供数据支撑,BI则在此基础上进行分析和可视化,从而驱动商业决策。 数据仓库的架构模式: 介绍不同类型的数据仓库架构,包括企业级数据仓库、数据集市(Data Mart)和操作型数据存储(Operational Data Store, ODS),分析它们的优缺点及适用场景。 数据仓库的演进与发展趋势: 探讨数据仓库技术的发展历程,从传统的EDW到现代的云数据仓库、数据湖仓一体(Data Lakehouse)等,为读者描绘未来的发展图景。 第二章:数据模型设计——为数据分析奠定基础 维度建模(Dimensional Modeling): 深入讲解维度建模的原理,包括事实表(Fact Table)和维度表(Dimension Table)的设计。我们将详细解释星型模型(Star Schema)和雪花模型(Snowflake Schema)的区别、适用性以及如何根据业务需求进行选择。 度量(Measures)与维度(Dimensions)的定义: 明确度量(如销售额、数量)和维度(如时间、产品、客户、地理位置)的概念,以及如何在模型中准确地表示它们。 退化维度(Degenerate Dimensions)、慢变维度(Slowly Changing Dimensions, SCD)与维度表的设计: 详细讲解如何处理不同类型的数据变化,例如天数、周数、月数等退化维度,以及如何有效管理维度数据随时间的变化(SCD Type 1, Type 2, Type 3等)。 事实表的类型: 区分累加快照事实表(Accumulating Snapshot Fact Table)、事务事实表(Transactional Fact Table)和周期快照事实表(Periodic Snapshot Fact Table),并提供实际案例。 数据仓库元数据管理: 讨论元数据在数据仓库中的重要性,包括技术元数据(描述数据库对象)和业务元数据(描述业务术语和逻辑),以及如何进行有效的元数据管理。 第三章:ETL/ELT流程——数据的生命线 ETL(Extract, Transform, Load)/ELT(Extract, Load, Transform)的概念与流程: 详细解析ETL和ELT两种数据集成方式的原理、差异以及各自的优势。 数据抽取(Extract)策略: 探讨全量抽取、增量抽取(基于时间戳、日志、CDC等)以及抽取过程中的数据校验方法。 数据转换(Transform)策略: 重点讲解数据清洗、数据标准化、数据集成、数据聚合、数据计算等核心转换过程,以及如何处理数据异常和不一致性。 数据加载(Load)策略: 介绍全量加载、增量加载、批量加载和实时加载等加载方式,以及如何优化加载性能。 ETL/ELT工具与技术选型: 评估市面上主流的ETL/ELT工具(如Informatica, Talend, Kettle, SSIS, Azure Data Factory, AWS Glue等),以及云原生数据集成服务。 ETL/ELT流程的自动化与监控: 讲解如何设计可调度、可监控的ETL/ELT作业,以及如何建立有效的错误处理和告警机制。 第四章:数据仓库的构建与优化 物理设计与性能优化: 探讨数据库选型(关系型数据库、MPP数据库、云数据仓库等),表分区(Partitioning)、索引(Indexing)、视图(Views)的设计与优化,以及如何减少I/O操作。 数据仓库的部署策略: 讨论本地部署、云部署(SaaS, PaaS, IaaS)以及混合部署的优劣势,并提供迁移到云的考虑因素。 数据仓库的安全性与访问控制: 讲解如何实现数据加密、访问权限控制、角色管理,确保数据安全合规。 数据质量管理: 强调数据质量的重要性,介绍数据质量检测、度量、改进和监控的方法,以及如何建立数据质量团队。 数据仓库的生命周期管理: 探讨数据归档、数据备份与恢复、数据生命周期策略,以及如何管理不断增长的数据量。 第二部分:商业智能的实践——驱动企业洞察与决策 本部分将聚焦于商业智能的各项技术与应用,帮助企业将数据转化为 actionable insights。 第五章:商业智能(BI)概述与发展 商业智能的定义与价值: 明确BI的内涵,它如何帮助企业理解业务状况、发现趋势、识别机会和风险,从而做出更明智的决策。 BI的构成要素: 介绍BI系统通常包含数据源、数据仓库、BI工具(报表、仪表盘、OLAP、数据挖掘)以及业务用户。 BI的类型与应用场景: 探讨描述性BI(发生了什么)、诊断性BI(为什么发生)、预测性BI(将要发生什么)和规范性BI(应该怎么做)等不同层级的BI应用,并给出各行业(零售、金融、制造、医疗等)的典型应用案例。 BI的演进趋势: 讨论自助式BI(Self-Service BI)、嵌入式BI(Embedded BI)、移动BI(Mobile BI)、AI与BI的融合(如智能报表、自然语言查询)等前沿发展。 第六章:数据可视化——让数据“说话” 数据可视化原则与最佳实践: 讲解如何选择合适的图表类型(柱状图、折线图、饼图、散点图、地图等)来清晰、准确地传达数据信息。 仪表盘(Dashboard)设计: 介绍设计有效的仪表盘的关键要素,包括目标明确、信息简洁、交互性强、用户导向,以及如何通过仪表盘提供关键业务指标(KPIs)。 交互式可视化: 探讨如何利用交互式图表(钻取、下钻、联动、筛选等)来增强用户探索数据的能力,发现更深层次的洞察。 故事化叙事(Data Storytelling): 讲解如何通过可视化手段将数据转化为引人入胜的故事,更有效地向决策者传达业务洞察。 主流可视化工具介绍: 评估Tableau, Power BI, Qlik Sense, Looker, FineBI等主流BI可视化工具的特点和功能。 第七章:报表与分析——洞察业务表现 静态报表与动态报表: 讲解不同类型报表的特点、设计要点以及在不同场景下的应用。 OLAP(Online Analytical Processing)技术: 深入理解OLAP立方体(Cube)的概念,以及切片(Slice)、切块(Dice)、上卷(Roll-up)、下钻(Drill-down)等基本操作,如何实现多维数据分析。 Ad-hoc分析: 讲解如何赋能业务用户进行即席查询和自由探索,快速获取所需信息。 KPIs(关键绩效指标)的定义与监控: 探讨如何定义和跟踪衡量业务目标达成情况的关键指标,以及如何在BI报表中有效呈现。 数据钻取与下钻分析: 详细介绍如何通过多层级的数据结构,从宏观指标深入到微观细节,追溯问题的根本原因。 第八章:高级分析与挖掘——探索数据深层价值 数据挖掘(Data Mining)基础: 介绍常用的数据挖掘技术,如分类(Classification)、聚类(Clustering)、关联规则挖掘(Association Rule Mining)、异常检测(Anomaly Detection)等。 预测模型与算法: 讲解常用的预测模型,如线性回归、逻辑回归、时间序列分析、决策树、随机森林等,以及如何构建和评估预测模型。 机器学习在BI中的应用: 探讨如何利用机器学习技术来自动化分析、发现隐藏模式、进行客户细分、预测客户流失、优化定价策略等。 自然语言处理(NLP)与BI的结合: 介绍如何利用NLP技术实现自然语言查询(NLQ),让非技术用户能够用自然语言提问并获得数据答案。 图数据分析在BI中的应用: 探讨图数据库和图分析技术如何用于发现隐藏的关系和连接,例如社交网络分析、欺诈检测等。 第九章:企业级BI平台建设与治理 BI平台选型考虑因素: 从功能、性能、易用性、扩展性、成本、供应商支持等多个维度,指导读者如何选择适合自身企业的BI平台。 BI项目的实施流程与方法论: 介绍BI项目的规划、需求分析、设计、开发、测试、部署、培训和上线等关键阶段。 BI的用户管理与权限控制: 讲解如何建立完善的用户体系和权限模型,确保数据访问的安全性和合规性。 BI解决方案的部署与运维: 讨论BI系统的服务器配置、性能调优、故障排除、日常维护等运维工作。 BI的成功要素与挑战: 总结实施BI项目可能遇到的挑战(如数据孤岛、用户抵触、缺乏数据文化等),并提供克服这些挑战的策略和建议,最终实现数据驱动的文化转型。 附录: 数据仓库与BI专业术语表 相关技术和工具的进一步学习资源 案例研究分析 本书的内容涵盖了从数据仓库的基础构建到商业智能的深入应用,力求为读者提供一个全面、系统、易于理解的知识框架。通过本书的学习,您将能够: 理解数据仓库的核心概念和架构,掌握数据模型设计方法。 熟练掌握ETL/ELT流程的设计与实现,确保数据的高效集成与转换。 掌握数据仓库的物理设计和性能优化技巧,构建稳定高效的数据平台。 深入理解商业智能的原理与技术,掌握数据可视化和报表分析的方法。 了解高级数据分析和挖掘技术,从数据中发现更深层次的业务洞察。 能够独立规划和实施企业级的BI项目,推动数据驱动的决策文化。 本书的编写力求语言通俗易懂,理论与实践相结合,配以大量的图示和案例,帮助读者更好地理解和掌握相关知识。无论您是数据工程师、BI分析师、IT架构师,还是希望提升企业数据应用能力的业务管理者,本书都将是您不可或缺的参考指南。让我们一起,用数据点亮智慧,驱动业务飞跃!