内容简介
当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。
作者简介
Jules J. Berman 本科毕业于麻省理工学院,在获得了该校的两个科学学士学位(数学、地球与行星科学)后,他又获得了天普大学的哲学博士学位以及迈阿密大学的医学博士学位。他的博士研究工作是在天普大学的费尔斯癌症研究所和位于纽约瓦尔哈拉的美国健康基金会完成的。Berman博士在美国国家健康研究院完成了他的博士后研究工作,并曾在华盛顿特区的乔治·华盛顿大学医学中心实习过一段时间。Berman博士曾在马里兰州巴尔的摩市退伍军人管理局医疗中心担任解剖病理学、外科病理学和细胞病理学的首席专家,在那里他被任命为马里兰大学医学中心和约翰·霍普金斯医学研究机构的主任。1998年,他在美国国家癌症研究所癌症诊断计划中任病理信息学项目主管,在那里他从事大数据项目工作。2006年,Berman博士成为病理信息学协会主席。2011年,他获得了病理信息学协会终身成就奖。他是数百部科学出版物的作者之一。如今,Berman博士是一名自由作家,专注于信息科学、计算机程序设计和病理学三个专业领域的书籍写作。
目录
译者序
前言
作者简介
第0章 引言1
0.1 大数据的定义2
0.2 大数据VS小数据2
0.3 大数据在哪里4
0.4 大数据最常见的目的是产生小数据5
0.5 机会6
0.6 大数据成为信息宇宙的中心6
第1章 为非结构化数据提供结构8
1.1 背景8
1.2 机器翻译9
1.3 自动编码11
1.4 索引14
1.5 术语提取16
第2章 标识、去标识和重标识19
2.1 背景19
2.2 标识符系统的特征20
2.3 注册唯一对象标识符21
2.4 糟糕的标识方法24
2.5 在标识符中嵌入信息:不推荐25
2.6 单向哈希函数26
2.7 案例:医院登记27
2.8 去标识化28
2.9 数据清洗29
2.10 重标识30
2.11 经验教训31
第3章 本体论和语义学32
3.1 背景32
3.2 分类:最简单的本体32
3.3 本体:有多个父类的类34
3.4 分类模型选择35
3.5 资源描述框架模式简介38
3.6 本体开发的常见陷阱40
第4章 内省42
4.1 背景42
4.2 自我认知42
4.3 可扩展标记语言44
4.4 meaning简介45
4.5 命名空间与有意义的声明集合体46
4.6 资源描述框架三元组47
4.7 映射49
4.8 案例:可信时间戳50
4.9 总结50
第5章 数据集成和软件互操作性52
5.1 背景52
5.2 调查标准委员会53
5.3 标准轨迹53
5.4 规范与标准56
5.5 版本控制58
5.6 合规问题60
5.7 大数据资源接口60
第6章 不变性和永久性62
6.1 背景62
6.2 不变性和标识符63
6.3 数据对象64
6.4 遗留数据65
6.5 数据产生数据67
6.6 跨机构协调标识符67
6.7 零知识协调68
6.8 管理者的负担69
第7章 测量70
7.1 背景70
7.2 计数70
7.3 基因计数72
7.4 处理否定73
7.5 理解控制74
7.6 测量的实践意义75
7.7 强迫症:伟大数据管理员的标志76
第8章 简单有效的大数据技术77
8.1 背景77
8.2 观察数据78
8.3 数据范围85
8.4 分母87
8.5 频率分布89
8.6 均值和标准差92
8.7 估计分析94
8.8 案例:用谷歌Ngram发现数据趋势95
8.9 案例:预测观众的电影偏好97
第9章 分析99
9.1 背景99
9.2 分析任务99
9.3 聚类、分类、推荐和建模100
9.3.1 聚类算法100
9.3.2 分类算法101
9.3.3 推荐算法101
9.3.4 建模算法101
9.4 数据约简103
9.5 数据标准化和调整105
9.6 大数据软件:速度和可扩展性107
9.7 寻找关系而非相似之处108
第10章 大数据分析中的特殊注意事项111
10.1 背景111
10.2 数据搜索理论111
10.3 理论搜索中的数据112
10.4 过度拟合113
10.5 巨大的偏差113
10.6 数据太多116
10.7 数据修复116
10.8 大数据的数据子集:不可加和不传递117
10.9 其他大数据缺陷117
第11章 逐步走进大数据分析120
11.1 背景120
11.2 步骤1:制定一个问题120
11.3 步骤2:资源评价121
11.4 步骤3:重新制定一个问题121
11.5 步骤4:查询输出充分性122
11.6 步骤5:数据描述122
11.7 步骤6:数据约简123
11.8 步骤7:必要时选择算法123
11.9 步骤8:结果评估和结论断言124
11.10 步骤9:结论审查和验证125
第12章 失败127
12.1 背景127
12.2 失败很常见128
12.3 失败的标准128
12.4 复杂性131
12.5 复杂性何时起作用132
12.6 冗余失败的情况132
12.7 保护钱,不保护无害信息133
12.8 失败之后134
12.9 案例:癌症生物医学信息学网格—遥远的桥135
第13章 合法性140
13.1 背景140
13.2 对数据的准确性和合法性负责140
13.3 创建、使用和共享资源的权利141
13.4 因使用标准而招致的版权和专利侵权行为143
13.5 对个人的保护144
13.6 许可问题145
13.7 未经许可的数据148
13.8 好政策是有力保障150
13.9 案例:哈瓦苏派的故事151
第14章 社会问题153
14.1 背景153
14.2 大数据感知153
14.3 数据共享155
14.4 用大数据降低成本和提高生产效率158
14.5 公众的疑虑160
14.6 从自己做起161
14.7 傲慢和夸张162
第15章 未来164
15.1 背景164
15.1.1 大数据计算复杂,需要新一代超级计算机?165
15.1.2 大数据的复杂程度将超出我们完全理解或信任的能力范围?166
15.1.3 我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗?166
15.1.4 大数据会创建出那些目前没有训练程序的新型数据专业人员吗?166
15.1.5 是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能?169
15.1.6 大数据将向公众开放?169
15.1.7 大数据弊大于利?170
15.1.8 我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗?171
15.1.9 大数据可以回答那些其他办法不能解决的问题吗?171
15.2 后记171
术语表172
参考文献188
索引196
精彩书摘
《大数据原理:复杂信息的准备、共享和分析》:
考虑试图协调个人记录(如银行记录、医疗记录、约会服务记录、信用卡信息)的两家机构的共同问题。如果这两个机构的资源都使用相同的标识符,那么协调是比较简单的。如果一个授权的搜索查询访问这两个机构的信息系统,那么在一个标识符上搜索将检索到所有相关联的标识符信息。然而,多机构或通用标识符系统是罕见的。如果任何机构缺乏足够的标识系统,那么来自系统的数据不能被合理协调。属于个人的数据可以不附加任何标识符,或者附加上一个或一个以上的不同标识符,或混入了别人的个人记录。这意味着合并过程将失败。
假设这两个机构有足够的标识符,那么这两个机构必须制定一种创建新标识符的方法。对于每个记录,这将与在其他机构为同一个人的记录创造的新标识符相同。例如,假设每个机构都存储生物特征数据(例如,视网膜扫描、DNA序列、指纹),那么机构可能会同意创建一个新的标识符来验证这些唯独标识的方法。通过一些测试,他们可以确定新标识是否按规定工作(即任何机构对于同一个人总是会产生相同的标识,且标识符将永远不会适用于任何其他个人)。一旦测试完成,新的标识符可用于跨机构搜索。
由于个人缺乏唯独的生物特征,机构之间的协调是可行的,但是非常困难。标识符的某些组合(例如,出生日期、社会安全号码、姓名)可以被开发出来。从不完善属性的组合产生一个标识符有其局限性(如在第2章所讨论的),但它的优点是,如果满足标识符的所有先决条件,错误率将会很低(即两个记录具有相同的标识符将属于同一人)。对于这种情况,这两个机构将需要决定如果在其他机构没有找到匹配的标识符时,将如何处理这些记录。他们可能假设有些人在这两个机构中都有记录,但是他们的记录没有通过新标识符成功协调。他们也可能假设不匹配的组包含实际上在其他机构中没有记录的个人。处理未取得一致的记录是一个严重的事情。在大多数情况下,需要一个管理者对个人记录进行一番处理,按照需求对记录进行调整,要么使用一些附加数据,要么补充一些新的数据。
6.7零知识协调
跨机构对记录进行协调总是困难的,如果没有直接比较的记录而必须盲目地完成任务,那么任务会变得异常艰巨。每当必须检查来自不同机构的机密数据记录,看看他们是否属于同一个人时,这种尴尬的情况就会出现。在这种情况下,不允许任何机构了解记录在其他机构的内容。如果需要进行协调,必须实现一个零知识协议,该协议不传达有关记录的知识。
……
前言/序言
我们不能用导致问题的方法去解决问题。
——Albert Einstein数以百万计的电脑每时每刻都有数据注入。在全球范围内,所有计算机上存储的数据总量约为3000EB(约3000亿GB),并正以每年28%的速度增加。尽管如此,与未被存储的数据量相比,存储下来的数据量仍是微不足道的。据统计,每年约有1.9ZB的数据传输量(约19 000亿GB;见术语表,Binary sizes)1。日益纷繁复杂的数字化信息将引发新一代数据资源的涌现。
现在,我们有能力从各类资源中得到众多不同类型的数据对象,也能够获取来自未来或遥远过去的数据,这要求我们找到能够准确描述每个数据片段的方法,这样就不至于将数据项混淆,进而能够在需要的时候搜索和追踪对应的数据项。精明的信息学专家明白一个道理:如果要在我们的星球上精确地描述每一件事,必然需要一个“辅助星球”来掌控所有信息,同时后者也必然要比我们的物理星球大很多。
急于获取和分析数据时,往往容易忽视数据的准备工作。如果大数据资源中的数据没有得到有效的组织、综合和准确的描述,那么这些数据资源将毫无价值。本书的首要目标是解释大数据资源建立的原理。大数据资源中的所有数据必须具备某种形式以支持搜索、检索和分析,分析方法必须可再现,分析结果必须可验证。
大数据潜在的最大益处也许是它能够连接一些看似无关的学科,从而开发和测试那些无法通过单个学科领域知识完成的假设性想法。
大数据到底是什么?大数据的特征可以通过三个V来描述:Volume(数据体量大)、Variety(数据类型多)和Velocity(处理速度快)2。大数据相关人士常常也会提出其他V,例如Vision(有目的和计划)、Verification(确保数据符合规范)和Validation(核实目标已完成;见术语表,Validation)。
在有关元数据的文献中已对很多大数据的基本原理进行了描述。这类文献讨论了数据描述形式(即如何描述数据)、数据描述语法(例如各种标记语言,如XML等)、语义(即如何用计算机可理解的陈述方式传达数据的含义)、语义的表达语法(例如架构规范,如资源描述框架(RDF)和Web本体语言(OWL))、包含数据价值和自描述信息的数据对象的建立、本体的调度以及以数据对象为成员的类层次体系(见术语表,Specification,Semantics,Ontology,RDF,XML)。
对于在数据密集型领域已经取得成功的专家而言,研究元数据似乎是在浪费时间,因为他们对元数据的形式化没有诉求。许多计算机科学家、统计学家、数据库管理员和网络专家可以毫不费力地处理大量的数据,也许他们不认为有必要为大数据资源创造一个“奇怪”的新数据模型。他们觉得自己真正需要的是更大的存储容量和更强大的分布式计算机系统,凭借这些,他们就能存储、检索和分析体量越来越大的数据。然而,这种想法只有在系统使用的数据相对简单或者具有统一标准格式时才适用。一旦大数据资源中的数据变得非常复杂多样,元数据的重要性就会凸显。我们将重点讨论元数据中与大数据息息相关的思想和概念,并重点解释这些思想和概念的必要性以及它们之间的相关性,但不会过于深究细节。
当数据的来源不同,形成许多不同的形式,大小还在增长,价值也在改变,那么当时间延伸到过去和未来时,这场比赛将从数据计算领域转移到数据管理领域。希望本书能说服读者,更快、更强大的计算机是很不错,但这些设备不能弥补在数据准备工作中的不足之处。可以预见,大学、联邦机构和公司将投入大量资金、时间和人力来尝试研究大数据。但如果忽视基础层面的事情,那么他们的项目很可能失败。相反,如果重视大数据的基础知识,则会发现大数据分析能够在普通的计算机上较容易地执行。简单来说,数据本身胜于计算,这也是整本书不断重复的观点。
在其他书籍中,一般会忽略与数据准备过程相关的三个至关重要的主题:标识符、不变性和内省。
完善的标识符系统可以确保属于某个特定数据对象的所有数据能够通过标识符被正确地赋给该对象,而不是其他对象。这看起来很简单,事实也确实如此,但多数大数据资源总是杂乱无章地分配标识符,致使与某个特定对象相关的信息分散在数据源的各个角落,甚至直接被错误地附加到其他对象中,于是当我们需要追踪这些数据的时候已无能为力。对象标识的概念最为重要,因为在面对复杂的大数据资源时,该资源需要被有效地假设为一个唯一标识符集合。本书第2章讨论了数据的标识符。
不变性是指被收集到大数据资源中的数据是永久的、不能被篡改的。乍一看,不变性是一个荒诞的和不可能的限制条件。在现实世界中,常有错误发生,信息会发生改变,而且描述信息改变的方法也会发生变化。但一个精明的数据管理员总是知道如何向数据对象中增加信息而不改变当前存在的数据,这些方法在本书第6章进行了详细描述。
内省这个词借用了面向对象的程序设计用语,在大数据的相关文献中并不常见。它是指当数据对象被访问时其自我描述的能力。借助内省,大数据资源的使用者能够快速确定数据对象的内容和该对象的层次结构。内省允许使用者查看那些可被分析的数据关系类型,并弄清楚不同数据资源之间是如何交互的。本书第4章对内省进行了详细讲解。
本书的另一个主题是数据索引,这也是在大数据相关文献中常被忽视的内容。尽管有很多书籍是基于所谓的书后索引编写而成的,但是为大而杂的数据资源准备索引却需要花费大量精力。因此,多数大数据资源根本没有正式的索引。也许会有一个网页来链接解释性文件,又或者有一个简短且粗糙的“帮助”索引,但很少能找到一个包含完善的、更新过的词条列表和链接的大数据资源。在没有合理索引的情况下,除了少部分行家外,大部分大数据资源对我们根本毫无用处。我很奇怪,有组织愿意花费数亿美元在大数据资源上,却不愿意投资数千美元来建立合理的索引。
在现有的关于大数据的文献中很难找到上述四个主题,除此之外,本书也涵盖了常见的与大数据设计、架构、操作和分析相关的其他主题,包括数据质量、数据标识、数据标准和互操作性问题、遗留数据、数据简化和交换、数据分析和软件问题等。针对这些主题,本书将重点讨论其背后的基本原理,而并不关注编程和数学公式。本书给出了一个全面的术语表,涵盖了书中出现的所有技术词汇和专有词汇。该术语表对与大数据实际相关的词条进行了解释说明,读者可以视该术语表为一个独立的文档。
最后4个章节是非技术性的,当然内容上仍与我们讨论的大数据资源的开发一致。这4个章节涉及法律、社会和伦理问题。本书最后以我个人对大数据未来及其对世界的影响的观点作为结束。在准备本书时,我在想这4个章节放在本书的最前面是不是更合适,因为也许这样能够激发读者对其他技术章节的兴趣。最终,考虑到有些读者不熟悉这些章节的技术语言和概念,因此我将它们放在了接近尾声的地方。具有较强信息学背景的读者从本书第12章开始阅读也许更能体会到乐趣。
读者也许会注意到本书中所描述的多数案例来自医学信息学。当前,讨论这一领域的时机已经成熟,因为每一个读者在经济和个人层面都深受来自医学领域所产生的大数据政策和行为的影响。除此之外,关于医疗健康的大数据项目的文献十分丰富,但其中很多文献的成果存在争议,我认为选择那些我可以引证的、可靠的素材是非常重要的。因此,本书参考文献非常多,有超过200篇来自期刊、报纸以及书籍的文章,多数文章可从网上下载。
谁应该读这本书?本书是为那些管理大数据资源的专业人士和计算机及信息学领域的学生而写的。专业人士包括:企业和投资机构的领导者,他们必须为项目投入资源;项目主管,他们必须制定一系列可行的目标并管理一个团队,这个团队中的每个人都有一些技能和任务,包括网络专家、元数据专家、软件程序员、标准专家、互操作专家、数据统计分析师以及来自预期用户社区的代表等。来自信息学、计算机科学以及统计学专业的学生会发现,在大学课程中很少讨论大数据面临的挑战,而这些挑战往往是令人惊讶的,有时甚至称得上是令人震惊的。
通过掌握大数据设计、维护、增长和验证的基础知识,读者可以学会如何简化大数据产生的无穷无尽的任务。如果数据准备合理,经验老到的分析师就能够发现不同大数据资源中数据对象之间的关系。读者会找到整合大数据资源的方法,这比独立的数据库能够提供的好处多得多。
致谢感谢Roger Day、Paul Lewis为书稿的每一章给出了深刻和有价值的评论。感谢Stuart Kramer在本书写作初期对文字内容和组织结构给出的宝贵建议。特别感谢Denise Penrose在Elsevier工作到最后一天以使这本书得以顺利发行。感谢Andrea Dierna、Heather Scherer以及Morgan Kaufmann所有为本书的出版和营销做出努力的员工们。
大数据原理:复杂信息的准备、共享和分析 epub pdf mobi txt 电子书 下载 2024
大数据原理:复杂信息的准备、共享和分析 下载 epub mobi pdf txt 电子书 2024