数据挖掘与R语言(原书第2版)

数据挖掘与R语言(原书第2版) pdf epub mobi txt 电子书 下载 2025

[葡] 路易斯·托尔戈 著,李洪成 译
图书标签:
  • 数据挖掘
  • R语言
  • 统计学习
  • 机器学习
  • 数据分析
  • 商业分析
  • 数据科学
  • 算法
  • 模式识别
  • 预测建模
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 机械工业出版社
ISBN:9787111596660
版次:1
商品编码:12361898
品牌:机工出版
包装:平装
丛书名: 数据科学与工程技术丛书
开本:16开
出版时间:2018-05-01
用纸:胶版纸
页数:343

具体描述

内容简介

本书面向初学者,通过实践案例讲解如何用R进行数据挖掘。全书包括两部分,第 一部分介绍R和数据挖掘的基础知识,第二部分为案例研究,通过预测海藻数量、预测股票市场收益、侦测欺诈交易以及微阵列样本分类四个案例培养构建解决方案的能力,掌握工具的使用技巧。本书适合作为高校学生或业界新手了解R和数据挖掘的入门读本,其中的代码和数据均可免费下载。

作者简介

路易斯·托尔戈(Luis Torgo) 加拿大达尔豪斯大学计算机科学系教授,葡萄牙波尔图大学计算机科学系副教授,纽约大学斯特恩商学院特邀教授,人工智能和数据分析实验室(LIAAD,隶属于INESC Tec)研究员。他拥有近30年的机器学习和数据挖掘研究经验,在基于树的回归方法和基于效用的预测方法方面贡献卓著。

---译者简介---
李洪成 统计学博士,现为上海金融学院副教授,R语言和SPSS统计分析软件专家,研究方向为金融统计和数据挖掘。他的代表著作有《SPSS数据分析教程》《时间序列预测实践教程》等,译著有《R并行编程实战》《机器学习与R语言》等。

目录

推荐序
中文版序
译者序
前言
致谢
第1章 简介 1
1.1 如何阅读本书 2
1.2 重现性 2
第一部分 R与数据挖掘简介
第2章 R简介 6
2.1 R起步 6
2.2 与R控制台的简单交互 8
2.3 R对象和变量 9
2.4 R函数 11
2.5 向量 14
2.6 向量化 15
2.7 因子 16
2.8 生成序列 18
2.9 数据子集 20
2.10 矩阵和数组 22
2.11 列表 25
2.12 数据框 28
2.13 数据框的扩展 31
2.14 对象、类和方法 34
2.15 管理R会话 35
第3章 数据挖掘简介 37
3.1 数据挖掘鸟瞰图 37
3.2 数据收集和业务理解 38
3.2.1 数据和数据集 39
3.2.2 导入数据到R 40
3.3 数据预处理 45
3.3.1 数据清洗 45
3.3.2 变换变量 53
3.3.3 生成变量 55
3.3.4 降维 66
3.4 建模 74
3.4.1 探索性数据分析 75
3.4.2 使用关联规则的依赖建模 94
3.4.3 聚类 101
3.4.4 异常检测 112
3.4.5 预测分析 120
3.5 评估 147
3.5.1 Holdout和随机子抽样 148
3.5.2 交叉验证 150
3.5.3 Bootstrap估计 153
3.5.4 推荐程序 154
3.6 报告和部署 155
3.6.1 通过动态文档进行报告 155
3.6.2 通过Web应用程序进行部署 158
第二部分 数据挖掘案例研究
第4章 预测海藻数量 164
4.1 问题描述与目标 164
4.2 数据说明 164
4.3 加载数据到R 165
4.4 数据可视化和总结 167
4.5 数据缺失 173
4.5.1 将缺失部分剔除 173
4.5.2 尝试找到缺失值最有可能的赋值 175
4.5.3 通过变量的相关关系填补缺失值 176
4.5.4 通过探索类似个案填补缺失值 179
4.6 获取预测模型 180
4.6.1 多元线性回归 181
4.6.2 回归树 185
4.7 模型评价和选择 189
4.8 预测7种海藻的频率 200
4.9 小结 202
第5章 预测股票市场收益 203
5.1 问题描述与目标 203
5.2 可用的数据 204
5.2.1 从CSV文件读取数据 205
5.2.2 从网站上获取数据 205
5.3 定义预测任务 206
5.3.1 预测什么 206
5.3.2 预测变量是什么 208
5.3.3 预测任务 212
5.3.4 模型评价准则 213
5.4 预测模型 215
5.4.1 如何应用训练集数据来建模 215
5.4.2 建模工具 216
5.5 从预测到实践 222
5.5.1 如何应用预测模型 222
5.5.2 与交易相关的评价准则 223
5.5.3 模型集成:仿真交易 224
5.6 模型评价和选择 230
5.6.1 蒙特卡罗估计 230
5.6.2 实验比较 231
5.6.3 结果分析 235
5.7 交易系统 243
5.7.1 评估最终测试数据 243
5.7.2 在线交易系统 247
5.8 小结 248
第6章 侦测欺诈交易 249
6.1 问题描述与目标 249
6.2 可用的数据 249
6.2.1 加载数据到R 250
6.2.2 探索数据集 250
6.2.3 数据问题 256
6.3 定义数据挖掘任务 263
6.3.1 问题的不同解决方法 263
6.3.2 评价准则 265
6.3.3 实验方法 270
6.4 计算离群值的排序 271
6.4.1 无监督方法 271
6.4.2 有监督方法 280
6.4.3 半监督方法 290
6.5 小结 295
第7章 微阵列样本分类 296
7.1 问题描述与目标 296
7.1.1 微阵列实验背景简介 296
7.1.2 数据集ALL 297
7.2 可用的数据 297
7.3 基因(特征)选择 302
7.3.1 基于分布特征的简单过滤方法 302
7.3.2 ANOVA过滤 304
7.3.3 使用随机森林进行过滤 306
7.3.4 使用特征聚类的组合进行过滤 308
7.4 遗传学异常的预测 309
7.4.1 定义预测任务 309
7.4.2 模型评价标准 309
7.4.3 实验过程 310
7.4.4 建模技术 311
7.4.5 模型比较 313
7.5 小结 320
参考文献 321
主题索引 332
数据挖掘术语索引 337
R函数索引 339

前言/序言

前  言
本书的主要目的是向读者介绍如何用R进行数据挖掘。R是一种可以自由下载的语言,它提供统计计算和绘图环境,这些功能和大量的添加包使其成为一款优秀的软件,取代了很多昂贵的数据挖掘工具。
本书的目的不是介绍数据挖掘的各个方面。许多已有的书籍已经覆盖了数据挖掘领域,而本书是用几个案例来向读者介绍R的数据挖掘能力。显然,这几个案例不能代表我们在现实世界中碰到的所有数据挖掘问题。同时,我们给出的解决方案也不是最完整的方案。本书通过这些实际案例向读者介绍如何用R进行数据挖掘,因此案例分析目的是展示用R进行信息提取的例子,而不是提供数据挖掘案例的完整分析报告。它们可以作为任何数据挖掘项目的可能思路,或者作为开发数据挖掘项目解决方案的基础。尽管如此,我们尽力尝试覆盖多方面的问题,以展示由数据大小、数据类型、分析目标和分析工具所带来的不同挑战。然而,这里的实践方式也是有代价的。实际上,作为具体案例研究的一种形式,为了让读者在自己的计算机上执行我们所描述的步骤,我们也做了某些妥协。也就是说,我们不能处理太大的问题,这些问题要求的计算机资源不是每个人都具备的。尽管这样,我们认为本书涵盖的问题也不算小,并且我们还对由不同数据类型和维度带来的问题给出了解决方案。
第2版大幅修改了案例研究的R代码,使其与R中出现的最新添加包同步更新。此外,我们决定将本书分为两部分:第一部分为材料介绍;第二部分为案例研究。第一部分用一个全新的章节来介绍数据挖掘,以补充已有的对R的介绍。这个想法是为读者提供数据挖掘领域的一种鸟瞰图,更深入地描述这个研究领域的主题。这些信息补充了案例分析中给出的简单描述。此外,它允许读者更好地将数据挖掘任务及方法论的更大图景与案例研究的解决方案区分开来。最后,如果需要更多关于案例研究中使用方法的细节,我们希望这个新章节可以作为读者的参考。
本书并不要求读者具有R的先验知识,没有学过R和数据挖掘的读者也可以学习书中的案例。书中的各个案例相互独立,读者可以从书中任何一个案例开始。当然,在第一个简单案例中,给出了一些基本的R知识,这意味着,如果你没有学过R,至少应该从第一个案例开始学习。而且,第1章给出了R的简介,它可以帮助你理解后面的章节。我们没有假设你熟悉数据挖掘和统计技术,在每个案例中必要的地方,都对不同的数据挖掘技术进行了介绍。不过,第一部分的新章节介绍了数据挖掘,包括我们在案例研究中应用的方法以及数据挖掘中常用的其他方法的进一步信息。另外,在某些节的末尾,我们提供了“进一步阅读”资料,如果需要,可以参考它们。总之,本书的读者应该是数据分析工具的用户,而不是研究人员或者开发人员。同时,我们希望后者将阅读本书作为进入R和数据挖掘世界的一种方式,从而发现本书的用途。
本书配有一个免费的R代码集,可以从本书网站下载。其中含有案例研究中的所有代码,这可以帮助你进行实践学习。我们强烈建议读者在阅读本书时安装R并试验书中的代码。而且,我们创建了一个名为DMwR2的R添加包,它包含本书用到的多个函数和以R格式保存的案例数据集。建议你按照本书的指示安装并加载该添加包(第1章给出了细节)。
致  谢首先要感谢我的家人,没有他们的帮助和支持,我是无法完成本书的。他们的支持、关怀和爱给我足够的安慰,使我可以克服在写作本书过程中遇到的困难。同样,也要感谢我的朋友,他们总是在我需要安慰的时候和我一起畅饮、交流,带给我轻松愉悦的写作心情。谢谢我的家人和朋友!谢谢你们!现在,我希望有更多的时间陪在你们身边。
我也要感谢我的所有同事和LIAAD/INESC Tec LA实验室对我的支持。同时,也要感谢波尔图大学对我的研究的支持,感谢科学院计算机科学系的同事为我提供的愉快的工作环境。写作本书的部分资助来自于葡萄牙自然科学基金(资助号:SFRH/BSAB/113896/2015)。
最后,感谢所有针对反馈意见改进第1版以及校对当前版本草稿的学生和同事们。特别要感谢在波尔图大学科学院攻读计算机科学硕士学位的数据挖掘专业的学生们,以及在纽约大学斯特恩商学院攻读商业分析科学硕士学位的“数据挖掘与R语言”课程的学生们——他们对我的教学材料的参与和反馈在本书的新版本中有很好的体现。
Luís Torgo葡萄牙,波尔图
深入解析数据海洋的秘密:一本探索知识发现与洞察的实用指南 在这个信息爆炸的时代,数据早已不再是单纯的数字和文字的堆砌,它们蕴含着巨大的价值,等待着我们去发掘、去理解、去利用。从商业决策到科学研究,从市场预测到社会洞察,数据驱动的分析正以前所未有的力量重塑着我们的世界。然而,面对浩如烟海的数据,如何才能拨开迷雾,抓住隐藏其中的关键信息?如何才能从繁杂的模式中提炼出有意义的洞察,并将其转化为 actionable insights? 本书正是为解决这些挑战而生。它并非一本枯燥的技术手册,而是一次引人入胜的知识探索之旅,旨在揭示数据挖掘的本质,并提供一套行之有效的分析方法和工具,帮助读者掌握驾驭数据、理解复杂模式、做出明智决策的能力。我们将一同深入数据世界,学习如何“看见”数据中的故事,以及如何将这些故事转化为实际的价值。 数据挖掘:从原始数据到知识宝藏的转化艺术 数据挖掘,顾名思义,就是从海量数据中“挖掘”出有价值的、潜在的、新颖的、可操作的知识。它不是简单的统计分析,也不是纯粹的数据可视化,而是一个多学科交叉的复杂过程,融合了统计学、机器学习、数据库技术、人工智能等领域的精髓。其核心目标在于发现数据中那些隐藏在表面之下的规律、趋势、关联和异常,这些信息往往是我们通过直觉或简单分析难以察觉的。 本书将带你系统地理解数据挖掘的整个生命周期。我们将从数据的理解与预处理开始,这是数据挖掘的基础也是关键。原始数据往往存在缺失值、异常值、格式不统一等问题,直接进行分析会产生误导性的结果。因此,我们需要学习如何有效地数据清洗,如何进行特征选择与特征工程,将数据转化为适合挖掘算法的形式。这不仅是一个技术性的过程,更是一个需要深刻理解业务场景的艺术。 接着,我们将探索多种核心的数据挖掘技术。 分类(Classification):如何根据已知样本的特征,将新的未知样本划分到预定义的类别中?无论是垃圾邮件检测、客户流失预测,还是疾病诊断,分类技术都扮演着至关重要的角色。我们将学习经典的算法,如决策树(Decision Trees),它以直观的树状结构展示决策过程;支持向量机(Support Vector Machines, SVM),它在处理高维数据和复杂分类问题上表现出色;以及朴素贝叶斯(Naive Bayes),它基于概率理论,在文本分类等领域有着广泛应用。 聚类(Clustering):在没有预先定义类别的情况下,如何将相似的数据对象分组?聚类有助于我们发现数据内在的结构,识别出不同的客户群体、产品类别、相似的文档等等。本书将介绍K-Means算法,一种简单而高效的聚类方法;层次聚类(Hierarchical Clustering),它能够生成不同层级的聚类结果;以及DBSCAN,一种基于密度的聚类方法,能够发现任意形状的簇。 关联规则挖掘(Association Rule Mining):“购买了尿布的顾客,也倾向于购买啤酒”——这种购物篮分析中的经典案例,正是关联规则挖掘的应用。我们如何发现数据项之间的有趣关联,例如,哪些商品经常被一起购买?本书将深入讲解Apriori算法,这是最早也是最经典的关联规则挖掘算法之一,帮助我们理解如何高效地发现频繁项集和生成关联规则。 回归(Regression):如何预测一个连续的数值结果?从预测房价到股票价格,从销售额到气温,回归技术是解决此类问题的核心。我们将学习线性回归(Linear Regression),它试图找到数据点与一个或多个自变量之间的线性关系;以及非线性回归,当数据关系不满足线性假设时,我们需要更强大的模型来捕捉复杂性。 异常检测(Anomaly Detection):在海量数据中识别出不寻常、不符合预期的数据点,这对于发现欺诈行为、系统故障、网络攻击等至关重要。我们将探讨如何利用统计方法和机器学习算法来识别这些“离群点”。 不仅仅是理论:将知识付诸实践 理论的学习固然重要,但数据挖掘的真正价值在于其应用。本书强调实践的重要性,我们将通过大量的案例分析,将抽象的概念具象化,让你看到这些技术是如何在实际问题中发挥作用的。从分析电子商务平台的购物行为,到预测金融市场的波动,再到理解社交媒体的用户情绪,你将亲眼见证数据挖掘如何驱动商业洞察和科学发现。 为了让读者能够轻松上手,本书将引导你熟悉强大的数据分析工具。我们将介绍如何利用这些工具来完成数据的导入、清洗、转换、建模和结果评估等一系列操作。通过实际的代码示例和详尽的操作指南,你将掌握如何运用这些工具来解决真实世界的问题。 构建批判性思维,培养数据驱动的决策能力 数据挖掘并非一个“黑箱”操作。理解算法的工作原理,以及如何评估模型性能,是至关重要的。本书将教会你如何运用各种评估指标,如准确率、召回率、F1分数、均方误差等,来客观地衡量模型的有效性,并避免过度拟合(Overfitting)和欠拟合(Underfitting)等常见陷阱。 更重要的是,本书致力于培养读者的批判性思维。数据挖掘的结果并非绝对真理,它们只是对数据的某种解释。我们需要学会如何质疑结果,理解模型的局限性,并结合业务领域的知识来做出最终的判断。数据挖掘的最终目的是为决策提供支持,而不仅仅是产生报告。因此,我们将强调如何将挖掘出的知识转化为 actionable insights,并有效地传达给决策者。 谁适合阅读这本书? 本书面向广泛的读者群体,无论你是: 学生:正在学习计算机科学、统计学、商业分析、信息管理等相关专业的学生,本书将为你提供坚实的数据挖掘理论基础和实践指导。 数据分析师/科学家:希望扩展技术栈,掌握更多高级数据挖掘技术,并将其应用于实际业务的从业者。 商业决策者/管理者:希望更好地理解数据背后的价值,并利用数据驱动的洞察来做出更明智的商业决策的领导者。 对数据充满好奇的爱好者:渴望了解如何从海量信息中发现模式和知识,并应用到个人项目或兴趣领域的研究者。 开启你的数据探索之旅 在这个数据驱动的时代,掌握数据挖掘的能力,就是掌握了理解世界、影响世界的重要力量。本书将是你踏入这个令人兴奋领域最得力的伙伴。它将为你提供理论的深度、实践的广度、以及解决复杂问题的信心。 准备好深入探索数据的奥秘,发现隐藏的知识,并利用这些洞察来驱动创新和变革了吗?让我们一起,从这本书开始,开启这段充满发现与智慧的旅程!

用户评价

评分

我是一名在校的计算机科学专业学生,平时接触到不少关于数据分析和机器学习的课程。在老师的推荐下,我入手了这本《数据挖掘与R语言(原书第2版)》。拿到书后,我发现它的深度和广度都超出了我的预期。书中不仅仅是简单地介绍R语言的语法和函数,而是将R语言紧密地结合到数据挖掘的各个环节中,从数据预处理、特征工程,到模型选择、算法实现,再到结果评估和可视化,都进行了详细的阐述。特别是关于各种经典数据挖掘算法的讲解,比如决策树、支持向量机、聚类分析等等,都给出了清晰的数学原理和R语言实现方式,并配有相应的代码示例,非常有助于理解。而且,这本书不仅仅停留在理论层面,还包含了大量的实际案例,这些案例覆盖了金融、营销、医疗等多个领域,让我能够看到数据挖掘在不同场景下的应用,非常有启发性。对于我们这种需要写课程论文和毕业设计的学生来说,这本书提供了非常宝贵的参考资料和实践指导,让我受益匪浅。

评分

这本书的包装非常精美,纸质也很好,拿在手里就有一种沉甸甸的实在感。封面设计简约大气,一看就知道是专业书籍。我是一个对数据分析领域充满好奇的初学者,一直想找一本能够系统入门的书籍。之前也零散地看过一些网络教程和文章,但总感觉不成体系,抓不住重点。这次偶然看到这本书,被它的名字吸引了——“数据挖掘与R语言”,感觉内容会比较扎实,而且“原书第2版”也意味着它经过了市场的检验和作者的不断完善,质量应该有保障。收到书后,我迫不及待地翻阅了一下目录,发现内容涵盖了数据挖掘的各个主要方面,从基础概念到高级算法,再到实际应用,都有涉及。R语言部分更是详细,从基础语法到各种常用包的介绍,感觉能够满足我学习和实践的需求。书中的案例分析部分也让我眼前一亮,感觉不是那种枯燥的理论堆砌,而是能够结合实际问题进行讲解,这对于我这种希望学以致用的人来说非常重要。目前我还在初步阅读阶段,但整体感觉非常满意,期待通过这本书能够真正掌握数据挖掘的技能,并熟练运用R语言进行数据分析。

评分

作为一名长期从事统计建模和数据分析的研究人员,我对于不同编程语言在统计分析中的应用有着比较深入的了解。在众多分析工具中,R语言因其开源、强大且拥有庞大的社区支持而备受青睐。我一直在寻找一本能够系统性梳理数据挖掘方法并深度结合R语言实现的权威著作,最终锁定了这本《数据挖掘与R语言(原书第2版)》。这本书的学术严谨性给我留下了深刻的印象。它不仅涵盖了数据挖掘的经典算法,如分类、回归、聚类、关联规则等,而且对每种算法的理论基础、数学原理都进行了深入浅出的剖析。同时,它对R语言在这些算法实现中的应用也做了详尽的介绍,包括各种核心包的使用方法、参数调优以及结果的解释。书中提供的代码示例清晰、规范,并且能够直接运行,这对于我这种需要进行科研和学术研究的用户来说,极大地节省了时间和精力。这本书不仅是一本教材,更是一本值得反复查阅的参考书,它帮助我进一步巩固和深化了对数据挖掘理论与实践的理解。

评分

我是一名有着多年工作经验的商业分析师,在工作中经常需要处理和分析大量的业务数据,以便为公司的决策提供支持。之前我主要依赖Excel和一些简单的统计软件,但随着业务的复杂化和数据量的爆炸式增长,我意识到需要掌握更强大的工具和更深入的技术。通过朋友的推荐,我选择了这本《数据挖掘与R语言(原书第2版)》。这本书最大的亮点在于它能够将抽象的数据挖掘理论与具体的R语言实践完美地结合起来。对于我这种已经有一定业务背景但对编程相对陌生的用户来说,这本书循序渐进的讲解方式非常友好。它从R语言的基础操作讲起,逐步深入到各种数据挖掘的算法和模型。更重要的是,它提供的案例分析非常有针对性,能够帮助我理解如何将学到的技术应用到实际的商业问题中,比如用户画像的构建、销售预测、客户流失分析等等。这本书让我对如何从海量数据中挖掘有价值的信息有了更深刻的认识,也提升了我解决实际业务问题的能力,是一本非常实用的工具书。

评分

我是一名喜欢钻研技术,对新兴事物充满好奇的IT从业者。近年来,随着大数据时代的到来,数据挖掘和机器学习技术越来越受到重视,我也一直想要系统学习这方面的知识。在网上搜寻了很久,最终选择了这本《数据挖掘与R语言(原书第2版)》。这本书给我的整体感觉就是“干货满满”,而且非常接地气。它没有过多的理论空谈,而是将理论知识与大量的实际操作相结合。从R语言的安装配置、基础语法,到如何导入、清洗、转换数据,再到各种模型(如决策树、随机森林、K-means等)的实现和评估,都有非常详细的步骤和代码演示。我最喜欢的是书中的项目案例,感觉就像跟着老师在一步步完成一个真实的数据挖掘项目,非常有成就感。而且,这本书在讲解过程中,也穿插了一些数据挖掘的最佳实践和注意事项,这对于我们这种在实际工作中可能会遇到各种坑的用户来说,非常重要。这本书让我对数据挖掘有了一个全面且深入的认识,也大大提升了我用R语言解决实际问题的信心。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有