计算机科学丛书：数据挖掘与R语言 pdf epub mobi txt 电子书下载 2026

Name: 计算机科学丛书：数据挖掘与R语言 pdf epub mobi txt 电子书 2026
SKU: 11221177
Rating: 4 (10 reviews)

简体网页||繁体网页

☆☆☆☆☆

[葡] Luís Torgo 著，李洪成，陈道轮，吴立明译

图书标签:

数据挖掘
R语言
计算机科学
统计学习
机器学习
数据分析
算法
数据可视化
模式识别
人工智能

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111407003

版次：1

商品编码：11221177

品牌：机工出版

包装：平装

丛书名：计算机科学丛书

开本：16开

出版时间：2013-04-01

用纸：胶版纸

页数：216

正文语种：中文

具体描述

编辑推荐

　　《计算机科学丛书：数据挖掘与R语言》的支持网站给出了案例研究的所有代码、数据集以及R函数包
　　不要求读者具有R、数据挖掘或统计技术的基础知识
　　《计算机科学丛书：数据挖掘与R语言》利用大量给出必要步骤、代码和数据的具体案例，详细描述了数据挖掘的主要过程和技术

内容简介

　　《计算机科学丛书：数据挖掘与R语言》首先简要介绍了R软件的基础知识（安装、R数据结构、R编程、R的输入和输出等）。然后通过四个数据挖掘的实际案例（藻类频率的预测、证券趋势预测和交易系统仿真、交易欺诈预测、微阵列数据分类）介绍数据挖掘技术。这四个案例基本覆盖了常见的数据挖掘技术，从无监督的数据挖掘技术、有监督的数据挖掘技术到半监督的数据挖掘技术。全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容，脉络清晰，并且各章自成体系。读者可以从头至尾逐章学习，也可以根据自己的需要进行学习，找到自己实际问题的解决方案。
　　《计算机科学丛书：数据挖掘与R语言》不需要读者具备R和数据挖掘的基础知识。不管是R初学者，还是熟练的R用户都能从书中找到对自己有用的内容。读者既可以把本书作为学习如何应用R的一本优秀教材，也可以作为数据挖掘的工具书。

作者简介

　　Luís Torgo，葡萄牙波尔图大学计算机科学系副教授，现在在LIAAD实验室从事研究工作。他是APPIA会员，同时还是OBEGEF的创办会员。

内页插图

出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介

第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结

第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成：仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结

第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结

第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因（特征）选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引

精彩书摘

注意，数字2（实际上是向量c（2）！）被循环，导致v1的所有元素乘以2。正如我们将看到的，这种循环规则也适用于其他的对象，如数组和矩阵。
1.2.5 因子
因子提供了一个简单而又紧凑的形式来处理分类（名义）数据。因子用水平来表示所有可能的取值。如果数据集有取值个数固定的名义变量，因子就特别有用。下面的章节将要学习的多个图形函数和汇总函数就应用了因子的这种优点。对用户来说，这种使用和显示因子数据的方式显然是易于理解的，而R软件内部以数值编码方式来存储因子值，这将大大提高内存的利用效率。
下面举例说明如何在R中创建因子。假设有一个10个人的性别向量：
>g<—c（“f”，“m”，“m”，“m”，“f”，“m”，“f”，“m”，“f”，“f”）
>g
[1] “f” “m” “m” “m” “f” “m” “f” “m” “f” “f”
你可以把这个向量转换为一个因子：
）g<—factor（g）
>g
[1]f m m m f m f m f f
Levels：f m
注意，得到的不再是一个字符向量。上面提到，实际上这些因子在R内部表示为数值向量@。
在这个例子中，因子有两个水平，‘f’和‘m’，在R内部分别表示为1和2。然而，你不需要关心这个内部表示，因为你可以使用“原始的”字符值，R在显示因子时也使用这种字符方式。因此，出于效率的考虑，R因子的编码转换是用户透明的。
假设有另外5个人，需要把他们的性别信息存储在另一个因子对象中。假设他们都是男性。

前言/序言

【前言】
Data Mining with R：Learning with Case Studies
　　本书的主要目的是向读者介绍如何用R进行数据挖掘。R是一个可以自由下载的语言，它提供统计计算和绘图环境，其功能和大量的添加包使它成为一款优秀的、多个已有（昂贵）数据挖掘工具的替代软件。
�∠略赝�址：http://www�眗�瞤roject�眔rg。 ��

　　数据挖掘的一个关键问题是数据量。典型的数据挖掘问题包括一个大的数据库，需要从中提取有用的信息。在本书中，我们用MySQL作为核心数据库管理系统。对多个计算机平台，MySQL也是免费的。这意味着，我们可以不用付任何费用就可以进行“重要的”数据挖掘任务。同时，我们希望说明解决方案质量上并没有任何损失。昂贵的工具并不意味着一定更好！只要你愿意花时间来学习如何应用它们，R和MySQL就是一对很难超越的工具。我们认为这是值得的，希望在读完本书之后，你也相信这点。
�� 下载网址：http://www�眒ysql�眂om。 ��
　　本书的目的不是介绍数据挖掘的各个方面。许多已有的书籍覆盖了数据挖掘领域。我们用几个案例来向读者介绍R的数据挖掘能力。显然，这几个案例不能代表我们在现实世界中碰到的所有数据挖掘问题。同时，我们给出的解决方案也不是最完全的方案。我们的目的是通过这些实际案例向读者介绍如何用R进行数据挖掘。因此，我们案例分析的目的是展示用R进行信息提取的例子，而不是提供数据挖掘案例的完整分析报告。它们可以作为任何数据挖掘项目的可能思路，或者作为开发数据挖掘项目解决方案的基础。尽管如此，我们尽力尝试覆盖多方面的问题，展示数据大小、不同数据类型、分析目标和进行分析所必需的工具所带来的挑战。然而，这里的实践方式也是有代价的。实际上，作为具体案例研究的一种形式，为了让读者在自己的计算机上执行我们所描述的步骤，我们也做了某些妥协。也就是说，我们不能处理太大的问题，这些问题要求的计算机资源不是每个人都具备的。尽管这样，我们认为本书涵盖的问题也不算小，并对不同的数据类型和维度给出了解决方案。
　　这里并不要求读者具有R的先验知识。没有学过R和数据挖掘的读者应该可以学习书中的案例。书中的各个案例相互独立，读者可以从书中任何一个案例开始。在第一个简单案例中，给出了一些基本的R知识。这意味着，如果你没有学过R，至少应该从第一个案例开始学习。而且，第1章给出了R和MySQL的简介，它可以帮助你理解后面的章节。我们也没有假设你熟悉数据挖掘和统计技术。在每个案例的必要地方，都对不同的数据挖掘技术进行了介绍。本书的目的不是向读者介绍这些技术的理论细节和全面知识，我们对这些工具的描述包括了它们的基本性质、缺点和分析目标。如果需要进一步了解技术细节，可以参考其他书籍。在某些节的末尾，我们提供了“参考资料”，如果需要，可以参考它们。总之，本书的读者应该是数据分析工具的用户，而不是研究人员或者开发人员。同时，我们希望后者把本书作为进入R和数据挖掘“世界”的一种方式，从而发现本书的用途。
　　本书有一个免费的R代码集，可以从本书网站下载。其中含有案例研究中的所有代码，这可以帮助你的实践学习。我们强烈建议读者在阅读本书时安装R并实验书中的代码。而且，我们创建了一个名为DMwR的R添加包，它包含本书用到的多个函数和以R格式保存的案例数据集。你应该按照本书的指示，安装并加载该添加包（第1章给出了细节）。
�� 下载网址：http://www�眑iaad�眜p�眕t/~ltorgo/DataMiningWithR/。

《深度解析：智能数据驱动的商业决策》在信息爆炸的时代，数据已成为企业最宝贵的资产。然而，海量数据的背后隐藏着巨大的价值，也伴随着前所未有的挑战。如何从纷繁复杂的数据洪流中提取洞察，将其转化为驱动商业成功的战略，是每一个现代企业都必须面对的核心议题。《深度解析：智能数据驱动的商业决策》是一本旨在赋能您驾驭数据力量、做出更明智、更具前瞻性商业决策的权威指南。本书并非仅仅聚焦于某种特定技术或工具，而是致力于构建一个全面、系统化的数据驱动决策框架，帮助读者理解数据在商业运作各个环节的潜能，并掌握将其转化为实际价值的方法。本书的独特之处在于其高度的实践导向和前瞻性视野。我们深知，理论的海洋固然广阔，但真正能够改变商业格局的是那些能够落地执行的策略和方法。因此，本书内容紧密围绕商业实际需求展开，从战略层面到战术执行，层层递进，力求为读者提供一套可操作、可复制的解决方案。第一部分：构建数据驱动的商业思维在踏上数据驱动之旅的起点，我们首先需要革新的是思维模式。本部分将深入探讨：数据驱动的本质与演进：剖析数据驱动决策的核心理念，追溯其在商业发展历程中的演变轨迹，理解数据如何从简单的记录工具升华为战略制胜的关键。我们将讨论从描述性统计到预测性分析，再到规范性建议的分析能力跃升，以及这种跃升对企业运营模式带来的颠覆性影响。智能数据决策的战略意义：阐释为何在当今竞争激烈的市场环境中，数据驱动已不再是“可选项”，而是“必选项”。我们将分析企业在各个层面，如产品研发、市场营销、客户服务、运营管理、风险控制等方面，如何通过数据洞察实现差异化竞争优势。数据价值链的构建与优化：详细解读企业如何系统性地构建从数据采集、清洗、存储、分析到应用的全生命周期价值链。本书将提供一套评估和优化现有数据基础设施的实用方法，确保数据能够高效、安全地流动，并最终服务于商业目标。数据伦理与合规性：在享受数据红利的同时，我们必须正视数据安全、隐私保护以及合规性问题。本部分将深入探讨相关法律法规，并提供切实可行的操作指南，帮助企业在合法合规的框架内，最大化数据的使用价值。第二部分：数据洞察的获取与解读有了正确的心态和框架，接下来便是掌握获取和解读数据洞察的关键技能。本部分将聚焦于：商业问题导向的数据分析：强调分析的起点始终是清晰的商业问题。本书将引导读者学习如何将模糊的商业挑战转化为可执行的数据分析任务，并选择最恰当的分析方法。主流数据分析方法论详解：详细介绍支撑智能数据决策的各类分析方法，包括但不限于：描述性分析：如何通过可视化和统计手段，清晰呈现现状，识别趋势和模式。例如，通过用户画像分析，描绘目标客户群体的特征。诊断性分析：深入挖掘问题根源，理解“为什么会发生”。例如，分析销售额下降的原因，找出是营销活动失效还是产品缺陷。预测性分析：利用历史数据和算法，预判未来趋势和结果。例如，预测客户流失的可能性，提前进行挽留。规范性分析：基于预测结果，提出最优的行动建议，实现“应该怎么做”。例如，为不同客户群体推荐个性化的产品或服务。数据可视化：沟通洞察的关键桥梁：深入讲解数据可视化的原则和技巧，如何选择合适的图表类型，如何设计直观、易懂的可视化界面，将复杂的数据关系转化为清晰的商业洞察，有效地传达给决策者。解读分析结果的艺术：分析的最终目标是指导决策。本部分将教授读者如何批判性地审视分析结果，识别潜在偏差，并将其与商业情境相结合，做出有价值的解读。第三部分：智能数据驱动的商业实践理论的意义在于指导实践，本部分将把前两部分的内容融会贯通，聚焦于如何在具体的商业场景中落地数据驱动的决策。营销与销售的智能化升级：精准营销与客户细分：如何利用客户数据进行精细化分群，实现个性化的产品推荐、广告投放和沟通策略，大幅提升营销 ROI。销售预测与机会管理：基于销售数据和市场趋势，准确预测销售额，识别高潜力销售线索，优化销售流程。客户生命周期价值（CLV）最大化：理解并应用 CLV 模型，制定针对性的客户留存和增值策略。产品开发与创新的数据赋能：用户行为分析与产品优化：通过分析用户在产品中的交互数据，发现用户痛点和潜在需求，指导产品迭代和功能改进。市场趋势预测与新产品机会识别：利用行业数据、社交媒体信息等，洞察市场趋势，发现尚未被满足的需求，孵化创新产品。 A/B 测试与精益化产品发布：系统性地进行 A/B 测试，以数据为依据，科学地评估和选择产品方案，降低试错成本。运营效率的精益化提升：供应链与物流优化：基于实时数据，优化库存管理、配送路线，降低运营成本，提升响应速度。生产制造的智能监控与预测性维护：通过传感器数据和机器学习，实现生产过程的实时监控，预测设备故障，提前进行维护，避免停机损失。人力资源管理的优化：基于员工数据，优化招聘流程，提升培训效果，预测人才流失风险，构建高绩效团队。风险管理与欺诈检测的智能化：信用风险评估：利用多维度数据，构建精准的信用评分模型，有效规避信贷风险。欺诈行为识别与预防：通过模式识别和异常检测，实时发现和阻止潜在的欺诈行为，保护企业和客户的利益。第四部分：数据驱动决策的未来展望随着人工智能、大数据技术的飞速发展，数据驱动的商业决策正迎来前所未有的机遇。本部分将带领读者展望未来：人工智能与机器学习在决策中的应用深化：探索更高级的 AI 模型，如深度学习、强化学习等，如何在更复杂的商业场景中提供更智能的洞察和自动化决策。自动化决策引擎与实时响应：讨论如何构建能够实时响应市场变化、自动执行决策的系统，实现“秒级”商业反应。数据驱动的组织变革与人才培养：分析在数据驱动转型过程中，组织架构、企业文化以及人才培养所面临的挑战与机遇，以及如何构建数据素养更高的团队。伦理、治理与可持续发展：再次强调数据伦理和治理的重要性，并探讨如何在数据驱动的商业模式中融入可持续发展的理念，实现经济效益和社会效益的双赢。《深度解析：智能数据驱动的商业决策》不仅仅是一本书，更是一张通往未来商业新世界的导航图。无论您是企业管理者、数据分析师、产品经理、营销专家，还是对数据驱动的商业模式充满兴趣的探索者，本书都将为您提供宝贵的知识、实用的工具和开阔的视野。本书力求通过严谨的逻辑、丰富的案例和易于理解的语言，帮助您：理解数据在现代商业中的核心价值。掌握构建和实施数据驱动决策框架的关键步骤。学习如何从数据中提取有价值的洞察。将数据洞察转化为切实的商业策略和行动。在快速变化的商业环境中，保持领先地位，做出更明智、更具竞争力的决策。翻开本书，您将开启一段探索数据力量、驱动商业革新的精彩旅程。

用户评价

评分☆☆☆☆☆

这本书简直是一扇新世界的大门！作为一个对数据分析领域一直充满好奇但又无从下手的小白，我常常在网上看到各种关于数据挖掘的炫酷应用，从预测用户行为到识别欺诈，都让我觉得神乎其技。但一来二去，接触到的资料要么过于理论化，要么代码晦涩难懂，总感觉隔着一层窗户纸。直到我翻开这本《计算机科学丛书：数据挖掘与R语言》，那种“原来如此”的感觉瞬间涌上心头。作者并没有一开始就抛出一堆复杂的数学公式，而是循序渐进地从数据挖掘的基本概念讲起，并且非常巧妙地将每一个概念都与R语言中的具体实现结合起来。比如，在讲解数据预处理时，书中不是简单罗列各种清洗方法，而是通过一个真实的案例，一步步展示如何用R的函数来处理缺失值、异常值，如何进行特征编码，看得我跃跃欲试。更重要的是，它强调了“理解”而非“记忆”，让我明白为什么要做这些步骤，它们背后的逻辑是什么。这比我之前囫囵吞枣地学习要有效得多，感觉我真的在学习如何“思考”如何解决数据问题，而不是简单地复制代码。

评分☆☆☆☆☆

这本书就像一个全能工具箱，里面塞满了解决数据问题所需要的一切。我一直对数据可视化情有独钟，因为我觉得好的可视化能够让复杂的数据瞬间变得清晰明了。这本书在这方面做得尤为出色，它不仅介绍了R语言中强大的可视化包，如ggplot2，还通过大量的实例展示了如何绘制各种类型的图表，从简单的柱状图、折线图，到更复杂的网络图、热力图，应有尽有。更让我惊喜的是，书中还讲解了如何根据不同的数据类型和分析目的来选择最合适的可视化方法。比如，在讲解关联规则挖掘时，作者就展示了如何用网络图来清晰地展示产品之间的关联性，这比单纯的数字列表要直观太多了。此外，这本书还涵盖了文本挖掘、时间序列分析等多个重要领域，每一个领域都进行了深入浅出的讲解，并且都与R语言的实际操作紧密结合。我感觉通过这本书的学习，我不仅掌握了数据挖掘的基本技术，更重要的是学会了如何用R语言这个强大的工具来解决现实世界中的各种数据难题。

评分☆☆☆☆☆

作为一名非计算机专业的学生，我一直对数据分析充满兴趣，但苦于缺乏系统的学习路径。这本书的出现，无疑是我在学习道路上遇到的一个宝藏。它摒弃了枯燥的理论堆砌，而是从实际应用出发，逐步引入数据挖掘的概念和R语言的工具。我特别喜欢它在讲解模型构建时，那种逻辑清晰的思路。书中详细介绍了从数据收集、清洗、探索性分析，到特征工程、模型选择、评估和部署的整个流程。每一个环节都给了我深入的指导。例如，在数据探索性分析的部分，作者通过各种可视化手段，如直方图、箱线图、散点图矩阵等，展示了如何发现数据中的模式和关联，这让我大开眼界。而且，R语言的强大之处也在书中得到了充分的体现，各种包的介绍和使用都非常到位，让我能够快速上手。这本书不仅传授知识，更重要的是培养了一种解决问题的思维方式，让我觉得数据挖掘不再是遥不可及的科学，而是人人都可以掌握的实用技能。

评分☆☆☆☆☆

我之前一直认为数据挖掘是那种只有资深数据科学家才能玩转的“高科技”，对普通人来说遥不可及。但是，这本书彻底颠覆了我的认知。它的语言风格非常亲切，就像一位经验丰富的朋友在手把手教你一样。我特别喜欢书中大量的图表和代码示例，它们直观易懂，能帮助我快速理解抽象的概念。比如，在介绍聚类算法的时候，作者不仅解释了K-means的原理，还用R语言绘制了非常生动的散点图，让我能够清晰地看到数据点是如何被划分到不同的簇中的。这比纯粹的文字描述要形象得多。而且，书中还穿插了一些“陷阱”提示和“进阶”探讨，让我知道在实际操作中可能会遇到哪些问题，以及如何进一步深化理解。我最欣赏的一点是，它并没有停留在理论层面，而是非常注重实战。每一章的最后都有练习题，我都会认真去做，即使遇到困难，也能在随后的解答和讲解中找到思路。这让我感觉我不仅仅是在读书，而是在真正地学习一门技能。

评分☆☆☆☆☆

要说这本书的亮点，那绝对是它将理论与实践的结合做得非常出色。我之前也看过一些关于数据挖掘的书籍，但很多都偏重理论，学完感觉好像什么都懂了，但真要动手做的时候就傻眼了。这本书完全不一样，它以R语言为载体，几乎所有的概念讲解都伴随着清晰的代码示例，而且这些代码都是可以直接运行的，非常方便。我尤其喜欢它对不同算法的比较分析，比如在讲到分类算法时，它就对比了决策树、支持向量机和逻辑回归的优缺点，以及在什么情况下选择哪种算法更合适。这种深度的分析让我对各种算法有了更全面的认识，而不仅仅是停留在“知道有这个算法”的层面。书中还提到了一些关于模型评估和优化的方法，这些都是在实际项目中非常重要的环节，能让我避免一些常见的误区。总而言之，这本书为我打开了数据挖掘的大门，让我有信心去尝试解决一些实际的数据问题。

评分☆☆☆☆☆

大数据的系列丛书，有案例

评分☆☆☆☆☆

屯书中，还没仔细阅读呢

评分☆☆☆☆☆

同学推荐的，他说不错

评分☆☆☆☆☆

经典之作，英文版的，内容很好，活动时入手的。这套华章的书非常好。

评分☆☆☆☆☆

本书有一个免费的R代码集，可以从本书网站下载。其中含有案例研究中的所有代码，这可以帮助你的实践学习。我们强烈建议读者在阅读本书时安装R并实验书中的代码。而且，我们创建了一个名为DMwR的R添加包，它包含本书用到的多个函数和以R格式保存的案例数据集。你应该按照本书的指示，安装并加载该添加包（

评分☆☆☆☆☆

学习一下R语言