Python+Spark 2 0+Hadoop机器学习与大数据实战林大贵清华大学出版社 pdf epub mobi txt 电子书下载 2026

Name: Python+Spark 2 0+Hadoop机器学习与大数据实战 林大贵 清华大学出版社 pdf epub mobi txt 电子书 2026
SKU: 28330543577
Rating: 4 (10 reviews)

简体网页||繁体网页

☆☆☆☆☆

林大贵著

图书标签:

Python
Spark
Hadoop
机器学习
大数据
数据分析
清华大学出版社
林大贵
实战
大数据技术

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：墨砚聚客图书专营店

出版社：清华大学出版社

ISBN：9787302490739

商品编码：28330543577

包装：平装-胶订

出版时间：2018-01-01

具体描述

基本信息

书名：Python+Spark 2 0+Hadoop机器学习与大数据实战

：99.00元

作者：林大贵

出版社：清华大学出版社

出版日期：2018-01-01

ISBN：9787302490739

字数：

页码：

版次：1

装帧：平装-胶订

开本：16开

商品重量：0.4kg

编辑推荐

1.Hadoop集群安装与分散式运算和存储介绍通过实机操作，学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集群安装，并学会使用HDFS分散式存储与MapReduce分散式运算。2.Python Spark 2.0安装通过实机操作，学会安装Spark 2.0，并在本机与多台机器集群执行Python Spark应用程序。同时介绍如何在iPython Notebook互动界面执行Python Spark指令。安装eclipse整合开发界面，开发Python Spark应用程序，大幅提升程序开发生产力。3.Python Spark SQL、DataFrame数据统计与数据可视化Spark SQL 即使非程序设计人员，只需要懂得SQL语法，就可以使用。DataFrame API 可使用类SQL的方法，如select()、groupby()、count()，很容易进行统计，大幅降低大数据分析的学习门槛。Spark DataFrame可转换为Pandas DataFrame，运用Python丰富的数据可视化组件（例如matplotlib）进行数据可视化。4.Python Spark MLlib机器学习以大数据分析实际案例MoiveLens、StumbleUpon、CovType、BikeSharing介绍如何使用Python Spark运用机器学习演算法进行数据处理、训练、建立模型、训练验证找出*模型、预测结果。5.Python Spark ML Pipeline机器学习流程以大数据实际案例示范使用Python Spark ML Pipeline机器学习流程进行二元分类、多元分类、回归分析，将机器学习的每一个步骤建立成Pipeline流程：数据处理 →运算法训练数据→建立模型→找出*模型→预测结果。Spark ML Pipeline 通过内建数据处理模块与机器学习运算法，减轻数据分析师在程序设计上的负担。

内容提要

本书从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习（推荐引擎）、机器学习（二元分类）、机器学习（多元分类）、机器学习（回归分析）和数据可视化应用等。书中不仅加入了新近的大数据技术，还丰富了“机器学习”内容。为降低读者学习大数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机，如何建立Hadoop集群，再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照书中介绍的搭建过程，同样可以实现将自己的平台搭建在多台实体计算机上，以便更加接近于大数据和机器学习真实的运行环境。本书非常适合于学习大数据基础知识的初学者阅读，更适合正在学习大数据理论和技术的人员作为上机实践用的教材。

第1章 Python Spark机器学习与Hadoop大数据 1

1.1 机器学习的介绍 2

1.2Spark的介绍 5

1.3Spark数据处理 RDD、DataFrame、Spark SQL 7

1.4 使用Python开发 Spark机器学习与大数据应用 8

1.5Python Spark 机器学习 9

1.6Spark ML Pipeline机器学习流程介绍 10

1.7Spark 2.0的介绍 12

1.8 大数据定义 13

1.9Hadoop 简介 14

1.10Hadoop HDFS分布式文件系统 14

1.11Hadoop MapReduce的介绍 17

1.12结论 18

第2章 VirtualBox虚拟机软件的安装 19

2.1VirtualBox的下载和安装 20

2.2 设置VirtualBox存储文件夹 23

2.3 在VirtualBox创建虚拟机 25

2.4 结论 29

第3章 Ubuntu Linux 操作系统的安装 30

3.1Ubuntu Linux 操作系统的安装 31

3.2 在Virtual设置Ubuntu虚拟光盘文件 33

3.3 开始安装Ubuntu 35

3.4 启动Ubuntu 40

3.5 安装增强功能 41

3.6 设置默认输入法 45

3.7 设置“终端”程序 48

3.8 设置“终端”程序为白底黑字 49

3.9 设置共享剪贴板 50

3.10设置佳下载服务器 52

3.11结论 56

第4章 Hadoop Single Node Cluster的安装 57

4.1 安装K 58

4.2 设置SSH无密码登录 61

4.3 下载安装Hadoop 64

4.4 设置Hadoop环境变量 67

4.5 修改Hadoop配置设置文件 69

4.6 创建并格式化HDFS目录 73

4.7 启动Hadoop 74

4.8 打开HadoopResource-Manager Web界面 76

4.9NameNode HDFS Web界面 78

4.10结论 79

第5章 Hadoop Multi Node Cluster的安装 80

5.1 把Single NodeCluster复制到data1 83

5.2 设置VirtualBox网卡 84

5.3 设置data1服务器 87

5.4 复制data1服务器到data2、data3、master 94

5.5 设置data2服务器 97

5.6 设置data3服务器 100

5.7 设置master服务器 102

5.8master连接到data1、data2、data3 创建HDFS目录 107

5.9 创建并格式化NameNodeHDFS目录 110

5.10启动Hadoop Multi Node Cluster 112

5.11打开Hadoop ResourceManager Web界面 114

5.12打开NameNode Web界面 115

5.13停止Hadoop Multi Node Cluster 116

5.14结论 116

第 6 章 Hadoop HDFS命令 117

6.1 启动HadoopMulti-Node Cluster 118

6.2 创建与查看HDFS目录 120

6.3 从本地计算机复制文件到HDFS 122

6.4 将HDFS上的文件复制到本地计算机 127

6.5 复制与删除HDFS文件 129

6.6 在Hadoop HDFSWeb用户界面浏览HDFS 131

6.7 结论 134

第7章 Hadoop MapReduce 135

7.1 简单介绍WordCount.java 136

7.2 编辑WordCount.java 137

7.3 编译WordCount.java 141

7.4 创建测试文本文件 143

7.5 运行WordCount.java 145

7.6 查看运行结果 146

7.7 结论 147

第8章 Python Spark的介绍与安装 148

8.1Scala的介绍与安装 150

8.2 安装Spark 153

8.3 启动pyspark交互式界面 156

8.4 设置pyspark显示信息 157

8.5 创建测试用的文本文件 159

8.6 本地运行pyspark程序 161

8.7 在Hadoop YARN运行pyspark 163

8.8 构建SparkStandalone Cluster运行环境 165

8.9 在SparkStandalone运行pyspark 171

8.10Spark Web UI界面 173

8.11结论 175

第9章在 IPythonNotebook 运行 Python Spark 程序 176

9.1 安装Anaconda 177

9.2 在IPythonNotebook使用Spark 180

9.3 打开IPythonNotebook笔记本 184

9.4 插入程序单元格 185

9.5 加入注释与设置程序代码说明标题 186

9.6 关闭IPythonNotebook 188

9.7 使用IPythonNotebook在Hadoop YARN-client模式运行 189

9.8 使用IPythonNotebook在Spark Stand Alone模式运行 192

9.9 整理在不同的模式运行IPythonNotebook的命令 194

9.9.1在 Local 启动 IPython Notebook 195

9.9.2在Hadoop YARN-client 模式启动 IPython Notebook 195

9.9.3在Spark Stand Alone 模式启动 IPython Notebook 195

9.10结论 196

第10章 Python Spark RDD 197

10.1RDD的特性 198

10.2开启IPython Notebook 199

10.3基本RDD“转换”运算 201

10.4多个RDD“转换”运算 206

10.5基本“动作”运算 208

10.6RDD Key-Value 基本“转换”运算 209

10.7多个RDD Key-Value“转换”运算 212

10.8Key-Value“动作”运算 215

10.9Broadcast 广播变量 217

10.10accumulator累加器 220

10.11RDD Persistence持久化 221

10.12使用Spark创建WordCount 223

10.13Spark WordCount详细解说 226

10.14结论 228

第11章 Python Spark的集成开发环境 229

11.1下载与安装eclipse Scala IDE 232

11.2安装PyDev 235

11.3设置字符串替代变量 240

11.4PyDev 设置 Python 链接库 243

11.5PyDev设置anaconda2链接库路径 245

11.6PyDev设置Spark Python链接库 247

11.7PyDev设置环境变量 248

11.8新建PyDev项目 251

11.9加入WordCount.py程序 253

11.10输入WordCount.py程序 254

11.11创建测试文件并上传至HDFS目录 257

11.12使用spark-submit执行WordCount程序 259

11.13在Hadoop YARN-client上运行WordCount程序 261

11.14在Spark Standalone Cluster上运行WordCount程序 264

11.15在eclipse外部工具运行Python Spark程序 267

11.16在eclipse运行spark-submit YARN-client 273

11.17在eclipse运行spark-submit Standalone 277

11.18结论 280

第12章 Python Spark创建推荐引擎 281

12.1推荐算法介绍 282

12.2“推荐引擎”大数据分析使用场景 282

12.3ALS推荐算法的介绍 283

12.4如何搜索数据 285

12.5启动IPython Notebook 289

12.6如何准备数据 290

12.7如何训练模型 294

12.8如何使用模型进行推荐 295

12.9显示推荐的电影名称 297

12.10创建Remend项目 299

12.11运行RemendTrain.py 推荐程序代码 302

12.12创建Remend.py推荐程序代码 304

12.13在eclipse运行Remend.py 307

12.14结论 310

第13章 Python Spark MLlib决策树二元分类 311

13.1决策树介绍 312

13.2“StumbleUpon Evergreen”大数据问题 313

13.2.1Kaggle网站介绍 313

13.2.2“StumbleUpon Evergreen”大数据问题场景分析 313

13.3决策树二元分类机器学习 314

13.4如何搜集数据 315

13.4.1StumbleUpon数据内容 315

13.4.2下载 StumbleUpon 数据 316

13.4.3用LibreOffice Calc 电子表格查看train.tsv 319

13.4.4复制到项目目录 322

13.5 使用IPython Notebook示范 323

13.6如何进行数据准备 324

13.6.1导入并转换数据 324

13.6.2提取 feature 特征字段 327

13.6.3提取分类特征字段 328

13.6.4提取数值特征字段 331

13.6.5返回特征字段 331

13.6.6提取 label 标签字段 331

13.6.7建立训练评估所需的数据 332

13.6.8以随机方式将数据分为 3 部分并返回 333

13.6.9编写 PrepareData(sc) 函数 333

13.7如何训练模型 334

13.8如何使用模型进行预测 335

13.9如何评估模型的准确率 338

13.9.1使用 AUC 评估二元分类模型 338

13.9.2计算 AUC 339

13.10模型的训练参数如何影响准确率 341

13.10.1建立 trainEvaluateModel 341

13.10.2评估impurity参数 343

13.10.3训练评估的结果以图表显示 344

13.10.4编写 evalParameter 347

13.10.5使用 evalParameter 评估 maxDepth 参数 347

13.10.6使用 evalParameter 评估 maxBins 参数 348

13.11如何找出准确率高的参数组合 349

13.12如何确认是否过度训练 352

13.13编写RunDecisionTreeBinary.py程序 352

13.14开始输入RunDecisionTreeBinary.py程序 353

13.15运行RunDecisionTreeBinary.py 355

13.15.1执行参数评估 355

13.15.2所有参数训练评估找出好的参数组合 355

13.15.3运行 RunDecisionTreeBinary.py 不要输入参数 357

13.16查看DecisionTree的分类规则 358

13.17结论 360

第14章 Python Spark MLlib 逻辑回归二元分类 361

14.1逻辑回归分析介绍 362

14.2RunLogisticRegression WithSGDBinary.py程序说明 363

14.3运行RunLogisticRegression WithSGDBinary.py进行参数评估 367

14.4找出佳参数组合 370

14.5修改程序使用参数进行预测 370

14.6结论 372

第15章 Python Spark MLlib支持向量机SVM二元分类 373

15.1支持向量机SVM算法的基本概念 374

15.2运行SVMWithSGD.py进行参数评估 376

15.3运行SVMWithSGD.py 训练评估参数并找出佳参数组合 378

15.4运行SVMWithSGD.py 使用佳参数进行预测 379

15.5结论 381

第16章 Python Spark MLlib朴素贝叶斯二元分类 382

16.1朴素贝叶斯分析原理的介绍 383

16.2RunNaiveBayesBinary.py程序说明 384

16.3运行NaiveBayes.py进行参数评估 386

16.4运行训练评估并找出好的参数组合 387

16.5修改RunNaiveBayesBinary.py 直接使用佳参数进行预测 388

16.6结论 390

第17章 Python Spark MLlib决策树多元分类 391

17.1“森林覆盖植被”大数据问题分析场景 392

17.2UCI Covertype数据集介绍 393

17.3下载与查看数据 394

17.4修改PrepareData() 数据准备 396

17.5修改trainModel 训练模型程序 398

17.6使用训练完成的模型预测数据 399

17.7运行RunDecisionTreeMulti.py 进行参数评估 401

17.8运行RunDecisionTreeMulti.py 训练评估参数并找出好的参数组合 403

17.9运行RunDecisionTreeMulti.py 不进行训练评估 404

17.10结论 406

第18章 Python Spark MLlib决策树回归分析 407

18.1Bike Sharing大数据问题分析 408

18.2Bike Sharing数据集 409

18.3下载与查看数据 409

18.4修改 PrepareData() 数据准备 412

18.5修改DecisionTree.trainRegressor训练模型 415

18.6以 RMSE 评估模型准确率 416

18.7训练评估找出好的参数组合 417

18.8使用训练完成的模型预测数据 417

18.9运行RunDecisionTreeMulti.py进行参数评估 419

18.10运行RunDecisionTreeMulti.py训练评估参数并找出好的参数组合 421

18.11运行RunDecisionTreeMulti.py 不进行训练评估 422

18.12结论 424

第19章 Python Spark SQL、DataFrame、RDD数据统计与可视化 425

19.1RDD、DataFrame、Spark SQL 比较 426

19.2创建RDD、DataFrame与Spark SQL 427

19.2.1在 local 模式运行 IPython Notebook 427

19.2.2创建RDD 427

19.2.3创建DataFrame 428

19.2.4设置 IPython Notebook 字体 430

19.2.5为DataFrame 创建别名 431

19.2.6开始使用 Spark SQL 431

19.3SELECT显示部分字段 434

19.3.1使用 RDD 选取显示部分字段 434

19.3.2使用 DataFrames 选取显示字段 434

19.3.3使用 Spark SQL 选取显示字段 435

19.4增加计算字段 436

19.4.1使用 RDD 增加计算字段 436

19.4.2使用 DataFrames 增加计算字段 436

19.4.3使用 Spark SQL 增加计算字段 437

19.5筛选数据 438

19.5.1使用 RDD 筛选数据 438

19.5.2使用 DataFrames 筛选数据 438

19.5.3使用 Spark SQL 筛选数据 439

19.6按单个字段给数据排序 439

19.6.1RDD 按单个字段给数据排序 439

19.6.2使用 Spark SQL排序 440

19.6.3使用 DataFrames按升序给数据排序 441

19.6.4使用 DataFrames按降序给数据排序 442

19.7按多个字段给数据排序 442

19.7.1RDD 按多个字段给数据排序 442

19.7.2Spark SQL 按多个字段给数据排序 443

19.7.3DataFrames 按多个字段给数据排序 443

19.8显示不重复的数据 444

19.8.1RDD 显示不重复的数据 444

19.8.2Spark SQL 显示不重复的数据 445

19.8.3Dataframes显示不重复的数据 445

19.9分组统计数据 446

19.9.1RDD 分组统计数据 446

19.9.2Spark SQL分组统计数据 447

19.9.3Dataframes分组统计数据 448

19.10Join 联接数据 450

19.10.1创建 ZipCode 450

19.10.2创建 zipcode_tab 452

19.10.3Spark SQL 联接 zipcode_table 数据表 454

19.10.4DataFrame user_df 联接 zipcode_df 455

19.11使用 Pandas DataFrames 绘图 457

19.11.1按照不同的州统计并以直方图显示 457

19.11.2按照不同的职业统计人数并以圆饼图显示 459

19.12结论 461

第20章 Spark ML Pipeline 机器学习流程二元分类 462

20.1数据准备 464

20.1.1在 local 模式执行 IPython Notebook 464

20.1.2编写 DataFrames UDF 用户自定义函数 466

20.1.3将数据分成 train_df 与 test_df 468

20.2机器学习pipeline流程的组件 468

20.2.1StringIndexer 468

20.2.2OneHotEncoder 470

20.2.3VectorAssembler 472

20.2.4使用 DecisionTreeClassier 二元分类 474

20.3建立机器学习pipeline流程 475

20.4使用pipeline进行数据处理与训练 476

20.5使用pipelineModel 进行预测 477

20.6评估模型的准确率 478

20.7使用TrainValidation进行训练验证找出佳模型 479

20.8使用crossValidation交叉验证找出佳模型 481

20.9使用随机森林 RandomForestClassier分类器 483

20.10结论 485

第21章 Spark ML Pipeline 机器学习流程多元分类 486

21.1数据准备 487

21.1.1读取文本文件 488

21.1.2 创建 DataFrame 489

21.1.3转换为 double 490

21.2建立机器学习pipeline流程 492

21.3使用dt_pipeline进行数据处理与训练 493

21.4使用pipelineModel 进行预测 493

21.5评估模型的准确率 495

21.4使用TrainValidation进行训练验证找出佳模型 496

21.7结论 498

第22章 Spark ML Pipeline 机器学习流程回归分析 499

22.1数据准备 501

22.1.1在local 模式执行 IPython Notebook 501

22.1.2将数据分成 train_df 与 test_df 504

22.2建立机器学习pipeline流程 504

22.3使用dt_pipeline进行数据处理与训练 506

22.4使用pipelineModel 进行预测 506

22.5评估模型的准确率 507

22.6使用TrainValidation进行训练验证找出佳模型 508

22.7使用crossValidation进行交叉验证找出佳模型 510

22.8使用GBT Regression 511

22.9结论 513

附录A 本书范例程序下载与安装说明 514

A.1 下载范例程序 515

A.2 打开本书IPythonNotebook范例程序 516

A.3 打开 eclipsePythonProject 范例程序 518

作者介绍

林大贵,从事IT行业多年，在系统设计、网站开发、数字营销、商业智慧、大数据、机器学习等领域具有丰富的实战经验。

文摘

序言

Python、Spark与Hadoop：构建下一代智能数据处理与分析平台在这个数据爆炸的时代，如何从海量数据中挖掘价值，实现智能决策，已成为企业和研究机构面临的核心挑战。大数据技术的飞速发展，为我们提供了前所未有的机遇。本书将带领读者深入探索Python、Spark与Hadoop三大核心技术的强大组合，构建起一套完整的、可扩展的、高效能的机器学习与大数据实战平台。第一部分：Python的强大基石——数据科学的核心语言 Python之所以成为数据科学领域的首选语言，在于其简洁的语法、丰富的库生态以及强大的社区支持。本书将从零开始，全面介绍Python在数据科学领域的应用，重点关注以下几个方面： Python基础回顾与进阶：即使您是Python新手，也能快速掌握核心语法、数据结构、函数、面向对象编程等概念。对于有一定基础的读者，我们将深入探讨Python的高级特性，如装饰器、生成器、协程，以及如何利用它们优化代码性能和可读性。 NumPy：高性能数值计算的基石： NumPy数组是Python进行科学计算的基础。我们将详细讲解NumPy的多维数组操作、向量化计算、广播机制，以及如何利用NumPy高效地处理大规模数值数据，为后续的机器学习模型训练奠定坚实基础。 Pandas：数据处理与分析的瑞士军刀： Pandas提供了DataFrame和Series两种核心数据结构，极大地简化了数据的读取、清洗、转换、聚合和可视化。本书将系统介绍Pandas的数据加载（CSV, Excel, SQL等）、缺失值处理、数据筛选与排序、分组聚合、合并与连接等常用操作，让您能够游刃有余地处理现实世界中复杂多变的数据。 Matplotlib与Seaborn：深入洞察数据的可视化艺术：数据可视化是理解数据、发现模式、沟通结果的关键。我们将学习如何使用Matplotlib绘制各种基础图表，如折线图、散点图、柱状图、饼图等，并进阶使用Seaborn库，创建更具统计意义和美感的图表，如热力图、箱线图、小提琴图，帮助您直观地理解数据特征和模型表现。 Scikit-learn：机器学习的入门与精通： Scikit-learn是Python中最受欢迎的机器学习库之一，提供了海量预实现的算法和工具。本书将涵盖从数据预处理（特征缩放、编码、降维）到模型选择（交叉验证、网格搜索）再到各种经典机器学习算法（线性回归、逻辑回归、决策树、随机森林、支持向量机、K-Means聚类）的详细讲解和实战应用。我们将通过真实数据集，演示如何训练、评估和优化模型，并介绍模型解释性的重要性。第二部分：Spark的极速引擎——内存计算与分布式处理的革新 Apache Spark是新一代的分布式计算系统，以其在内存中的快速计算能力而闻名。它能够显著提升大数据处理和机器学习的效率。本书将深入剖析Spark的核心概念与技术： Spark架构与核心概念：我们将详细解读Spark的驱动程序（Driver）、执行器（Executor）、集群管理器（Cluster Manager）等关键组件，以及RDD（弹性分布式数据集）、DataFrame和Dataset等核心抽象。理解这些概念是掌握Spark分布式计算能力的基础。 Spark Core：分布式计算的基石： RDD作为Spark的早期核心抽象，虽然DataFrame和Dataset更为常用，但理解RDD的工作原理对于掌握Spark的底层机制至关重要。我们将学习RDD的创建、转换（map, filter, flatMap等）和行动（collect, count, reduce等）操作，以及其背后的容错机制。 Spark SQL与DataFrame：结构化数据处理的利器： DataFrame是Spark 1.3版本引入的高性能数据抽象，它提供了更丰富的数据结构和查询优化能力。本书将重点讲解如何使用Spark SQL和DataFrame进行高效的数据查询、转换和分析，以及如何利用Schema优化查询性能。我们将演示如何读取不同来源的结构化数据，执行SQL查询，以及进行复杂的数据聚合和窗口函数操作。 Spark Streaming/Structured Streaming：实时数据处理的未来：在物联网、金融交易等实时场景下，流式数据处理至关重要。我们将深入学习Spark Streaming和Structured Streaming，理解其微批处理和事件时间处理模型，并演示如何构建实时数据管道，处理来自Kafka、Kinesis等数据源的实时数据，并进行实时分析和机器学习模型的在线推理。 Spark MLlib：大规模机器学习的加速器： Spark MLlib是Spark提供的分布式机器学习库，能够将机器学习算法部署到集群上进行训练和推理，极大地缩短了处理大规模数据集的训练时间。本书将涵盖MLlib中的常用算法，如分布式线性代数、协同过滤、聚类、分类、回归以及模型评估和调优。我们将重点展示如何将Python中学习到的机器学习算法迁移到Spark MLlib上，实现大规模数据集上的模型训练。 Spark与Python的融合（PySpark）： PySpark是Spark官方提供的Python API，使得Python开发者能够轻松地利用Spark强大的分布式计算能力。本书将贯穿Python和Spark的结合，演示如何使用PySpark进行数据加载、预处理、特征工程、模型训练和推理，充分发挥Python丰富的库和Spark的高性能。第三部分：Hadoop生态系统——大数据存储与管理的坚实后盾 Apache Hadoop是构建大规模数据处理系统的基石，其分布式文件系统HDFS和资源管理框架YARN为大数据提供了可靠的存储和高效的计算资源调度。本书将带领读者深入理解Hadoop的核心组件及其在大数据实战中的作用： Hadoop分布式文件系统（HDFS）： HDFS是Hadoop的核心组件之一，提供了高吞吐量、可扩展性和容错性的分布式文件存储。我们将深入讲解HDFS的架构，包括NameNode、DataNode，以及数据块的存储、复制和故障恢复机制。理解HDFS的工作原理，是处理PB级别数据的关键。 YARN（Yet Another Resource Negotiator）： YARN是Hadoop 2.x引入的统一资源管理框架，它将应用程序的资源管理和作业调度与Hadoop的存储功能分离，提高了系统的灵活性和效率。我们将学习YARN的 ResourceManager、NodeManager、ApplicationMaster等组件，以及如何利用YARN调度Spark、MapReduce等分布式应用。 Hadoop生态系统的其他重要组件（选讲）：根据实际需求，我们可能会简要介绍Hadoop生态系统中其他关键组件，如Hive（构建在Hadoop之上的数据仓库）、HBase（分布式NoSQL数据库）、ZooKeeper（分布式协调服务）等，以及它们如何与Spark和Python协同工作，构建更完整的大数据解决方案。第四部分：整合与实战——构建端到端的大数据机器学习流程理论知识的学习最终需要通过实践来巩固。本书的最后部分将聚焦于将Python、Spark与Hadoop整合起来，构建实际的大数据机器学习项目。搭建本地与云端开发环境：我们将提供详细的指导，帮助读者在本地环境中搭建Hadoop与Spark集群，以及在云平台上（如AWS, Azure, GCP）配置和使用大数据服务，让读者能够根据自己的需求选择合适的开发环境。大数据ETL（Extract, Transform, Load）流程：在进行机器学习之前，数据清洗和转换是至关重要的步骤。我们将使用Spark和Python，演示如何从HDFS或云存储中读取海量数据，进行数据清洗、去重、格式转换、特征提取等ETL操作，为模型训练准备高质量的数据集。分布式特征工程：针对大规模数据集，高效的特征工程是模型性能的关键。我们将学习如何利用Spark的DataFrame API和MLlib库，执行分布式特征编码、数值特征缩放、文本特征处理（TF-IDF, Word2Vec）等特征工程技术。 Spark MLlib与Scikit-learn的模型训练与比较：我们将对比在Spark MLlib和Scikit-learn上训练相同机器学习模型的性能差异，并演示如何根据数据规模和计算资源选择最合适的工具。模型部署与推理：训练好的模型如何投入实际应用？我们将介绍模型持久化、加载，以及如何使用Spark Streaming或Structured Streaming进行实时模型的在线推理，或者通过REST API提供模型服务。案例研究与项目实践：本书将穿插多个贴近实际业务场景的案例研究，例如：大规模用户行为分析与推荐系统：利用Spark和Python处理用户日志数据，构建用户画像，并实现个性化推荐。金融欺诈检测：使用Spark MLlib训练大规模的分类模型，实时检测交易欺诈行为。社交媒体情感分析：通过Spark Streaming处理社交媒体的实时数据流，进行情感极性分析。图像与文本数据的大规模挖掘：结合Python的深度学习库（如TensorFlow, PyTorch）与Spark的分布式处理能力，对海量非结构化数据进行分析。本书的目标读者：本书适合对大数据技术、分布式计算和机器学习感兴趣的开发者、数据工程师、数据科学家、算法工程师、以及希望提升自身在大数据领域实战能力的IT从业人员。无论您是初学者还是有一定经验的专业人士，都能从本书中获得宝贵的知识和技能。通过本书的学习，您将掌握使用Python、Spark和Hadoop构建下一代智能数据处理与分析平台的必备技能，能够自信地应对大数据挑战，驱动业务创新，并在快速发展的数据科学领域取得成功。