内容简介
《数据科学导引》是博雅大数据学院针对新开设的“数据科学与大数据技术”专业编写的数据科学导论课程教材。
《数据科学导引》内容共分十五章,包括绪论、数据预处理、回归模型、分类模型、集成模型、聚类模型、关联规则挖掘、降维、特征选择、EM算法、概率图模型、文本分析、图与网络分析、深度学习、分布式计算。附录部分对相关的基础知识做了简要介绍。
《数据科学导引》还提供了大量的数据分析实践案例,有助于加深读者对理论知识的理解,及培养其实际应用能力。
《数据科学导引》可作为全国高等学校数据科学相关专业的本科生和研究生教材,也可供从事相关工作的技术人员参考使用。
作者简介
鄂维南,中国科学院院士,北京大数据研究院院长,北京大学、普林斯顿大学教授,大数据教育联盟理事长。主要从事计算数学、应用数学及其在力学、物理、化学和工程等领域中的应用等方面的研究。1996年获首届美国青年科学家与工程师总统奖。2003年获国际工业与应用数学大会科拉兹奖。2009年获美国工业与应用数学学会克莱曼奖。2014年获美国工业与应用数学学会卡门奖。
欧高炎,北京大学北京国际数学研究中心博士后,博雅大数据学院院长,大数据教育联盟秘书长。中国计算机学会数据库专委会委员。大数据教育、服务和竞赛平台“数据嗨客”创始人。
朱占星,北京大学大数据科学研究中心、北京大数据研究院研究员。主要研究方向为机器学习。长期从事人工智能、机器学习、深度学习以及大数据分析方面的研究与应用。
董彬,北京大学北京国际数学研究中心研究员,北京大数据研究院生物医学影像分析实验室副主任,求是杰出青年学者,中组部青年千人。主要研究领域是应用数学、计算数学及其在图像和数据科学中的应用。
内页插图
目录
第一章 绪论
1.1 数据科学的基本内容
1.2 对学科发展的影响
1.3 对科学研究的影响
1.4 数据科学的课程体系
1.5 本书内容介绍
第二章 数据预处理
2.1 特征编码
2.2 缺失值处理
2.3 数据标准化
2.4 特征离散化
2.5 离群值检测
2.6 其他预处理方法
案例与实战
第三章 回归模型
3.1 线性回归
3.2 线性回归正则化
3.3 非线性回归
案例与实战
第四章 分类模型
4.1 逻辑回归
4.2 K近邻
4.3 决策树
4.4 朴素贝叶斯
4.5 支持向量机
案例与实战
第五章 集成模型
5.1 集成方法综述
5.2 随机森林
5.3 AdaBoost
5.4 应用实例:个人信用风险评估
案例与实战
第六章 聚类模型
6.1 K-means聚类
6.2 层次聚类
6.3 谱聚类
6.4 基于密度的聚类
6.5 小结
案例与实战
第七章 关联规则挖掘
7.1 关联规则概述
7.2 Apriori算法
7.3 FP-Growth算法
案例与实战
第八章 降维
8.1 主成分分析
8.2 线性判别分析
8.3 多维尺度变换
8.4 局部线性嵌入
8.5 其他降维方法
案例与实战
第九章 特征选择
9.1 特征选择的一般过程
9.2 特征选择常用的方法
9.3 无监督特征选择
9.4 小结
案例与实战
第十章 EM算法
10.1 EM算法
10.2 EM的应用:高斯混合模型
10.3 小结
案例与实战
第十一章 概率图模型
11.1 概率图模型概述
11.2 隐马尔可夫模型
11.3 条件随机场
11.4 小结
案例与实战
第十二章 文本分析
12.1 文本表示模型
12.2 主题模型
12.3 情感分析
案例与实战
第十三章 图与网络分析
13.1 基本概念
13.2 几何特征
13.3 链接分析
13.4 社区发现
13.5 知识图谱
案例与实战
第十四章 深度学习
14.1 多层感知机
14.2 深度学习模型的优化
14.3 卷积神经网络
14.4 循环神经网络
14.5 小结
案例与实战
第十五章 分布式计算
15.1 Hadoop:分布式存储与处理
15.2 常见模型的Map Reduce实现
15.3 Spark:分布式数据分析
15.4 其他分布式系统
附录
A.矩阵运算
B.概率论基础
C.优化算法
D.距离
E.模型评估
参考文献
精彩书摘
《数据科学导引》:
另一种方法是计算每个特征对模型准确率的影响。通过打乱样本中某一特征的特征值顺序,产生新样本。将新样本放入建立好的随机森林模型中计算准确率。对于不重要的特征来说,打乱特征值的顺序对模型的准确率不会产生较大影响。但是对于重要的特征来说,打乱顺序就会极大降低模型的准确率。
这两种特征重要性的计算方法各有利弊,第一种方法对具有更多特征值的特征会更有利。在不同特征的特征值种类有较大区别时会失效,不能用于解释特征的重要性。同时,在特征集合存在的相关性较多的情况下(即其中任何一个特征都可以作为优秀的特征,并且当某个特征被选择之后,其他特征的重要性就会迅速下降),那么第一个被选中的特征重要性会较高,其他的关联特征重要性就会较低。这使在解读特征重要性结果时,错误认为先被选中的特征是很重要的。随机的特征选择方法虽然缓解了但尚未完全解决这一问题,样本的数量对第二种方法的结果有很大影响。
……
前言/序言
数据科学是一门新兴学科,它强调培养具有多学科交叉能力的大数据人才。这样的人才应该具有以下三方面素质:一是理论性的,主要是对算法及模型理解和运用的能力;二是实践性的,主要是处理实际数据的能力;三是应用性的,主要是利用大数据的方法解决具体行业实际问题的能力。培养这样的人才,需要数学、统计学和计算机科学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。数据科学课程的开设,也需要采用新的模式,即理论课和实践课相结合的模式,就像物理、化学和生物课一样,需要提供相应的实验平台。这样的实验平台应该提供实际问题、实际数据和基本的处理工具。
为了应对在师资能力、课程体系建设、教材的研发,以及教学形式的变革等多方面的挑战,北京大数据研究院牵头成立了博雅大数据学院。其目的是整合相关高校的集体力量,用高质量和最有效的方法建立起数据科学和大数据技术人才培养所需要的基础设施。这些基础设施包括课程体系和教材的建设和研发、实验平台的建设、师资培训、专业课程的建设和共享等。几年来,博雅大数据学院已经逐步建立起了一个完整的大数据课程体系。这些课程分成专业基础课、专业核心课和专业选修课三个模块。专业基础课包括大数据分析的数学基础、大数据分析的Python基础和数据存储等。专业核心课包括数据采集与网络爬虫、数据清洗技术与工具、数据可视化、大数据应用导论、数据科学导引、机器学习和分布式概论等。专业选修课包括深度学习、知识图谱、文本分析、健康医疗大数据、交通大数据和金融大数据等。同时,博雅大数据学院也初步建成了“数据嗨客”(www.hackdata.cn)这个大数据实验和教学辅助平台,受到了广泛的好评。
数据科学导引 epub pdf mobi txt 电子书 下载 2024
数据科学导引 下载 epub mobi pdf txt 电子书 2024