編輯推薦
本書使用R語言講述機器學習高 級技術,帶領讀者深入研究統計學習理論和監督式學習,理解如何設計高效算法,學習構建推薦引擎,運用多類分類和深度學習,等等。通過探索數據挖掘、分類、聚類、迴歸、預測建模、異常檢測等,本書幫助讀者理解這些概念的工作原理和能夠實現的操作。讀者將循序漸進地學習神經網絡等主題,探索深度學習等內容。通過不同方式使用不同的數據集,讀者還可以在AWS等雲平颱上利用R親手實踐機器學習。
內容簡介
機器學習是近年來的熱門技術話題,R語言是處理其中大量數據的有力工具。本書為讀者提供機器學習和R語言的堅實算法基礎和業務基礎,內容包括機器學習基本概念、綫性迴歸、邏輯迴歸和判彆分析、綫性模型的高 級選擇特性、K* 近鄰和支持嚮量機等,力圖平衡實踐中的技術和理論兩方麵。
本書適閤試圖理解和錶述機器學習算法的IT人士、想在分析中發揮R強大威力的統計學專傢。即使是同時精通IT技術和統計學的讀者,在本書中仍然可以發現一些有用的竅門和技巧。
作者簡介
Cory Leismester
具有十多年量化管理經驗,目前在銀行業擔任高 級量化管理經理,負責構建市場營銷和監管模型。曾在禮來公司任職16年,負責銷售、市場調查、精益六西格瑪、營銷分析、新産品預測等工作。
目錄
第1章 成功之路1
1.1 流程1
1.2 業務理解2
1.2.1 確定業務目標3
1.2.2 現狀評估4
1.2.3 確定分析目標4
1.2.4 建立項目計劃4
1.3 數據理解4
1.4 數據準備5
1.5 建模5
1.6 評價6
1.7 部署6
1.8 算法流程圖7
1.9 小結10
第 2章 綫性迴歸:機器學習基礎技術11
2.1 單變量迴歸11
2.2 多變量綫性迴歸18
2.2.1 業務理解18
2.2.2 數據理解和數據準備18
2.2.3 模型構建與模型評價21
2.3 綫性模型中的其他問題30
2.3.1 定性特徵30
2.3.2 交互項32
2.4 小結34
第3章 邏輯斯蒂迴歸與判彆分析35
3.1 分類方法與綫性迴歸35
3.2 邏輯斯蒂迴歸36
3.2.1 業務理解36
3.2.2 數據理解和數據準備37
3.2.3 模型構建與模型評價41
3.3 判彆分析概述46
3.4 多元自適應迴歸樣條方法50
3.5 模型選擇54
3.6 小結57
第4章 綫性模型中的高 級特徵選擇技術58
4.1 正則化簡介58
4.1.1 嶺迴歸59
4.1.2 LASSO59
4.1.3 彈性網絡60
4.2 商業案例60
4.2.1 業務理解60
4.2.2 數據理解和數據準備60
4.3 模型構建與模型評價65
4.3.1 * 優子集65
4.3.2 嶺迴歸68
4.3.3 LASSO71
4.3.4 彈性網絡73
4.3.5 使用glmnet進行交叉驗證76
4.4 模型選擇78
4.5 正則化與分類問題78
4.6 小結81
第5章 更多分類技術:K-* 近鄰與
支持嚮量機82
5.1 K-* 近鄰82
5.2 支持嚮量機84
5.3 商業案例86
5.3.1 業務理解86
5.3.2 數據理解和數據準備87
5.3.3 模型構建與模型評價92
5.3.4 模型選擇98
5.4 SVM中的特徵選擇100
5.5 小結101
第6章 分類迴歸樹103
6.1 本章技術概述103
6.1.1 迴歸樹104
6.1.2 分類樹104
6.1.3 隨機森林105
6.1.4 梯度提升106
6.2 商業案例106
6.2.1 模型構建與模型評價107
6.2.2 模型選擇121
6.2.3 使用隨機森林進行特徵選擇121
6.3 小結123
第7章 神經網絡與深度學習124
7.1 神經網絡介紹124
7.2 深度學習簡介128
深度學習資源與高 級方法130
7.3 業務理解131
7.4 數據理解和數據準備132
7.5 模型構建與模型評價136
7.6 深度學習示例139
7.6.1 H2O背景介紹139
7.6.2 將數據上載到H2O平颱140
7.6.3 建立訓練數據集和測試
數據集141
7.6.4 模型構建142
7.7 小結146
第8章 聚類分析147
8.1 層次聚類148
8.2 K-均值聚類149
8.3 果瓦係數與圍繞中心的劃分150
8.3.1 果瓦係數150
8.3.2 PAM151
8.4 隨機森林151
8.5 業務理解152
8.6 數據理解與數據準備152
8.7 模型構建與模型評價155
8.7.1 層次聚類155
8.7.2 K-均值聚類162
8.7.3 果瓦係數和PAM165
8.7.4 隨機森林與PAM167
8.8 小結168
第9章 主成分分析169
9.1 主成分簡介170
9.2 業務理解173
9.3 模型構建與模型評價176
9.3.1 主成分抽取176
9.3.2 正交鏇轉與解釋177
9.3.3 根據主成分建立因子得分178
9.3.4 迴歸分析178
9.4 小結184
* 10章 購物籃分析、推薦引擎與
序列分析185
10.1 購物籃分析簡介186
10.2 業務理解187
10.3 數據理解和數據準備187
10.4 模型構建與模型評價189
10.5 推薦引擎簡介192
10.5.1 基於用戶的協同過濾193
10.5.2 基於項目的協同過濾194
10.5.3 奇異值分解和主成分分析194
10.6 推薦係統的業務理解198
10.7 推薦係統的數據理解與數據準備198
10.8 推薦係統的建模與評價200
10.9 序列數據分析208
10.10 小結214
* 11章 創建集成多類分類215
11.1 集成模型215
11.2 業務理解與數據理解216
11.3 模型評價與模型選擇217
11.4 多類分類219
11.5 業務理解與數據理解220
11.6 模型評價與模型選擇223
11.6.1 隨機森林224
11.6.2 嶺迴歸225
11.7 MLR集成模型226
11.8 小結228
* 12章 時間序列與因果關係229
12.1 單變量時間序列分析229
12.2 業務理解235
12.3 模型構建與模型評價240
12.3.1 單變量時間序列預測240
12.3.2 檢查因果關係243
12.4 小結249
* 13章 文本挖掘250
13.1 文本挖掘框架與方法250
13.2 主題模型252
13.3 業務理解254
13.4 模型構建與模型評價257
13.4.1 詞頻分析與主題模型257
13.4.2 其他定量分析261
13.5 小結267
* 14章 在雲上使用R語言268
14.1 創建AWS賬戶269
14.1.1 啓動虛擬機270
14.1.2 啓動Rstudio272
14.2 小結274
附錄A R語言基礎275
精通機器學習:基於R(第2版) epub pdf mobi txt 電子書 下載 2025
精通機器學習:基於R(第2版) 下載 epub mobi pdf txt 電子書