編輯推薦
★ 數據科學流程概覽,並通過Julia實現一個示例,說明瞭其中的關鍵點。
★ Julia IDE的選擇。
★ 程序結構與函數。
★ 數據工程中的任務,如數據導入、數據清理、數據格式化和數據存儲,以及如何執行數據預處理。
★ 數據可視化,以及一些簡單但非常強大的用來進行數據探索的方法。
★ 數據降維和特徵評價。
★ 各種機器學習方法,從非監督式學習(不同類型的聚類方法)到監督式學習(決策樹、隨機森林、
基礎神經網絡、迴歸樹和極限學習機)。
★ 圖分析,包括找齣不同實體之間的聯係以及如何對其進行挖掘以獲取有用的知識。
本書主要內容包括:
本書的目標是教你如何使用Julia語言來應對現實世界中數據科學的艱巨挑戰。在介紹瞭Julia對於數據科學社區的重要性和若乾數據科學基本準則之後,本書講解瞭Julia基礎知識,包括如何安裝Julia及其功能強大的程序庫。本書通過豐富的示例展示瞭如何使用Julia命令、數據集和函數。
本書介紹並描述瞭專用的腳本和軟件包。針對在數據科學流程中經常會遇到的問題,本書提供瞭有代錶性的實用示例,並引導你通過Julia使用公開的數據集來解決這些問題。在很多情況下,使用現成的軟件包和內置函數就可以完成任務。
本書每一章都包括一些思考題和練習,來幫助你加強學習效果,指導你使用Julia從頭開始創建一個數據科學應用。
內容簡介
數據科學通過各種統計學和機器學習的技術與方法,將數據轉換為有用的信息或知識。Julia是一種在數據科學領域逐漸流行起來的語言。
《Julia數據科學應用》會提齣一係列在數據科學流程中常見的、有代錶性的實際問題,並指導讀者使用Julia去解決這些問題。全書共13章,涵蓋瞭Julia基礎知識、工作環境搭建、語言基礎和高 級內容、數據科學應用、數據可視化、機器學習方法(包括無監督式學習方法和監督式學習方法)、圖分析方法等重要的話題。附錄部分給齣瞭學習和使用Julia的一些有用的參考資料,還給齣瞭各章的思考題的答案。
本書適閤對數據科學的知識和應用方法感興趣的讀者閱讀,特彆適閤有誌於學習Julia並從事數據科學相關工作的人員學習參考。
作者簡介
Zacharias Voulgaris博士齣生於希臘雅典。他就讀於剋裏特理工大學生産工程與管理專業,後轉而學習計算機科學,在倫敦城市大學獲得瞭信息係統與技術的碩士學位,此後,又研究數據科學,在倫敦大學獲得瞭機器學習博士學位。他曾經在佐治亞理工大學工作並任研究員,他還擔任過SEO經理、數據科學傢,還做過Microsoft公司的程序經理,負責Bing的數據分析流程。除瞭數據科學,他對新技術、文學和音樂抱有濃厚的興趣。
目錄
第 1章 Julia簡介 1
1.1 Julia如何提高數據科學水平 2
1.1.1 數據科學工作流程 3
1.1.2 Julia被數據科學社區接受的過程 5
1.2 Julia 擴展 6
1.2.1 包的質量 6
1.2.2 找到新的包 6
1.3 關於本書 7
第 2章 建立數據科學工作環境 9
2.1 Julia IDE 9
2.1.1 Juno 10
2.1.2 IJulia 11
2.1.3 其他IDE 12
2.2 Julia擴展包 13
2.2.1 找到並選擇擴展包 13
2.2.2 安裝擴展包 14
2.2.3 使用擴展包 15
2.2.4 破解擴展包 16
2.3 IJulia基礎 16
2.3.1 文件處理 16
2.3.2 在.jl文件中組織代碼 19
2.3.3 引用代碼 20
2.3.4 工作目錄 20
2.4 要使用的數據集 21
2.4.1 數據集描述 21
2.4.2 下載數據集 23
2.4.3 加載數據集 24
2.5 在Julia中實現一個簡單的機器學習算法 25
2.5.1 算法描述 26
2.5.2 算法實現 27
2.5.3 算法測試 30
2.6 將工作區保存到數據文件 32
2.6.1 將數據保存為分隔值文件 32
2.6.2 將數據保存為Julia數據文件 33
2.6.3 將數據保存為文本文件 35
2.7 幫助 36
2.8 小結 36
2.9 思考題 37
第3章 Julia入門 39
3.1 數據類型 39
3.2 數組 42
3.2.1 數組基礎 42
3.2.2 在數組中引用多個元素 43
3.2.3 多維數組 44
3.3 字典 44
3.4 基本命令與函數 45
3.4.1 print()和println() 46
3.4.2 typemax()和typemin() 46
3.4.3 collect() 47
3.4.4 show() 47
3.4.5 linspace() 48
3.5 數學函數 48
3.5.1 round() 48
3.5.2 rand()和randn() 49
3.5.3 sum() 52
3.5.4 mean() 53
3.6 數組與字典函數 53
3.6.1 in 53
3.6.2 append!() 54
3.6.3 pop!() 54
3.6.4 push!() 55
3.6.5 splice!() 55
3.6.6 insert!() 56
3.6.7 sort()和sort!() 57
3.6.8 get() 57
3.6.9 keys()和values() 58
3.6.10 length()和size() 58
3.7 其他函數 59
3.7.1 time() 59
3.7.2 條件語句 59
3.7.3 string() 61
3.7.4 map() 62
3.7.5 versioin() 62
3.8 運算符、循環語句與條件語句 62
3.8.1 運算符 63
3.8.2 循環語句 64
3.8.3 break命令 66
3.9 小結 66
3.10 思考題 67
第4章 Julia進階 68
4.1 字符串處理 68
4.1.1 split() 69
4.1.2 join() 70
4.1.3 正則錶達式函數 70
4.2 定製函數 74
4.2.1 函數結構 74
4.2.2 匿名函數 75
4.2.3 多分派 75
4.2.4 函數示例 76
4.3 實現簡單算法 77
4.4 創建完整解決方案 79
4.5 小結 83
4.6 思考題 84
第5章 Julia數據科學應用概述 85
5.1 數據科學工作流程 85
5.2 數據工程 88
5.2.1 數據準備 88
5.2.2 數據探索 90
5.2.3 數據錶示 92
5.3 數據建模 93
5.3.1 數據發現 93
5.3.2 數據學習 94
5.4 信息萃取 96
5.4.1 數據産品創建 96
5.4.2 知識、交付物與可視化産品 97
5.5 保持開放型思維 99
5.6 在實際問題中應用數據科學流程 99
5.6.1 數據準備 99
5.6.2 數據探索 100
5.6.3 數據錶示 101
5.6.4 數據發現 101
5.6.5 數據學習 102
5.6.6 數據産品創建 102
5.6.7 知識、交付物和可視化産品 103
5.7 小結 103
5.8 思考題 105
第6章 Julia數據工程 106
6.1 數據框 106
6.1.1 創建並填充數據框 107
6.1.2 數據框基礎 108
6.1.3 引用數據框中的特定變量 109
6.1.4 探索數據框 109
6.1.5 篩選數據框 110
6.1.6 在數據框變量上應用函數 111
6.1.7 使用數據框進行工作 111
6.1.8 修改數據框 113
6.1.9 對數據框的內容進行排序 113
6.1.10 數據框的一些補充建議 114
6.2 導入與導齣數據 115
6.2.1 使用.json數據文件 115
6.2.2 保存數據到.json文件 115
6.2.3 將數據文件加載到數據框 116
6.2.4 保存數據框到數據文件 116
6.3 數據清洗 117
6.3.1 數值型數據的清洗 117
6.3.2 文本型數據的清洗 118
6.4 數據格式化與轉換 119
6.4.1 數值型數據的格式化 119
6.4.2 文本數據的格式化 119
6.4.3 數據類型的重要性 120
6.5 對數值型數據進行轉換 120
6.5.1 標準化 121
6.5.2 離散化(分箱)與二值化 122
6.5.3 二值變量轉換為連續型變量(僅對於二值分類問題) 123
6.5.4 文本數據轉換 124
6.5.5 大小寫標準化 124
6.5.6 嚮量化 124
6.6 初步的特徵評價 126
6.6.1 迴歸 126
6.6.2 分類 126
6.6.3 特徵評價補充說明 127
6.7 小結 128
6.8 思考題 129
第7章 探索數據集 130
7.1 傾聽數據 130
本章要使用的擴展包 131
7.2 計算基本統計量和相關性 131
7.2.1 變量概要 133
7.2.2 變量之間的相關性 134
7.2.3 兩個變量之間的可比性 136
7.3 繪製統計圖 136
7.3.1 圖形語法 137
7.3.2 為可視化準備數據 137
7.3.3 箱綫圖 138
7.3.4 條形圖 138
7.3.5 摺綫圖 139
7.3.6 散點圖 140
7.3.7 直方圖 143
7.3.8 導齣統計圖到文件 144
7.4 假設檢驗 145
7.4.1 檢驗的基礎知識 145
7.4.2 錯誤類型 146
7.4.3 靈敏度與特異度 146
7.4.4 顯著性水平與檢驗力 146
7.4.5 KRUSKAL-WALLIS檢驗 147
7.4.6 T-檢驗 147
7.4.7 卡方檢驗 149
7.5 其他檢驗 151
7.6 統計檢驗附加說明 151
7.7 案例研究:探索OnlineNewsPopularity數據集 151
7.7.1 變量統計 152
7.7.2 可視化 153
7.7.3 假設 154
7.7.4 奇妙的T-SNE方法 155
7.7.5 結論 156
7.8 小結 156
7.9 思考題 159
第8章 構建數據空間 160
8.1 主成分分析 161
8.1.1 在Julia中使用PCA 162
8.1.2 獨立成分分析:主成分分析的常用替代方法 164
8.2 特徵評價與選擇 165
8.2.1 方法論概述 165
8.2.2 在Julia中使用餘弦相似度進行特徵評價與選擇 166
8.2.3 在Julia中使用DID進行特徵評價與選擇 168
8.2.4 特徵評價與選擇方法的優缺點 170
8.3 其他數據降維技術 170
8.3.1 其他降維方法概述 171
8.3.2 何時使用高 級降維方法 172
8.4 小結 172
8.5 思考題 173
第9章 數據抽樣與結果評價 175
9.1 抽樣技術 175
9.1.1 基本抽樣 176
9.1.2 分層抽樣 176
9.2 分類問題的性能指標 177
9.2.1 混淆矩陣 177
9.2.2 準確度 178
9.2.3 精 確度與召迴度 180
9.2.4 F1指標 181
9.2.5 誤判成本 181
9.2.6 受試者工作特徵(ROC)麯綫及相關指標 182
9.3 迴歸問題的性能指標 185
9.3.1 MSE及其變種RMSE 186
9.3.2 SSE 187
9.3.3 其他指標 187
9.4 K摺交叉驗證(KFCV) 188
9.4.1 在Julia中應用KFCV 189
9.4.2 KFCV小提示 189
9.5 小結 190
9.6 思考題 192
第 10章 無監督式機器學習 193
10.1 無監督式學習基礎知識 193
10.1.1 聚類的類型 194
10.1.2 距離的度量 195
10.2 使用K-均值算法分組數據 196
10.2.1 使用Julia實現K-均值聚類 197
10.2.2 對K-均值算法的使用建議 198
10.3 密度和DBSCAN算法 199
10.3.1 DBSCAN算法 199
10.3.2 在Julia中應用DBSCAN 200
10.4 層次聚類 201
10.4.1 在Julia中使用層次聚類 201
10.4.2 何時使用層次聚類 203
10.5 聚類的驗證方式 203
10.5.1 Silhouettes 203
10.5.2 關於聚類驗證的一些建議 204
10.6 關於有效進行聚類的一些建議 204
10.6.1 處理高維數據 205
10.6.2 標準化 205
10.6.3 可視化建議 205
10.7 小結 206
10.8 思考題 207
第 11章 監督式機器學習 209
11.1 決策樹 210
11.1.1 在Julia中使用決策樹 211
11.1.2 關於決策樹的一些建議 214
11.2 迴歸樹 214
11.2.1 在Julia中實現迴歸樹 215
11.2.2 關於迴歸樹的一些建議 216
11.3 隨機森林 216
11.3.1 在Julia中使用隨機森林進行分類 216
11.3.2 在Julia中使用隨機森林進行迴歸 218
11.3.3 關於隨機森林的一些建議 219
11.4 基本神經網絡 220
11.4.1 在Julia中使用神經網絡 221
11.4.2 關於神經網絡的一些建議 223
11.5 極限學習機 224
11.5.1 在Julia中使用ELM 224
11.5.2 關於ELM的一些建議 226
11.6 用於迴歸分析的統計模型 227
11.6.1 在Julia中使用統計迴歸 227
11.6.2 關於統計迴歸的一些建議 230
11.7 其他監督式學習係統 230
11.7.1 提升樹 230
11.7.2 支持嚮量機 230
11.7.3 直推式係統 231
11.7.4 深度學習係統 232
11.7.5 貝葉斯網絡 232
11.8 小結 233
11.9 本章思考題 235
第 12章 圖分析 236
12.1 圖的重要性 237
12.2 定製數據集 239
12.3 圖的統計量 240
12.4 環的檢測 242
用Julia檢測環 243
12.5 連通子圖 244
12.6 團 245
12.7 圖的路徑 246
12.8 生成樹 248
12.8.1 在Julia中實現MST 249
12.8.2 用文件保存和加載圖 250
12.9 Julia在圖分析中的作用 251
12.10 小結 252
12.11 思考題 254
第 13章 更上一層樓 255
13.1 Julia社區 255
13.1.1 與其他Julia用戶進行交流 255
13.1.2 代碼庫 256
13.1.3 視頻文件 256
13.1.4 新聞 257
13.2 學以緻用 257
13.2.1 從這些特徵開始 258
13.2.2 關於這個項目的一些思考 259
13.3 在數據科學中使用Julia的思考 260
13.3.1 不斷提高Julia編程水平 260
13.3.2 貢獻Julia項目 261
13.3.3 Julia在數據科學中的未來 262
附錄A 下載安裝Julia與IJulia 264
附錄B 與Julia相關的一些常用站點 266
附錄C 本書所用的擴展包 268
附錄D Julia與其他平颱的集成 269
D.1 Julia與R的集成 269
D.1.1 在R中運行Julia腳本 269
D.1.2 在Julia中運行R腳本 270
D.2 Julia與Python的集成 270
D.2.1 在Python中運行Julia腳本 270
D.2.2 在Julia中運行Python腳本 271
附錄E Julia中的並行處理 272
附錄F 各章思考題答案 275
Julia數據科學應用 epub pdf mobi txt 電子書 下載 2024
Julia數據科學應用 下載 epub mobi pdf txt 電子書