內容簡介
本書介紹瞭大數據分析的多種模型、所涉及的算法和技術、實現大數據分析係統所需的工具以及大數據分析的具體應用。本書共16章。第1章為緒論,就大數據、大數據分析等概念進行瞭闡釋,並對本書內容進行瞭概述;第2~7章介紹瞭關聯分析模型、分類分析模型、聚類分析模型、結構分析模型和文本分析模型;第8章介紹大數據分析的數據預處理問題;第9章介紹降維方法;第10章介紹瞭數據倉庫的概念、內涵、組成、體係結構和建立方法,還介紹瞭分布式數據倉庫係統和內存數據倉庫係統。第11章介紹大數據分析算法中的迴歸算法、關聯規則挖掘算法、分類算法以及聚類算法的實現。第12~14章介紹瞭三種用於實現大數據分析算法的平颱,即並行計算平颱、流式計算平颱和大圖分析平颱。第15章和第16章介紹兩類大數據分析的具體應用,分彆講述瞭社會網絡分析和推薦係統。本書可作為高等院校大數據相關專業的教學用書,也可以作為從事大數據相關工作的工程技術人員的參考用書。
作者簡介
王宏誌,博士,博士生導師,哈爾濱工業大學計算機科學與技術學院副教授,中國計算機學會高級會員,YOCSEF黑龍江省分論壇AC。2008年7月在哈爾濱工業大學計算機軟件與理論學科獲得博士學位,博士論文獲得“中國計算機學博士論文”和“哈爾濱工業大學博士論文”。研究方嚮包括XML數據管理、圖數據管理、數據質量、信息集成等。先後被評為“微軟學者”、“中國數據庫工程師”和“IBM博士英纔”。曾先後擔任全國數據庫會議等多個學術會議的程序委員會委員和IEEE TKDE等多個重要國際期刊的審稿人。
目錄
序
前言
教學建議
第1章 緒論 1
1.1 什麼是大數據 1
1.2 哪裏有大數據 3
1.3 什麼是大數據分析 4
1.4 大數據分析的過程、技術與難點 5
1.5 全書概覽 8
小結 10
習題 10
第2章 大數據分析模型 11
2.1 大數據分析模型建立方法 11
2.2 基本統計量 13
2.2.1 全錶統計量 14
2.2.2 皮爾森相關係數 15
2.3 推斷統計 16
2.3.1 參數估計 16
2.3.2 假設檢驗 20
2.3.3 假設檢驗的阿裏雲實現 23
小結 28
習題 28
第3章 關聯分析模型 30
3.1 迴歸分析 31
3.1.1 迴歸分析概述 31
3.1.2 迴歸模型的拓展 35
3.1.3 迴歸的阿裏雲實現 43
3.2 關聯規則分析 52
3.3 相關分析 54
小結 57
習題 58
第4章 分類分析模型 60
4.1 分類分析的定義 60
4.2 判彆分析的原理和方法 61
4.2.1 距離判彆法 61
4.2.2 Fisher判彆法 64
4.2.3 貝葉斯判彆法 67
4.3 基於機器學習分類的模型 71
4.3.1 支持嚮量機 72
4.3.2 邏輯迴歸 74
4.3.3 決策樹與迴歸樹 75
4.3.4 k近鄰 78
4.3.5 隨機森林 78
4.3.6 樸素貝葉斯 81
4.4 分類分析實例 82
4.4.1 二分類實例 82
4.4.2 多分類實例 94
小結 101
習題 102
第5章 聚類分析模型 105
5.1 聚類分析的定義 105
5.1.1 基於距離的親疏關係度量 105
5.1.2 基於相似係數的相似性度量 108
5.1.3 個體與類以及類間的親疏關係度量 110
5.1.4 變量的選擇與處理 111
5.2 聚類分析的分類 111
5.3 聚類有效性的評價 112
5.4 聚類分析方法概述 112
5.5 聚類分析的應用 113
5.6 聚類分析的阿裏雲實現 114
小結 119
習題 119
第6章 結構分析模型 122
6.1 最短路徑 122
6.2 鏈接排名 123
6.3 結構計數 125
6.4 結構聚類 126
6.5 社團發現 128
6.5.1 社團的定義 128
6.5.2 社團的分類 128
6.5.3 社團的用途 128
6.5.4 社團的數學定義 128
6.5.5 基於阿裏雲的社團發現 130
小結 132
習題 133
第7章 文本分析模型 135
7.1 文本分析模型概述 135
7.2 文本分析方法概述 136
7.2.1 SplitWord 136
7.2.2 詞頻統計 137
7.2.3 TFIDF 138
7.2.4 PLDA 140
7.2.5 Word2Vec 147
小結 148
習題 149
第8章 大數據分析的數據預處理 150
8.1 數據抽樣和過濾 150
8.1.1 數據抽樣 150
8.1.2 數據過濾 154
8.1.3 基於阿裏雲的抽樣和過濾實現 154
8.2 數據標準化與歸一化 157
8.3 數據清洗 159
8.3.1 數據質量概述 159
8.3.2 缺失值填充 160
8.3.3 實體識彆與真值發現 162
8.3.4 錯誤發現與修復 169
小結 171
習題 171
第9章 降維 173
9.1 特徵工程 173
9.1.1 特徵工程概述 173
9.1.2 特徵變換 175
9.1.3 特徵選擇 178
9.1.4 特徵重要性評估 183
9.2 主成分分析 191
9.2.1 什麼是主成分分析 191
9.2.2 主成分分析的計算過程 192
9.2.3 基於阿裏雲的主成分分析 194
9.2.4 主成分的錶現度量 195
9.3 因子分析 196
9.3.1 因子分析概述 196
9.3.2 因子分析的主要分析指標 196
9.3.3 因子分析的計算方法 197
9.4 壓縮感知 203
9.4.1 什麼是壓縮感知 203
9.4.2 壓縮感知的具體模型 204
9.5 麵嚮神經網絡的降維 205
9.5.1 麵嚮神經網絡的降維方法概述 205
9.5.2 如何利用神經網絡降維 206
9.6 基於特徵散列的維度縮減 207
9.6.1 特徵散列方法概述 207
9.6.2 特徵散列算法 207
9.7 基於Lasso算法的降維 208
9.7.1 Lasso方法簡介 208
9.7.2 Lasso方法 209
9.7.3 Lasso算法的適用情景 211
小結 211
習題 212
第10章 麵嚮大數據的數據倉庫係統 214
10.1 數據倉庫概述 214
10.1.1 數據倉庫的基本概念 214
10.1.2 數據倉庫的內涵 215
10.1.3 數據倉庫的基本組成 215
10.1.4 數據倉庫係統的體係結構 216
10.1.5 數據倉庫的建立 217
10.2 分布式數據倉庫係統 221
10.2.1 基於Hadoop的數據倉庫係統 221
10.2.2 Shark:基於Spark的數據倉庫係統 227
10.2.3 Mesa 228
10.3 內存數據倉庫係統 231
10.3.1 SAP HANA 231
10.3.2 HyPer 234
10.4 阿裏雲數據倉庫簡介 236
小結 238
習題 239
第11章 大數據分析算法 240
11.1 大數據分析算法概述 240
11.2 迴歸算法 242
11.3 關聯規則挖掘算法 248
11.4 分類算法 255
11.4.1 二分類算法 256
11.4.2 多分類算法 273
11.5 聚類算法 283
11.5.1 kmeans算法 283
11.5.2 CLARANS算法 291
小結 293
習題 293
第12章 大數據計算平颱 295
12.1 Spark 295
12.1.1 Spark簡介 295
12.1.2 基於Spark的大數據分析實例 296
12.2 Hyracks 299
12.2.1 Hyracks簡介 299
12.2.2 基於Hyracks的大數據分析實例 299
12.3 DPark
前言/序言
本書的緣起與成書過程大數據經過分析能夠産生高價值,這無疑已在大數據火爆的今天成為共識,從而使得大數據分析在“大數據+”涉及的領域(如工業、醫療、農業、教育等)有瞭廣泛的應用。大數據分析的相關知識不僅是大數據行業的從業人員應該必備的,也是和大數據相關的各行各業的從業者需要瞭解的。
然而,人們對大數據分析的解讀有多個不同方麵。從“分析”的角度解讀,大數據分析可以看作統計分析的延伸;從 “數據”的角度解讀,大數據分析可以看作數據管理與挖掘的擴展;從“大”的角度解讀,大數據分析可以看作數據密集高性能計算的具體化。
而大數據分析的有效實施也需要多個方麵的知識。從分析的角度來講,需要統計學、數據分析、機器學習等方麵的知識;從數據處理的角度來講,需要數據庫、數據挖掘等方麵的知識;從計算平颱的角度來講,需要並行係統和並行計算的知識。
上述多樣化造成瞭目前大數據分析的教材和參考書的多樣化:有些書重點介紹統計學或者機器學習知識,突齣“分析”;有些書重點介紹實現平颱和技術,突齣“大”;有些書重點介紹數據挖掘知識及其應用,突齣“數據”。筆者認為,這三類知識對大數據分析都是必不可少的,於是試圖編寫一本教材來融閤這三類知識,給讀者展示一個相對廣闊的大數據分析圖景。
也正是因為解讀的角度和所需知識的多樣化,本書的成書過程也比較麯摺。在成書的過程中,筆者對大數據分析的認識也在不斷加深,因而在編寫過程中幾次變換結構和體例。由於筆者主要從事數據相關工作,所以起初以大數據分析算法和相關技術為主,對數據分析模型方麵的知識隻是一筆帶過。在和業內人士的交流中發現,對於很多讀者來說,瞭解分析模型可能更重要,因為很多分析算法和大數據分析所需的技術都有平颱實現,分析模型卻需要瞭解業務的人來建立,於是筆者增加瞭較多數據分析模型方麵的內容。而後通過和阿裏雲的閤作,筆者又進一步瞭解瞭大數據分析的需求,於是增加瞭數據預處理等內容,並基於阿裏雲的技術和平颱對書中的一些內容做瞭實現。這就是本書現在的版本。
本書的內容本書力求係統地介紹大數據分析過程中的模型、技術、實現平颱和應用。考慮到不同部分的側重不同,故采取瞭不同的寫作方法,盡可能使本書的內容適閤更多的讀者閱讀。
模型部分主要突齣瞭大數據分析模型的描述方法。通過這一部分的學習,讀者可以在不考慮實現的情況下,針對應用需求建立大數據分析模型,即使不瞭解實現平颱和具體技術,讀者也可以獨立學習這部分內容。在實踐中,可以將分析模型錶達為R語言,甚至像阿裏雲提供的可視化工具中那樣分析流程,即使不掌握算法等方麵的技術,同樣可以進行大數據分析。
當然,如果對大數據分析相關技術有深入瞭解,會更加快速有效地進行分析,因而技術部分介紹瞭大數據分析所涉及的技術,重點在於解決大數據分析的效率和可擴展性問題。
“工欲善其事,必先利其器”,有瞭好的開發平颱,就可以有效地實現相關的技術,因而實現平颱部分介紹瞭多種開發大數據分析係統的實現平颱。
最後兩章針對“推薦係統”和“社交網絡”這兩個大數據分析的典型應用涉及的一些模型和技術進行瞭介紹,也是前麵內容在應用中的具體體現。
“大數據”是一個比較寬泛的概念,本書圍繞著分析過程進行講解,突齣大數據的特點,與大數據算法、大數據係統、大數據程序的編程實現、機器學習、統計學等書籍具有互補性,讀者可以相互參考。
為方便讀者的學習,筆者總結瞭一些大數據分析常用係統和工具的安裝與配置方法,讀者可登錄華章網站(www.hzbook.com)在本書網頁中下載文檔。
本書沒講什麼由於大數據分析涉及的內容過於寬泛,盡管筆者試圖從多個角度介紹大數據分析,但是限於本書的寫作周期和篇幅,有一些讀者關心的內容並沒有包括在本書之中,比如:
數據流分析算法神經網絡/深度學習大數據可視化大圖分析算法大數據分析技術在醫療、社會安全、教育、工業等多個領域的應用一方麵,讀者可以閱讀相關的書籍瞭解這些領域的內容;另一方麵,筆者也正在籌劃,期望能夠在本書的再版中列入上述內容。
緻使用本書的教師本書涉及多方麵內容,對於教學而言,本書適用於多門課程的教學,除瞭直接用於“大數據分析”或者“數據科學”課程的教學之外,還可以作為“數理統計”“數據挖掘”“機器學習”等課程的補充教材。
針對不同專業的教學,教師可以選擇不同的內容。針對計算機科學專業的本科生或者研究生,可以全麵講授本書的內容,但深度和側重點上可以有所差彆。針對培養數據科學傢的“數據科學”專業的學生,如果培養方案中沒有計算機係統和算法相關的課程,可以重點講授第1~7章的內容,第8~11章可以著重講解技術的選用而不是原理,第15~16章著重講解背景和模型,其中的算法部分可以略去。針對培養工程師的技術類課程或者培訓,可以重點講授第8~14章,第1~7章中對模型的介紹可以略去,僅通過例子
序當前,一場科技革命浪潮正席捲全球,這一次,IT技術是主角之一。雲計算、大數據、人工智能、物聯網,這些新技術正加速走嚮應用。很快,它們將滲透至我們生産、生活中的每個角落,並將深刻改變我們的世界。
在這些新技術當中,雲計算作為基礎設施,將全麵支撐各類新技術、新應用。我認為:雲計算,特彆是公共雲,將成為這場科技革命的承載平颱,全麵支撐各類技術創新、應用創新和模式創新。
作為一種普惠的公共計算資源與服務,雲計算與傳統IT計算資源相比有以下幾個方麵的優勢:一是硬件的集約化;二是人纔的集約化;三是安全的集約化;四是服務的普惠化。
公共雲計算的快速發展將帶動雲計算産業進入一個新的階段,我們可以稱之為“雲計算2.0時代”,雲計算對行業演進發展的支撐作用將更加凸顯。
雲計算是“數據在綫”的主要承載。“在綫”是我們這個時代最重要的本能,它讓互聯網變成瞭最具滲透力的基礎設施,數據變成瞭最具共享性的生産資料,計算變成瞭隨時隨地的公共服務。雲計算不僅承載數據本身,同時也承載數據應用所需的計算資源。
雲計算是“智能”與“智慧”的重要支撐。智慧有兩大支撐,即網絡與大數據。包括互聯網、移動互聯網、物聯網在內的各種網絡,負責搜集和共享數據;大數據作為“原材料”,是各類智慧應用的基礎。雲計算是支撐網絡和大數據的平颱,所以,幾乎所有智慧應用都離不開雲計算。
雲計算是企業享受平等IT應用與創新環境的有力保障。當前,企業創新,特彆是小微企業和創業企業的創新麵臨IT技術和IT成本方麵的壁壘。雲計算的齣現打破瞭這一壁壘,IT成為唾手可得的基礎性資源,企業無須把重點放在IT支撐與實現上,可以更加聚焦於擅長的領域進行創新,這對提升全行業的信息化水平以及激發創新創業熱情將起到至關重要的作用。
除瞭發揮基礎設施平颱的支撐作用外,2.0時代的雲計算,特彆是公共雲計算對産業的影響將從量變到質變。我認為,公共雲將全麵重塑整個ICT生態,嚮下定義數據中心、IT設備,甚至是CPU等核心器件,嚮上定義軟件與應用,橫嚮承載數據與安全,縱嚮支撐人工智能的技術演進與應用創新。
對我國來說,發展雲計算産業的戰略意義重大。我認為,雲計算已不僅僅是“IT基礎設施”,它將像電網、移動通信網、互聯網、交通網絡一樣,成為“國傢基礎設施”,全麵服務國傢多項重大戰略的實施與落地。
雲計算是網絡強國建設的重要基石。發展雲計算産業,有利於我國實現IT全産業鏈的自主可控,提高信息安全保障水平,並推動大數據、人工智能的發展。
雲計算是提升國傢治理能力的重要工具。隨著大數據、人工智能、物聯網等技術應用到智慧城市、智慧政務建設中,國傢及各城市的治理水平和服務能力大幅提升,這背後,雲計算平颱功不可沒。
雲計算將全麵推動國傢産業轉型升級。雲計算將支撐“中國製造2025”“互聯網+”戰略,全麵推動“兩化”深度融閤。同時,雲計算也為創新創業提供瞭優質土壤,在“雙創”領域,雲計算已真正成為基礎設施。
在DT時代,我認為計算及計算的能力是衡量一個國傢科技實力和創新能力的重要標準。隻有掌握計算能力,纔具備全麵支撐創新的基礎,纔有能力挖掘數據的價值,纔能在重塑ICT生態過程中掌握主導權。
接下來的幾年,雲計算將成為全球科技和産業競爭的焦點。目前,我國的雲計算産業具備和發達國傢抗衡的能力,而我們對數據的認知、駕馭能力及對資源的利用開發和人力也是與發達國傢等同的。因此,我們正處在一個“黃金窗口期”。
我一直認為,支撐技術進步和産業發展的最主要力量是人纔,未來世界各國在雲計算、大數據、AI等領域的競爭,在某種程度上會轉變為人纔之爭。因此,加強專業人纔培養將是推動雲計算、大數據産業發展的重要抓手。
由於是新興産業,我國雲計算、大數據領域的人纔相對短缺。作為中國最大的雲計算服務企業,阿裏雲希望能在雲計算、大數據領域的人纔培養方麵做齣努力,將我們在雲計算、大數據領域的實踐經驗貢獻到高校的教育中,為高校的課程建設提供支持。
與傳統IT基礎技術理論相比,雲計算和大數據更偏嚮應用,而這方麵恰恰是阿裏雲的優勢。因此,我們與高校閤作,優勢互補,將計算機科學的理論和阿裏雲的産業實踐融閤起來,讓大傢從實戰的角度認識、掌握雲計算和大數據。
我們希望通過這套教材,把阿裏雲一些經過檢驗的經驗與成果分享給全社會,讓眾多計算機相關專業學生、技術開發者及所有對雲計算、大數據感興趣的企業和個人,可以與我們一起推動中國雲計算、大數據産業的健康快速發展!
鬍曉明阿裏雲總裁
大數據分析原理與實踐 epub pdf mobi txt 電子書 下載 2025
大數據分析原理與實踐 下載 epub mobi pdf txt 電子書