編輯推薦
適讀人群 :大數據應用開發人員、運維工程師和開源軟件愛好者 Spark是一個高效的分布式計算係統,相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上層的API,同樣的算法在Spark中實現往往隻有Hadoop的1/10或者1/100的長度。
Spark較大的集群來自騰訊——8000個節點,而單個較大的Job分彆是阿裏巴巴和Databricks——1PB,震撼人心!同時,截止2015年6月,Spark的Contributor比2014年漲瞭3倍,達到730人;總代碼行數也比2014年漲瞭2倍多,達到40萬行。
本書是國內(包括Github社區)較新的基於Spark1.4版本的技術書籍,涵蓋Spark技術的環境搭建、RDD實操應用、內部機製、調優和企業應用等內容,具體如下。
1)基於IntelliJIDEA的運行、開發和編譯環境的詳細搭建過程。
2)詳細介紹Spark技術基礎概念和應用實踐。
3)基於Spark1.4官方文檔對Spark四大應用框架進行解讀。
4)基於源碼深入剖析Spark的資源調度、任務調度和shuffle過程。
5)深入解讀近兩年Spark峰會和國內企業分享的典型應用案例。
本書的編寫係統完整,力爭以通俗易懂的語言全方位精細解讀Spark技術,本書主要針對大數據技術初學者,包括但不限於大學生、研究生和工程師。此外,Spark應用開發人員、運維工程師和開源軟件愛好者也可以將本書作為參考用書。
本書共分為概念、開發、機製和應用四篇,概念篇介紹Spark的背景概念和環境配置方法,開發篇介紹瞭Spark核心開發、四大應用框架和調優策略,機製篇則對Spark的RDD、調度和shuffle等機製進行解讀,應用篇針對Spark在業界的典型應用進行闡述。
內容簡介
本書是一本以Spark1.4為基礎,詳細介紹瞭Spark技術的概況、內部機製和企業界的應用情況。作者結閤國內外眾多資料和項目經驗,力求深入淺齣地講解Spark技術的生態應用和發展狀況,此外還選取瞭SparkSummit中的典型案例進行解析,為讀者全麵展現Spark技術在企業界的應用情況。本書適閤Spark技術初學者、Spark技術愛好者、Spark運維工程師和開源軟件愛好者,也可以作為相關培訓學校和大專院校相關專業的教學用書。
作者簡介
劉馳,博士,現任北京理工大學軟件學院教授,軟件服務工程係係主任。入選“北京理工大學傑齣中青年支持與發展計劃”。主持瞭國傢自然科學基金、工信部電子商務集成試點工程等多項國傢省部級重點項目。分彆於清華大學和英國帝國理工學院獲得學士和博士學位,後曆任德國電信研究院(柏林)博士後研究員、美國IBMTJWatson研究中心研究員和IBM中國研究院研究主管。研究方嚮為:物聯網、雲計算和大數據技術。
目錄
前言
第一篇 概 念 篇
第1章 Spark概述2
1.1 Spark初見2
1.1.1 Spark的發展史及近況2
1.1.2 Spark的特點5
1.1.3 Spark的作用6
1.1.4 Spark的體係結構6
1.1.5 Spark的發展趨勢6
1.2 Spark框架7
1.2.1 批處理框架7
1.2.2 流處理框架8
1.3 Spark的生態係統8
1.4 Spark的數據存儲11
1.5 本章小結11
第2章 Spark環境配置12
2.1 Spark運行環境配置12
2.1.1 先決條件12
2.1.2 下載與運行 Spark13
2.1.3 使用交互式 Shell14
2.1.4 搭建Spark Standalone集群16
2.2 Spark開發環境配置18
2.2.1 Spark獨立應用程序18
2.2.2 構建IDE開發環境24
2.3 Spark編譯環境配置29
2.3.1 使用Maven編譯項目源碼30
2.3.2 使用IDEA搭建源碼編譯與
閱讀環境31
2.4 本章小結35
第二篇 開 發 篇
第3章 Spark核心開發37
3.1 Spark編程模型概述37
3.2 SparkContext38
3.2.1 SparkContext的作用38
3.2.2 SparkContext的創建38
3.2.3 使用Shell41
3.2.4 應用實踐41
3.3 RDD簡介42
3.3.1 RDD創建42
3.3.2 RDD轉換操作43
3.3.3 RDD動作操作44
3.3.4 RDD惰性計算44
3.3.5 RDD持久化44
3.3.6 RDD檢查點45
3.4 共享變量45
3.4.1 廣播變量45
3.4.2 纍加器46
3.5 Spark核心開發實踐46
3.5.1 單值型Trasnformation算子46
3.5.2 鍵值對型Transformation算子58
3.5.3 Action算子64
3.6 本章小結72
第4章 Spark四大應用技術框架73
4.1 Spark SQL73
4.1.1 Spark SQL入門73
4.1.2 數據源75
4.1.3 性能調優81
4.1.4 分布式SQL引擎82
4.1.5 Shark遷移至Spark SQL指南82
4.1.6 Hive的兼容性83
4.1.7 Spark SQL數據類型85
4.2 Spark Streaming86
4.2.1 Spark Streaming簡介87
4.2.2 入門實例87
4.2.3 基本概念89
4.3 Spark GraphX97
4.3.1 Spark GraphX簡介97
4.3.2 屬性圖98
4.3.3 圖操作100
4.3.4 Pregel API108
4.3.5 圖構造器110
4.3.6 頂點與邊相關RDD111
4.3.7 最優化錶示113
4.3.8 圖算法114
4.3.9 Example116
4.4 Spark MLlib116
4.4.1 Spark MLlib簡介116
4.4.2 數據類型117
4.4.3 基本統計分析121
4.4.4 分類與迴歸123
4.4.5 協同過濾136
4.4.6 聚類138
4.4.7 降維139
4.4.8 特徵提取與轉換141
4.4.9 頻繁模式挖掘146
4.4.10 最優化算法147
4.4.11 導齣PMML模式149
4.5 SparkR150
4.5.1 SparkR DataFrame150
4.5.2 DataFrame的相關操作152
4.5.3 從SparkR運行SQL查詢153
第5章 Spark係統配置與調優154
5.1 Spark運行監控154
5.2 Spark配置參數158
5.2.1 應用屬性159
5.2.2 運行環境屬性159
5.2.3 Shuffle操作
前言/序言
前言
隨著互聯網與移動終端行業的迅猛發展,企業和個體對數據相關服務需求不斷提升,以ApacheHadoop為代錶的分布式並行計算技術進一步發展,數據由量變而引發的質變正在全球範圍內掀起深刻的技術與商業變革。在産業界,以數據驅動的發展策略也已逐漸被提升到前所未有的高度。在金融、電信、房地産和眾多傳統領域,沉積的數據價值開始被重視,這些公司逐漸在大數據領域加強資金和研發投入。在學術界,國內外越來越多的高校和研究機構在雲計算和大數據領域投入大量的人力研究大數據及其相關技術。不僅如此,我國政府提齣的“中國製造2025”戰略規劃和“互聯網+”的概念也與大數據技術有著密不可分的聯係,這更預示瞭大數據技術未來廣闊的發展前景。
大數據的處理主要依靠分布式並行處理技術。本書主要介紹大數據分析平颱的後起之秀ApacheSpark。相對於人們近年來熟知的ApacheHadoop,ApacheSpark具有基於內存計算、適閤迭代計算並兼容多應用場景的特點,同時它還能兼容Hadoop生態係統中的組件,能吸收Hadoop的優點。經過短短6年的飛躍式發展,Spark已經成為業內頗具發展潛力的大數據分析平颱之一。近兩年召開的SparkSummit峰會,年均參會人數近2000人,業內對Spark的研究熱情進一步提升,Spark的應用領域也在不斷擴展,包括醫療、金融、O2O電商、政府、教育、電信、智慧城市和安全等,且在諸多領域都已經有Spark的成功應用案例。
編者基於國內外的研究和企業項目實踐的經驗,基於截稿時最新的Spark1.4版來介紹Spark技術的應用實踐和最新動嚮,讓讀者更容易地邁上Spark學習之路。
本書是國內(包括Github社區)較新的基於Spark1.4版本的技術書籍,涵蓋Spark技術的環境搭建、RDD實操應用、內部機製、調優和企業應用等內容,具體如下。
1)基於IntelliJIDEA的運行、開發和編譯環境的詳細搭建過程。
2)詳細介紹Spark技術基礎概念和應用實踐。
3)基於Spark1.4官方文檔對Spark四大應用框架進行解讀。
4)基於最新源碼深入剖析Spark的資源調度、任務調度和shuffle過程。
5)深入解讀近兩年Spark峰會和國內企業分享的典型應用案例。
本書的編寫係統完整,力爭以通俗易懂的語言全方位精細解讀Spark技術,本書主要針對大數據技術初學者,包括但不限於大學生、研究生和工程師。此外,Spark應用開發人員、運維工程師和開源軟件愛好者也可以將本書作為參考用書。
本書共分為概念、開發、機製和應用四篇,概念篇介紹Spark的背景概念和環境配置方法,開發篇介紹瞭Spark核心開發、四大應用框架和調優策略,機製篇則對Spark的RDD、調度和shuffle等機製進行解讀,應用篇針對Spark在業界的典型應用進行闡述。
對於初學者,建議先學習Scala語言的基本語法,並從第1章起順序閱讀,搭建好開發環境,邊學邊進行代碼實踐。
對於已經有一定基礎的讀者可以跳過概念篇直接從第3章開始閱讀,學習完第二篇開發篇,即Spark的應用操作後可以通過接著學習第三篇機製篇來加深理解。第四篇比較獨立,在學習完概念篇之後就可以進行學習。
本書由劉馳主編,參與編寫人員有符積高、徐聞春。在本書的編寫過程中,始終本著科學、嚴謹的態度,力求精益求精,但錯誤、疏漏之處在所難免,敬請廣大讀者批評指正。
Spark:原理、機製及應用 epub pdf mobi txt 電子書 下載 2024
Spark:原理、機製及應用 下載 epub mobi pdf txt 電子書