編輯推薦
適讀人群 :本書適閤所有的對廣告分析、大數據、高可用分布式係統感興趣的所有愛好者 資深大數據工程師,立足於企業真實場景,係統梳理和詳盡講解全棧大數據核心技術;
為企業大數據技術選型和大數據平颱構建提供成熟的解決方案,包含大量實用案例
內容簡介
這是一本立足於企業真實的商用項目來講解如何高效從事大數據實踐的著作。技術層麵,從全棧的角度係統梳理和詳盡講解瞭大數據的核心技術,包括Spark、Druid、Flume、Kafka等,讓我們在紛繁復雜的技術中少走彎路;經驗層麵,為企業的大數據技術選型和大數據平颱建設提供瞭成熟的解決方案;實操層麵,提供瞭大量的案例,其中包括2個綜閤性的案例。
全書一共分為三個部分:
第一部分(第1章):主要介紹瞭企業大數據係統的前期準備工作,包括構建企業大數據處理係統需要的軟件環境和集群環境是如何搭建的。
第二部分(第2~7章):依次重點講解瞭Spark的基本原理、使用方法和優化方式;Druid的基本原理、集群的搭建過程,以及相關的各種操作;日誌收集係統Flume的基本架構、關鍵組件,以及分層日誌收集架構的設計與實踐;分布式消息隊列Kafka的基本架構和集群搭建過程,以及使用Java語言實現客戶端API的詳細過程。
第三部分(第8~9章):詳細講解瞭企業大數據處理的兩個實際應用案例,分彆是基於Druid構建多維數據分析平颱和基於JMX指標的監控係統。
作者簡介
肖冠宇
資深大數據研發工程師,有多年的大數據工作經驗,對高性能分布式係統架構、大數據技術、數據分析等有深入的研究。
曾就職於人民網人民在綫和樂視網智能中心大數據部,主要從事大數據係統研發和廣告數據分析;現就職於小米旗下的田米科技,擔任大數據研發工程師。
精彩書評
大數據時代,傳統的關係型數據庫已經越來越無法滿足企業存儲和處理海量數據的需求。感謝Google和開源界給我們帶來瞭Hadoop生態係統,賦予瞭我們應對海量數據的能力。然後,由於整個Hadoop生態係統技術和産品極為豐富,而且在不斷發展,技術選型對很多企業來說是個難題,本書嘗試在這方麵給大傢一些建議和成功的解決方案。相信通過作者對於大數據技術的梳理與總結,定能讓讀者少走彎路,更快更好地掌握大數據的相關技術。
——薑承堯 騰訊金融支付數據庫研發與運營組負責人
作者係統整理瞭多年的工程實踐經驗,詳細介紹瞭一個典型大數據平颱的架構,可以幫助從事大數據平颱開發和運維工作的讀者快速掌握所需的技能,因此我非常樂意嚮大傢推薦本書。
——謝磊 小象學院創始人
本書采用理論與實踐相結閤的方式,由淺入深地介紹瞭大數據相關技術,隆重嚮喜愛大數據或者已經從事大數據工作的同學推薦。
——鬍春輝 田米科技CTO
冠宇是大數據領域的一名積極探索者,麵對工作中層齣不窮的問題,敢於用創新的方案去解決。本書從數據收集開始,講解瞭一整套端到端的企業大數據平颱建設方案和經驗。計劃構建和啓用大數據平颱或者需要改進數據處理能力的工程師,能通過此書受益。
——羅宏宇 樂視智能中心大數據部技術總監
本書從實戰角度齣發,係統地梳理和深入地講解瞭目前業界常用的大數據技術,並且將工作中的經驗融閤到本書中,非常適閤於想轉型學習大數據技術的初學者,或者對大數據有深入的理論基礎卻欠缺實踐經驗的工程師,同時也適閤大數據架構師作為構建整體解決方案的參考書。
——程超 閤眾支付資深技術專傢
本書中涉及的內容深入淺齣,值得初學者拿來分析和嘗試。“紙上得來終覺淺,絕知此事要躬行”,希望這本書能給所有讀者帶來美好的收獲。也希望老友冠宇分享更多的學習和工程經驗!
——劉宇 唯品會自然語言高級算法工程師
目錄
前 言
第一部分 準備工作
第1章 基礎環境準備 2
1.1 軟件環境準備 2
1.2 集群環境準備 4
1.2.1 Zookeeper集群部署 4
1.2.2 Hadoop部署 6
1.3 小結 15
第二部分 核心技術
第2章 Spark詳解 18
2.1 Spark概述 18
2.1.1 Spark概述 18
2.1.2 Shuff?le詳解 25
2.2 Spark SQL 29
2.2.1 SparkSession 29
2.2.2 DataFrame 30
2.2.3 DataSet 35
2.3 Structured Streaming 35
2.3.1 數據源 36
2.3.2 輸齣到外部存儲 38
2.3.3 WordCount示例 40
2.4 Spark優化 42
2.4.1 數據優化 42
2.4.2 代碼優化 44
2.4.3 參數優化 46
2.5 小結 48
第3章 Druid原理及部署 49
3.1 架構設計 49
3.1.1 節點類型 49
3.1.2 Segment介紹 57
3.1.3 容錯處理 59
3.1.4 路由節點 60
3.2 集群部署 63
3.2.1 集群規劃 63
3.2.2 配置安裝 64
3.3 小結 72
第4章 Druid數據攝入 73
4.1 模式設計 73
4.1.1 設計概述 73
4.1.2 數據解析 75
4.1.3 Segment分區 79
4.1.4 模式更改 81
4.2 批量數據攝入 81
4.3 流數據攝入 87
4.3.1 Tranquility 88
4.3.2 StreamPush 91
4.3.3 從Kafka中攝取數據 92
4.4 數據更新 94
4.5 小結 95
第5章 Druid客戶端 96
5.1 涉及組件 96
5.1.1 查詢相關 96
5.1.2 過濾器 99
5.1.3 聚閤粒度 101
5.1.4 聚閤器 105
5.2 查詢類型 109
5.2.1 時間序列查詢 109
5.2.2 TopN查詢 111
5.2.3 分組查詢 113
5.2.4 元數據查詢 117
5.2.5 搜索查詢 121
5.3 查詢API 125
5.3.1 RESTful介紹 125
5.3.2 Jersey客戶端 126
5.4 小結 129
第6章 日誌收集 130
6.1 Flume介紹 130
6.1.1 基本架構 131
6.2 Flume應用實踐 144
6.2.1 攔截器、選擇器實踐 144
6.2.2 負載均衡、故障轉移實踐 149
6.2.3 設計與實踐 150
6.3 小結 154
第7章 分布式消息隊列 155
7.1 Kafka介紹 155
7.1.1 基本架構 155
7.1.2 高吞吐的實現 157
7.1.3 高可用的實現 160
7.2 安裝部署 161
7.2.1 Broker配置參數 161
7.2.2 分布式部署 162
7.3 客戶端API 163
7.3.1 Producer API 164
7.3.2 Consumer API 165
7.4 小結 169
第三部分 項目實踐
第8章 數據平颱 172
8.1 需求分析 172
8.2 功能實現 173
8.2.1 架構設計 173
8.2.2 關鍵功能實現 175
8.3 小結 184
第9章 監控係統 185
9.1 Inf?luxDB 185
9.1.1 Inf?luxDB簡介 186
9.1.2 Inf?luxDB安裝 186
9.1.3 Inf?luxDB操作 188
9.1.4 Inf?luxDB客戶端 191
9.2 JMXTrans 192
9.2.1 JMXTrans介紹 192
9.2.2 JMXTrans安裝 194
9.2.3 JMXTrans使用 195
9.3 Grafana 198
9.3.1 Grafana安裝 198
9.3.2 Grafana使用 199
9.4 小結 208
前言/序言
我寫本書的初衷是將自己在企業工作中應用的技術歸納總結,係統地將大數據處理相關技術融閤在一起,給已經從事大數據相關技術研發工作的朋友,或是準備從其他行業轉行進入大數據領域學習相關技術的朋友提供一份參考資料。希望本書能夠幫助更多從事大數據相關工作的人,也希望通過本書結識更多熱愛大數據的朋友。
目前,大數據已不隻停留在概念階段,而是在各領域成功落地,並取得瞭豐碩的成果。大數據已經滲透到生活中的各個方麵,距離我們最近且與我們生活息息相關的大數據項目有交通大數據、醫療大數據、金融大數據、社交媒體大數據、互聯網大數據等。如此多的大數據項目能夠成功落地,關鍵原因在於數據來源的多樣化,數據量的爆發式增長,新興技術的快速發展,以及市場創新需求的不斷增多,這為各種大數據項目提供瞭龐大的數據源,通過多種技術的綜閤應用,可不斷挖掘齣大數據背後的社會價值和商業價值。
隨著開源社區的不斷發展,越來越多的優秀項目被開源,以處理各種大數據場景下的問題和挑戰。作為目前大數據生態係統內的早期開源項目,Hadoop在廉價機器上實現瞭分布式數據存儲和高性能分布式計算,大大降低瞭數據存儲和計算成本。Hadoop提供的分布式存儲係統HDFS、大數據集並行計算編程模型MapReduce、資源調度框架YARN已經被廣泛應用,為大數據生態係統的發展奠定瞭堅實的基礎。如今,Hadoop大數據生態圈發展已經非常全麵,涉及領域眾多,在大數據處理係統中常用的技術框架包括數據采集、數據存儲、數據分析、數據挖掘、批處理、實時流計算、數據可視化、監控預警、信息安全等。下圖展示瞭大數據生態係統內比較流行並且已經在生産環境驗證過的開源技術。
(1)SparkSpark是由加州大學伯剋利分校AMP實驗室開源的分布式大規模數據處理通用引擎,具有高吞吐、低延時、通用易擴展、高容錯等特點。Spark內部提供瞭豐富的開發庫,集成瞭數據分析引擎Spark SQL、圖計算框架GraphX、機器學習庫MLlib、流計算引擎Spark Streaming。Spark在函數式編程語言Scala中實現,提供瞭豐富的開發API,支持Scala、Java、Python、R等多種開發語言。同時,它提供瞭多種運行模式,既可以采用獨立部署的方式運行,也可以依托Hadoop YARN、Apache Mesos等資源管理器調度任務運行。目前,Spark已經在金融、交通、醫療、氣象等多種領域中廣泛使用。
大數據生態係統中的開源技術(2)DruidDruid是由美國MetaMarkets公司創建並開源的分布式提供海量時序數據存儲、支持實時多維數據分析的OLAP係統,主要應用於廣告數據分析、網絡係統監控等場景。Druid具有高吞吐、易擴展、高容錯、低延遲、按時間序列存儲等特點。
(3)FlumeFlume是由Cloudera公司開發的分布式、高可用的日誌收集係統,是Hadoop生態圈內的關鍵組件之一,目前已開源給Apache。Flume的原始版本為Flume-OG,經過對整體架構的重新設計,現已改名為Flume-NG。Flume發展到現在已經不局限於日誌收集,還可以通過簡單的配置收集不同數據源的海量數據並將數據準確高效地傳輸到不同的中心存儲。目前Flume可對接的主流大數據框架有Hadoop、Kafka、ElasticSearch、Hive、HBase等。在使用Flume的過程中,通過配置文件就可以實現整個數據收集過程的負載均衡和故障轉移,而不需要修改Flume的任何代碼。得益於優秀的框架設計,Flume通過可擴展、插件化、組閤式、高可用、高容錯的設計模式,為用戶提供瞭簡單、高效、準確的輕量化大數據采集工具。
(4)KafkaKafka是由LinkedIn開源的分布式消息隊列,能夠輕鬆實現高吞吐、可擴展、高可用,並且部署簡單快速、開發接口豐富。目前,各大互聯網公司已經在生産環境中廣泛使用,而且已經有很多分布式處理係統支持使用Kafka,比如Spark、Strom、Druid、Flume等。
(5)InfluxDBInfluxDB是一款開源分布式時序數據庫,非常適閤存儲監控係統收集的指標數據。時序數據庫顧名思義就是按照時間順序存儲指標數據,即監控係統的場景大部分是按照時間順序存儲各項指標數據,過期時間太長的指標可能將不會再關注,所以為瞭提高數據庫的存儲率,提高查詢性能,需要定期刪除過期指標。InfluxDB的諸多特性非常適閤監控係統的使用場景。
本書將詳細介紹上述技術的原理,通過實踐演示每種技術的實際應用場景。希望通過理論與實踐相結閤的方式使內容更通俗易懂,幫助讀者根據實際的業務場景選擇閤適的技術方案,相信大數據在未來的發展中還會創造更多的價值。
內容概述本書分三部分展開介紹:
第一部分(第1章)主要介紹瞭企業大數據係統的前期準備工作,包括如何構建企業大數據處理係統的軟件環境和集群環境。
第二部分(第2~7章)首先介紹瞭Spark的基本原理,Spark 2.0版本的Spark SQL、Structured Streaming原理和使用方法,以及Spark的多種優化方式;然後,介紹瞭Druid的基本原理、集群的搭建過程、數據攝入過程,以及在查詢過程中如何實現Druid查詢API;接著介紹瞭日誌收集係統Flume的基本架構和關鍵組件,以及分層日誌收集架構的設計與實踐。
……
企業大數據處理:Spark、Druid、Flume與Kafka應用實踐 epub pdf mobi txt 電子書 下載 2025
企業大數據處理:Spark、Druid、Flume與Kafka應用實踐 下載 epub mobi pdf txt 電子書