編輯推薦
熱門技術
院校關注
市場空白
專傢團隊
廣泛調研
內容基礎
循序漸進
資源豐富
本書的體係結構及內容做瞭精心的設計,實現理論指導實踐、實踐提升理論的良性循環。按照“模塊理論-模塊實踐”這一思路進行編排,通過不斷地螺鏇迭代逐漸讓學生掌握Hadoop的體係架構及各組件的功能及相應典型案例。在內容編寫方麵,注意難點分散、循序漸進;在實例選取方麵,注意實用性強、針對性強。
內容簡介
全書共有12章,從Hadoop起源開始,介紹瞭Hadoop的安裝和配置,並對Hadoop的組件分彆進行瞭介紹,包括HDFS分布式存儲係統,MapReduce計算框架,海量數據庫HBase,Hive數據倉庫,Pig、ZooKeeper管理係統等知識,最後對Hadoop實時數據處理技術作瞭簡單介紹,旨在讓讀者瞭解當前的其它的大數據處理技術。本書除瞭對Hadoop的理論進行說明之外,還對如何使用各組件進行瞭介紹,但介紹的隻是基礎的使用,沒有涉及到底層的高級內容,所以本書隻是起一個引導作用,旨在讓讀者瞭解Hadoop並能夠使用Hadoop的基本功能,並不是學習Hadoop的完全手冊。
本書適用於高等院校的學生;是雲計算專業、物聯網專業及雲計算與大數據專業的核心基礎課程,也是計算機相關專業的一門新增專業課或選修課;適閤於零售及雲計算與大數據技術相關的培訓班等使用。
作者簡介
安俊秀,女,教授,西安交通大學攻讀計算機科學與技術專業,獲工學碩士學位。中國計算機學會高級會員;中國電子學會高級會員;成都市科技攻關計劃評審專傢;成都軍區項目評審專傢;汕尾市科技顧問團首席顧問。
在科研工作方麵,一直從事雲計算與大數據、信息智能搜索與計算社會方麵的研究工作。近五年來就此發錶論文40餘篇,其中**作者20餘篇,核心期刊以上占15餘篇。主編或參與完成專著3部、教材4部,6部由***齣版社齣版。獲得國傢發明專利2項(2014授權),實用新型專利授權12項。獲得軟件著作權13項。科研項目20項,其中作為項目負責人承擔省部級項目3項;作為主研人員參與***項目6項、省級項目6項。
目錄
Hadoop基礎與實踐
第1章Hadoop概述
1.1 Hadoop來源和動機
1.2 Hadoop體係架構
1.3 Hadoop與分布式開發
1.4 Hadoop行業應用案例分析
1.4.1 Hadoop在門戶網站的應用
1.4.2 Hadoop在搜索引擎中的應用
1.4.3 Hadoop在電商平颱中的應用
1.5小結
第2章Hadoop安裝與配置管理
2.1 實驗準備
2.2 配置一個單節點環境
2.2.1 運行一個虛擬係統CentOS
2.2.2 配置網絡
2.2.3創建新的用戶組和用戶
2.2.4上傳文件到CentOS並配置Java、Hadoop環境
2.2.5 修改Hadoop2.2配置文件
2.2.6修改CentOS主機名
2.2.7綁定hostname與IP
2.2.8關閉防火牆
2.3節點之間的免密碼通信
2.3.1什麼是SSH
2.3.2 拷貝虛擬機節點
2.3.3 配置SSH免密碼登錄
2.4 Hadoop的啓動和測試
2.4.1 格式化文件係統
2.4.2啓動HDFS
2.4.3 啓動Yarn
2.4.4 管理JobHistory Server
2.4.5 集群驗證
2.4.6 需要瞭解的默認配置
2.5動態管理節點
2.5.1 動態增加和刪除datanode
2.5.2 動態修改TaskTracker
2.6小結
第3章HDFS技術
3.1HDFS的特點
3.2HDFS架構
3.2.1數據塊
3.2.2元數據節點與數據節點
3.2.3輔助元數據節點
3.2.4安全模式
3.2.5負載均衡
3.2.6垃圾迴收
3.3HDFS Shell命令
3.3.1文件處理命令
3.3.2dfsadmin命令
3.3.3namenode命令
3.3.4fsck命令
3.3.5pipes命令
3.3.6job命令
3.4HDFS中Java API的使用
3.4.1上傳文件
3.4.2新建文件
3.4.3查看文件詳細信息
3.4.4下載文件
3.5RPC通信
3.5.1反射機製
3.5.2代理模式與動態代理
3.5.3Hadoop RPC機製與源碼分析
3.6小結
第4章Map/Reduce技術
4.1 什麼是Map/Reduce
4.2 Map/Reduce編程模型
4.2.1 MapReduce編程模型簡介
4.2.2 Map/Reduce簡單模型
4.2.3 Map/Reduce復雜模型
4.2.4 Map/Reduce編程實例–WordCount
4.3 Map/Reduce數據流
4.3.1分片、格式化數據源(InputFormat)
4.3.2 Map過程
4.3.3 Shuffle過程
4.3.4 Reduce過程
4.3.5文件寫入(OutputFormat)
4.4 Map/Reduce任務流程
4.4.1 MRv2基本組成
4.4.2 Yarn基本組成
4.4.3 任務流程
4.5 Map/Reduce的Streaming和Pipe
4.5.1 Hadoop Streaming
4.5.2 Hadoop Pipe
4.6 Map/Reduce性能調優
4.7Map/Reduce實戰
4.7.1 快速入門
4.7.2簡單使用Eclipse插件
4.8小結
第5章Hadoop I/O操作
5.1HDFS數據完整性
5.1.1校驗和
5.1.2DataBlockScanner
5.2基於文件的數據結構
5.2.1SequenceFile存儲
5.2.2MapFile
5.2.3SequenceFile轉換為MapFile
5.3壓縮
5.3.1Codec
5.3.2本地庫
5.3.3如何選擇壓縮格式
5.4序列化
5.4.1Writable接口
5.4.2WritableComparable
5.4.3Hadoop writable基本類型
5.4.4自定義writable類型
5.5小結
第6章海量數據庫HBase技術
6.1 初識HBase
6.2 HBase錶視圖
6.2.1概念視圖
6.2.2物理視圖
6.3HBase物理存儲模型
6.4安裝HBase
6.4.1HBase單節點安裝
6.4.2HBase僞分布式安裝
6.4.3HBase完全分布式安裝
6.5HBaseShell
6.5.1general一般操作
6.5.2ddl操作
6.5.3dml操作
6.5.4小結
6.6小結
第7章ZooKeeper技術
7.1 分布式協調技術
7.2 實現者
7.3 角色
7.4 ZooKeeper數據模型
7.4.1Znode
7.4.2ZooKeeper中的時間
7.4.3ZooKeeper節點屬性
7.4.4watch觸發器
7.5 ZooKeeper集群安裝
7.6 ZooKeeper主要Shell操作
7.7 典型運用場景
7.7.1數據發布與訂閱
7.7.2統一命名服務(Name Service)
7.7.3分布通知/協調(Distribution of notification/coordination)
7.8小結
第8章分布式數據倉庫技術Hive
8.1 Hive齣現原因
8.2 Hive服務組成
8.3 Hive安裝
8.3.1 Hive基本安裝
8.3.2 MySQL安裝
8.3.3 Hive配置
8.4 Hive Shell介紹
8.5HiveQL詳解
8.5.1 Hive管理數據方式
8.5.2 Hive錶DDL操作
8.5.3 Hive錶DML操作
8.6小結
第9章分布式數據分析工具Pig
9.1 Pig的安裝和配置
9.2 Pig基本概念
9.3 Pig保留關鍵字
9.4使用Pig
9.4.1 Pig命令行選項
9.4.2 Pig的兩種運行模式
9.4.3 Pig相關Shell命令詳解
9.4.4Pig程序運行方式
9.4.5 Pig輸入與輸齣
9.5模式(Schemas)
9.6 Pig相關函數詳解
9.7小結
第10章 Hadoop與RDBMS數據遷移工具Sqoop
10.1 Sqoop基本安裝
10.2 Sqoop配置
10.3 Sqoop相關功能
10.4 Hive、Pig和Sqoop三者之間的關係
10.5小結
第11章Hadoop1.x與Hadoop2.x的比較
11.1 Hadoop發展曆程
11.2 Hadoop1.x與Hadoop2.x之間的差異
11.2.1 Hadoop1與Hadoop2體係結構對比
11.2.2 Hadoop1與Hadoop2之間配置差異
11.2.3 Hadoop2的Yarn框架
11.2.4 HDFS聯邦機製(Federation)
11.3小結
第12章Hadoop實時數據處理技術
12.1 Storm-Yarn
12.1.1 Apache Storm組成結構
12.1.2 Storm數據流
12.1.3 Storm-Yarn産生背景
12.1.4 Storm-Yarn功能介紹
12.2 Apache Spark
12.2.1 Apache Spark組成結構
12.2.2 Apache Spark擴展功能
12.3 Storm與Spark的比較
12.4小結
附錄一:使用Eclipse提交Hadoop任務相關錯誤解決
附錄二:常用Pig內置函數簡介
前言/序言
Hadoop大數據處理技術基礎與實踐 epub pdf mobi txt 電子書 下載 2024
Hadoop大數據處理技術基礎與實踐 下載 epub mobi pdf txt 電子書