基于Hadoop的大數據分析和處理pdf

圖書網
圖書網
圖書網
10532
文章
1398
評論
2020年5月26日22:18:48 評論 22

基于Hadoop的大數據分析和處理 作者:魏祖寬,劉兆宏

基于Hadoop的大數據分析和處理 出版社:電子工業出版社

基于Hadoop的大數據分析和處理 內容簡介

本書基于云計算和大數據,介紹大數據處理和分析的技術,分為兩部分。第一部分介紹Hadoop基礎知識,內容包括:Hadoop的介紹和集群構建、Hadoop的分部式系統架構、MapReduce及其應用、Hadoop的版本特征及進化。第二部分以云計算為主題,詳細論述利用Hadoop的大數據分析和處理工具,以及NoSQL技術,內容包括:云計算和Hadoop、*服務中的MapReduce應用、Hadoop應用下的大數據分析、NoSQL、HBase。本書不單純地講述理論和概念,而是基于目具體的工具和技術(Hadoop和NoSQL),利用大量實際案例,通過實際的操作和應用來組織大數據處理和分析技術,有利于讀者從工程應用的角度進行實際掌握和利用。適合相關專業的本科生、研究生和軟件工程師學習。

基于Hadoop的大數據分析和處理 目錄

前言

第1章 Hadoop的介紹和集群構建

1.1 Hadoop介紹

1.1.1 云計算和Hadoop

1.1.2 Hadoop的歷史

1.2 Hadoop構建案例

1.2.1 歐美構建案例

1.2.2 韓國構建案例

1.3 構建Hadoop集群

1.3.1 分布式文件系統

1.3.2 構建Hadoop集群的準備事項

1.3.3 構建偽分布式

1.3.4 分布式集群(Cluster)構建

1.4 Hadoop分布式文件系統指令

1.5 小 結

第2章 Hadoop分布式處理文件系統

2.1 Hadoop分布式文件系統的設計

2.2 概觀Hadoop分布式文件系統的整體構造

2.3 Namenode的角色

2.3.1 元數據管理

2.3.2 元數據的安全保管——Edits和Fslmage文件及Secondary Namenode

2.3.3 Datanode管理

2.4 Datanode的角色

2.4.1 block管理

2.4.2 數據的復制和過程

2.4.3 Datanode添加

2.5 小 結

第3章 大數據和MapReduce

3.1 大數據的概要

3.1.1 大數據的概念

3.1.2 大數據的價值創造

3.2 MapReduce

3.2.1 MapReduce 示例:詞頻統計(Word Count)

3.2.2 MapReduce開源代碼:詞頻統計(Word Count)——Java基礎

3.2.3 MapReduce 開源代碼:詞頻統計(Word Count)——Ruby語言基礎

3.3 MapReduce的結構

3.3.1 通過案例了解MapReduce結構

3.3.2 從結構性角度進行的MapReduce最優化方案

3.4 MapReduce的容錯性(Fault Tolerance)

3.5 MapReduce的編程

3.5.1 搜索

3.5.2 排序

3.5.3 倒排索引

3.5.4 查找熱門詞

3.5.5 合算數字

3.6 構建Hadoop:通過MapReduce的案例介紹

3.6.1 單詞頻率統計MapReduce的編程

3.6.2 MapReduce—用戶界面

3.7 小 結

第4章 Hadoop版本特征及進化

4.1 Hadoop 0.1x版本的API

4.2 Hadoop附加功能(append)

4.3 Hadoop安全相關功能

4.4 Hadoop 2.0.0 alpha

4.4.1 安裝Hadoop 2.0.0

4.4.2 Hadoop分布式文件系統的更改

4.4.3 跨時代MapReduce框架:YARN

4.5 小 結

第5章 云計算和Hadoop

5.1 大規模Hadoop集群的構建和案例

5.2 云基礎設施服務的登場

5.2.1 Amazon云服務

5.3 在Amazon EC2中構建Hadoop集群

5.3.1 Apache Whirr

5.3.2 構建Hadoop 集群

5.4 小 結

第6章 Amazon Elastic MapReduce的倍增利用

6.1 Amazon EMR的活用

6.1.1 Amazon EMR的概念

6.1.2 Amazon EMR的構造

6.1.3 Amazon EMR的特征

6.1.4 Amazon EMR的 Job Flow和Step

6.1.5 使用Amazon EMR前需要了解的事項

6.1.6 Amazon EMR的實戰運用

6.2 小 結

第7章 Hadoop應用下的大數據分析

7.1 Hadoop應用下的機器學習(Mahout)

7.1.1 設置及編譯

7.1.2 K-means 聚類算法

7.1.3 基于矢量相似度的協同過濾

7.1.4 小結

7.2 基于Hadoop的統計分析Rhive(R and Hive)

7.2.1 R的設置及靈活運用

7.2.2 Hive的設置及靈活運用

7.2.3 RHive的設置及靈活運用

7.2.4 小結

7.3 利用Hadoop的圖形數據處理Giraph

7.4 小 結

第8章 數據中的DBMS,NoSQL

8.1 NoSQL出現背景:大數據和Web 2.0

8.1.1 基于Web 2.0的大數據的登場

8.1.2 基于大數據的NoSQL的登場

8.1.3 適合大數據和Web 2.0的數據庫NoSQL

8.2 NoSQL的定義和類別特征

8.3 NoSQL數據模型概要和分類

8.4 NoSQL數據模型化

8.4.1 NoSQL數據模型化基本概念

8.4.2 一般的NoSQL建模方法

8.5 主要NoSQL的比較和選擇

8.6 小 結

第9章 HBase:Hadoop中的NoSQL

9.1 Hadoop生態界中的HBase

9.2 HBase介紹

9.3 HBase數據模型

9.3.1 map

9.3.2 持續性(persistent)

9.3.3 分布性(distributed)

9.3.4 排序性(sorted)

9.3.5 多維性(multidimensional)

9.3.6 稀疏性(sparse)

9.4 HBase的數據庫模式

9.5 HBase構造

9.6 HBase的構建及運行

9.7 HBase的擴展——DuoBase中的HBase

9.8 HBase的用戶定義索引

9.8.1 HBase用戶定義索引——HFile格式的擴展

9.8.2 HBase用戶定義索引——Region的擴展

9.9 小 結

基于Hadoop的大數據分析和處理 精彩文摘

Hadoop 是通過開源代碼形式提供的軟件平臺產品。Hadoop 在近來的許多開放源碼項目中受到了廣泛關注,它跟開源代碼的代表產品 Linux 一樣,雖然歷史由來并不長,但在近期產生的云計算生態界中,大家尤其對它的必要性產生了關注,并被使用到了很多企業中。這里將介紹云計算和 Hadoop的使用,以及Hadoop 的歷史。

圖書網:基于Hadoop的大數據分析和處理pdf

繼續閱讀
  • 我的微信
  • 掃一掃加好友
  • weinxin
  • 微信公眾號
  • 掃一掃關注
  • weinxin
Scratch編程從入門到精通pdf 程序設計

Scratch編程從入門到精通pdf

本書融合數學、游戲和算法,從零開始講授編程概念,幫助初學者掌握編程思想和建立Scratch編程知識體系,為青少年提供一本從入門到精通的Scratch編程參考教材。 (1)數學編程 ...
R語言數據分析項目精解 理論 方法 實戰pdf 程序設計

R語言數據分析項目精解 理論 方法 實戰pdf

適讀人群 :科研機構和大數據工作從業人員 《R 語言數據分析項目精解:理論、方法、實戰》適合人群: 互聯網行業數據分析人員:通過閱讀《R 語言數據分析項目精解:理論、方法、實戰》,...
MS DOS高水平程序設計pdf 程序設計

MS DOS高水平程序設計pdf

MS DOS高水平程序設計 作者:夏東濤 MS DOS高水平程序設計 出版社:電子工業出版社 MS DOS高水平程序設計 內容簡介 本書包括MS-DOS環境下高水平程序設計必備知識、中斷和DOS功能、...
匿名

發表評論

匿名網友 填寫信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: