图书介绍

Hadoop实战PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop实战
  • 陆嘉恒著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:7111359449
  • 出版时间:2011
  • 标注页数:441页
  • 文件大小:112MB
  • 文件页数:456页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章Hadoop简介1

1.1什么是Hadoop2

1.1.1 Hadoop概述2

1.1.2 Hadoop的历史2

1.1.3 Hadoop的功能与作用2

1.1.4 Hadoop的优势3

1.1.5 Hadoop的应用现状和发展趋势3

1.2 Hadoop项目及其结构3

1.3 Hadoop的体系结构6

1.3.1 HDFS的体系结构6

1.3.2 MapReduce的体系结构7

1.4 Hadoop与分布式开发7

1.5 Hadoop计算模型——MapReduce10

1.6 Hadoop的数据管理10

1.6.1 HDFS的数据管理11

1.6.2 HBase的数据管理12

1.6.3 Hive的数据管理15

1.7小结17

第2章Hadoop的安装与配置18

2.1在Linux上安装与配置Hadoop19

2.1.1安装JDK 1.619

2.1.2配置SSH免密码登录20

2.1.3安装并运行Hadoop21

2.2在Windows上安装与配置Hadoop23

2.2.1安装Cygwin24

2.2.2配置环境变量24

2.2.3安装和启动sshd服务24

2.2.4配置SSH免密码登录24

2.3安装和配置Hadoop集群25

2.3.1 网络拓扑25

2.3.2定义集群拓扑25

2.3.3建立和安装Cluster26

2.4日志分析及几个小技巧32

2.5小结33

第3章 Hadoop应用案例分析35

3.1 Hadoop在Yahoo!的应用36

3.2 Hadoop在eBay的应用38

3.3 Hadoop在百度的应用40

3.4 Hadoop在Facebook的应用43

3.5 Hadoop平台上的海量数据排序46

3.6小结53

第4章MapReduce计算模型54

4.1为什么要用MapReduce55

4.2 MapReduce计算模型56

4.2.1 MapReduce Job56

4.2.2 Hadoop中的Hello World程序56

4.2.3 MapReduce的数据流和控制流64

4.3 MapReduce任务的优化65

4.4 Hadoop流67

4.4.1 Hadoop流的工作原理68

4.4.2 Hadoop流的命令69

4.4.3实战案例:添加Bash程序和Python程序到Hadoop流中70

4.5 Hadoop Pipes72

4.6小结74

第5章 开发MapReduce应用程序75

5.1系统参数的配置76

5.2配置开发环境78

5.3编写MapReduce程序79

5.3.1 Map处理79

5.3.2 Reduce处理80

5.4本地测试81

5.5运行MapReduce程序83

5.5.1打包84

5.5.2在本地模式下运行85

5.5.3在集群上运行86

5.6网络用户界面87

5.6.1JobTracker页面87

5.6.2工作页面88

5.6.3返回结果90

5.6.4任务页面93

5.6.5任务细节页面93

5.7性能调优94

5.8 MapReduce工作流96

5.8.1将问题分解成MapReduce工作97

5.8.2运行相互依赖的工作97

5.9小结98

第6章MapReduce应用案例99

6.1单词计数100

6.1.1实例描述100

6.1.2设计思路100

6.1.3程序代码101

6.1.4代码解读102

6.1.5程序执行103

6.1.6代码结果103

6.2数据去重104

6.2.1实例描述104

6.2.2设计思路105

6.2.3程序代码105

6.3排序106

6.3.1实例描述106

6.3.2设计思路107

6.3.3程序代码107

6.4单表关联109

6.4.1实例描述109

6.4.2设计思路110

6.4.3程序代码110

6.5多表关联113

6.5.1实例描述113

6.5.2设计思路114

6.5.3程序代码114

6.6小结116

第7章MapReduce工作机制117

7.1 MapReduce作业的执行流程118

7.1.1 MapReduce任务的执行总流程118

7.1.2提交作业119

7.1.3初始化作业121

7.1.4分配任务123

7.1.5执行任务125

7.1.6更新任务执行进度和状态126

7.1.7完成作业127

7.2错误处理机制127

7.2.1硬件故障127

7.2.2任务失败128

7.3作业调度机制128

7.4 shuffle和排序129

7.4.1 map端130

7.4.2 reduce端131

7.4.3 shuffle过程的优化132

7.5任务执行133

7.5.1推测式执行133

7.5.2任务JVM重用134

7.5.3跳过坏记录134

7.5.4任务执行环境135

7.6小结136

第8章Hadoop IO操作137

8.1 IO操作中的数据检查138

8.2数据的压缩142

8.2.1 Hadoop对压缩工具的选择142

8.2.2压缩分割和输入分割143

8.2.3在MapReduce程序中使用压缩143

8.3数据的IO中序列化操作144

8.3.1 Writable类144

8.3.2实现自己的Hadoop数据类型152

8.4针对MapReduce的文件类153

8.4.1 SequenceFile类154

8.4.2 MapFile类159

8.5小结161

第9章HDFS详解162

9.1 Hadoop的文件系统163

9.2 HDFS简介165

9.3 HDFS体系结构166

9.3.1 HDFS的相关概念166

9.3.2 HDFS的体系结构167

9.4 HDFS的基本操作169

9.4.1 HDFS的命令行操作169

9.4.2 HDFS的Web界面171

9.5 HDFS常用Java API详解173

9.5.1使用Hadoop URL读取数据173

9.5.2使用FileSystem API读取数据174

9.5.3创建目录176

9.5.4写数据177

9.5.5删除数据178

9.5.6文件系统查询178

9.6 HDFS中的读写数据流182

9.6.1文件的读取182

9.6.2文件的写入184

9.6.3一致性模型185

9.7 HDFS命令详解186

9.7.1通过distep进行并行复制186

9.7.2 HDFS的平衡187

9.7.3使用Hadoop归档文件188

9.7.4其他命令190

9.8小结194

第10章Hadoop的管理195

10.1 HDFS文件结构196

10.2 Hadoop的状态监视和管理工具200

10.2.1审计日志200

10.2.2监控日志200

10.2.3 Metrics201

10.2.4 Java管理扩展203

10.2.5 Ganglia204

10.2.6 Hadoop管理命令206

10.3 Hadoop集群的维护210

10.3.1安全模式210

10.3.2 Hadoop的备份211

10.3.3 Hadoop的节点管理212

10.3.4系统升级214

10.4小结216

第11章Hive详解217

11.1 Hive简介218

11.1.1 Hive的数据存储218

11.1.2 Hive的元数据存储220

11.2 Hive的基本操作220

11.2.1在集群上安装Hive220

11.2.2配置Hive222

11.3 Hive QL详解224

11.3.1数据定义(DDL)操作224

11.3.2数据操作(DML)231

11.3.3 SQL操作233

11.3.4 Hive QL的使用实例235

11.4 Hive的网络(WebUI)接口237

11.5 Hive的JDBC接口238

11.6 Hive的优化241

11.7小结243

第12章HBase详解244

12.1 HBase简介245

12.2 HBase的基本操作245

12.2.1 HBase的安装245

12.2.2运行HBase249

12.2.3 HBase Shell250

12.2.4 HBase配置254

12.3 HBase体系结构255

12.4 HBase数据模型259

12.4.1数据模型259

12.4.2概念视图260

12.4.3物理视图260

12.5 HBase与RDBMS261

12.6 HBase与HDFS262

12.7 HBase客户端262

12.8 Java API263

12.9 HBase编程实例之MapReduce270

12.10模式设计273

12.10.1学生表273

12.10.2事件表274

12.11小结275

第13章Mahout详解276

13.1 Mahout简介277

13.2 Mahout的安装和配置277

13.3 Mahout API简介278

13.4 Mahout中的聚类和分类280

13.4.1什么是聚类和分类280

13.4.2 Mahout中的数据表示281

13.4.3将文本转化成向量282

13.4.4 Mahout中的聚类、分类算法283

13.4.5算法应用实例288

13.5 Mahout应用:建立一个推荐引擎292

13.5.1推荐引擎简介292

13.5.2使用Taste构建一个简单的推荐引擎292

13.5.3简单分布式系统下基于产品的推荐系统简介294

13.6小结297

第14章Pig详解299

14.1 Pig简介300

14.2 Pig的安装和配置300

14.2.1 Pig的安装条件300

14.2.2 Pig的下载、安装和配置301

14.2.3 Pig运行模式301

14.3Pig Latin语言304

14.3.1 Pig Latin语言简介304

14.3.2 Pig Latin的使用305

14.3.3 Pig Latin的数据类型307

14.3.4 Pig Latin关键字308

14.4用户定义函数313

14.4.1编写用户定义函数313

14.4.2使用用户定义函数315

14.5 Pig实例315

14.5.1 Local模式316

14.5.2 MapReduce模式318

14.6 Pig进阶319

14.6.1数据实例319

14.6.2 Pig数据分析320

14.7小结324

第15章ZooKeeper详解326

15.1 ZooKeeper简介327

15.1.1 ZooKeeper的设计目标327

15.1.2数据模型和层次命名空间328

15.1.3 ZooKeeper中的节点和临时节点328

15.1.4 ZooKeeper的应用329

15.2 ZooKeeper的安装和配置329

15.2.1在集群上安装ZooKeeper329

15.2.2配置ZooKeeper334

15.2.3运行ZooKeeper336

15.3 ZooKeeper的简单操作339

15.3.1使用ZooKeeper命令的简单操作步骤339

15.3.2 ZooKeeper API的简单使用340

15.4 ZooKeeper的特性343

15.4.1 ZooKeeper的数据模型343

15.4.2 ZooKeeper会话及状态345

15.4.3 ZooKeeper Watches346

15.4.4 ZooKeeper ACL346

15.4.5 ZooKeeper的一致性保证347

15.5 ZooKeeper的Leader选举348

15.6 ZooKeeper锁服务348

15.6.1 ZooKeeper中的锁机制349

15.6.2 ZooKeeper提供的一个写锁的实现350

15.7使用ZooKeeper创建应用程序351

15.8小结355

第16章Avro详解356

16.1 Avro简介357

16.1.1模式声明358

16.1.2数据序列化362

16.1.3数据排列顺序364

16.1.4对象容器文件365

16.1.5协议声明367

16.1.6协议传输格式368

16.1.7模式解析370

16.2 Avro的C/C﹢﹢实现371

16.3 Avro的Java实现382

16.4 GenAvro (Avro IDL)语言385

16.5 Avro SASL概述390

16.6小结392

第17章Chukwa详解393

17.1 Chukwa简介394

17.2 Chukwa架构395

17.2.1客户端(Agent)及其数据模型395

17.2.2收集器(Collector)和分离解析器(Dernux)396

17.2.3 HICC398

17.3 Chukwa的可靠性399

17.4 Chukwa集群搭建400

17.4.1基本配置要求400

17.4.2安装Chukwa400

17.5 Chukwa数据流的处理407

17.6 Chukwa与其他监控系统比较408

17.7小结409

第18章Hadoop的常用插件与开发411

18.1 Hadoop Studio简介和使用412

18.1.1 Hadoop Studio的安装和配置412

18.1.2 Hadoop Studio的使用举例413

18.2 Hadoop Eclipse简介和使用419

18.2.1 Hadoop Eclipse安装和配置420

18.2.2 Hadoop Eclipse的使用举例420

18.2.3 Hadoop Eclipse插件开发421

18.3 Hadoop Streaming简介和使用422

18.3.1 Hadoop Streaming的使用举例426

18.3.2使用Hadoop Streaming时常见的问题428

18.4 Hadoop Libhdfs简介和使用430

18.4.1 Hadoop Libhdfs安装和配置430

18.4.2 Hadoop Libhdfs API简介430

18.4.3 Hadoop Libhdfs的使用举例431

18.5小结432

附录A云计算在线检测平台434

A.1平台介绍435

A.2结构和功能435

A.2.1前台用户接口的结构和功能435

A.2.2后台程序运行的结构和功能437

A.3检测流程437

A.4使用438

A.4.1功能使用438

A.4.2返回结果介绍439

A.4.3使用注意事项440

A.5小结441

热门推荐