图书介绍
大数据处理系统 Hadoop源代码情景分析PDF|Epub|txt|kindle电子书版本网盘下载
- 毛德操著 著
- 出版社: 杭州:浙江大学出版社
- ISBN:9787308166690
- 出版时间:2017
- 标注页数:773页
- 文件大小:11MB
- 文件页数:783页
- 主题词:数据处理软件
PDF下载
下载说明
大数据处理系统 Hadoop源代码情景分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据与Hadoop1
1.1什么是大数据1
1.2大数据的用途3
1.3并行计算7
1.4数据流8
1.5函数式程序设计与Lambda演算12
1.6 MapReduce15
1.7大数据处理平台17
1.8 Hadoop的由来和发展17
1.9 Hadoop的MapReduce计算框架19
1.10 Hadoop的分布式容错文件系统HDFS20
第2章 研究方法22
2.1摘要卡片22
2.2情景分析27
2.3面向对象的程序设计27
2.4怎样阅读分析Hadoop的代码30
第3章Hadoop集群和YARN31
3.1 Hadoop集群31
3.2 Hadoop系统的结构40
3.3 Hadoop的YARN框架42
3.4状态机45
3.5资源管理器ResourceManager68
3.6资源调度器ResourceScheduler72
第4章Hadoop的RPC机制74
4.1 RPC与RMI74
4.2 ProtoBuf96
4.3 Java的Reflection机制104
4.4 RM节点上的RPC服务105
4.5 RPC客户端的创建111
第5章Hadoop作业的提交127
5.1从“地方”到“中央”127
5.2示例一:采用老API的ValueAggregatorJob128
5.3示例二:采用新 API的WordCount138
5.4示例三:采用ToolRunner的QuasiMonteCarlo142
5.5从Job.submit()开始的第二段流程148
5.6 YARNRunner和ResourceMgrDelegate165
第6章 作业的调度与指派182
6.1作业的受理182
6.2 NM节点的心跳和容器周转199
6.3容器的分配205
第7章NodeManager与任务投运219
7.1 AMLauncher与任务投运219
7.2 MRAppMaster或AM的创建223
7.3资源本地化234
7.4容器的投运249
第8章MRAppMaster与作业投运261
8.1 MRAppMaster261
8.2 App资源与容器271
8.3容器的跨节点投送和启动283
8.4目标节点上的容器投运286
8.5 Uber模式下的本地容器分配与投运293
8.6任务的启动295
8.7 MapTask的运行301
8.8 ReduceTask的投运303
第9章YARN子系统的计算框架307
9.1 MapReduce框架307
9.2 Streaming框架317
9.3 Chain框架329
9.4 Client与ApplicationMaster335
第10章MapReduce框架中的数据流348
10.1数据流和工作流348
10.2 Mapper的输入350
10.3 Mapper的输出缓冲区MapOutputBuffer360
10.4作为Collector的MapOutputBuffer365
10.5环形缓冲区kvbuffer369
10.6对MapOutputBuffer的输出373
10.7 Sort和Spill376
10.8 Map计算的终结与Spill文件的合并380
10.9 Reduce阶段389
10.10 Merge399
10.11 Reduce阶段的输入和输出407
第11章Hadoop的文件系统HDFS415
11.1文件的分布与容错415
11.2目录节点NameNode419
11.3 FSNamesystem423
11.4文件系统目录FSDirectory426
11.5文件系统映像FsImage433
11.6文件系统更改记录FSEditLog446
11.7 FSEditLog与Journal457
11.8 EditLog记录的重演460
11.9版本升级与故障恢复464
第 12章HDFS的DataNode477
12.1 DataNode477
12.2数据块的存储481
12.3 RamDisk复份的持久化存储493
12.4目录扫描线程DirectoryScanner501
12.5数据块扫描线程DataBlockScanner511
第13章DataNode与NameNode的互动519
13.1 DataNode与NameNode的互动519
13.2心跳HeartBeat526
13.3 BlockReport539
第14章DataNode间的互动559
14.1数据块的接收和存储559
14.2命令DNA_ TRANSFER的执行588
第15章HDFS的文件访问592
15.1 DistributedFileSystem和DFSClient592
15.2 FsShell594
15.3 HDFS的打开文件流程599
15.4 HDFS的读文件流程604
15.5 HDFS的创建文件流程610
15.6文件租约621
15.7 HDFS的写文件流程624
15.8实例639
第16章Hadoop的容错机制642
16.1容错与高可用642
16.2 HDFS的HA机制648
16.3 NameNode的倒换664
16.4 Zookeeper与自动倒换670
16.5 YARN的HA机制677
第17章Hadoop的安全机制680
17.1大数据集群的安全问题680
17.2 UGI、Token和A CL690
17.3 UGI的来源和流转698
17.4 Token的使用703
第18章Hadoop的人机界面709
18.1 Hadoop的命令行界面709
18.2 Hadoop的Web界面714
18.3 Dependency Inject和Annotation727
18.4对网页的访问730
第19章Hadoop的部署和启动741
19.1 Hadoop的运维脚本741
19.2 Hadoop的部署与启动743
19.3 Hadoop的日常使用749
19.4 Hadoop平台的关闭752
第20章Spark的优化与改进754
20.1 Spark与Hadoop754
20.2 RDD与Stage——概念与思路754
20.3 RDD的存储和引用757
20.4 DStream758
20.5拓扑的灵活性和多样性759
20.6性能的提升762
20.7使用的方便性763
20.8几个重要的类及其作用766
参考资料773