图书介绍

Spark 原理、机制及应用PDF|Epub|txt|kindle电子书版本网盘下载

Spark 原理、机制及应用
  • 刘驰主编;符积高,徐闻春编著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111529286
  • 出版时间:2016
  • 标注页数:264页
  • 文件大小:35MB
  • 文件页数:274页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark 原理、机制及应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一篇 概念篇2

第1章 Spark概述2

1.1 Spark初见2

1.1.1 Spark的发展史及近况2

1.1.2 Spark的特点5

1.1.3 Spark的作用6

1.1.4 Spark的体系结构6

1.1.5 Spark的发展趋势6

1.2 Spark框架7

1.2.1 批处理框架7

1.2.2 流处理框架8

1.3 Spark的生态系统8

1.4 Spark的数据存储11

1.5 本章小结11

第2章 Spark环境配置12

2.1 Spark运行环境配置12

2.1.1 先决条件12

2.1.2 下载与运行Spark13

2.1.3 使用交互式Shell14

2.1.4 搭建Spark Standalone集群16

2.2 Spark开发环境配置18

2.2.1 Spark独立应用程序18

2.2.2 构建IDE开发环境24

2.3 Spark编译环境配置29

2.3.1 使用Maven编译项目源码30

2.3.2 使用IDEA搭建源码编译与阅读环境31

2.4 本章小结35

第二篇 开发篇37

第3章 Spark核心开发37

3.1 Spark编程模型概述37

3.2 SparkContext38

3.2.1 SparkContext的作用38

3.2.2 SparkContext的创建38

3.2.3 使用Shell41

3.2.4 应用实践41

3.3 RDD简介42

3.3.1 RDD创建42

3.3.2 RDD转换操作43

3.3.3 RDD动作操作44

3.3.4 RDD惰性计算44

3.3.5 RDD持久化44

3.3.6 RDD检查点45

3.4 共享变量45

3.4.1 广播变量45

3.4.2 累加器46

3.5 Spark核心开发实践46

3.5.1 单值型Trasnformation算子46

3.5.2 键值对型Transformation算子58

3.5.3 Action算子64

3.6 本章小结72

第4章 Spark四大应用技术框架73

4.1 Spark SQL73

4.1.1 Spark SQL入门73

4.1.2 数据源75

4.1.3 性能调优81

4.1.4 分布式SQL引擎82

4.1.5 Shark迁移至Spark SQL指南82

4.1.6 Hive的兼容性83

4.1.7 Spark SQL数据类型85

4.2 Spark Streaming86

4.2.1 Spark Streaming简介87

4.2.2 入门实例87

4.2.3 基本概念89

4.3 Spark GraphX97

4.3.1 Spark GraphX简介97

4.3.2 属性图98

4.3.3 图操作100

4.3.4 Pregel API108

4.3.5 图构造器110

4.3.6 顶点与边相关RDD111

4.3.7 最优化表示113

4.3.8 图算法114

4.3.9 Example116

4.4 Spark MLlib116

4.4.1 SparkMLlib简介116

4.4.2 数据类型117

4.4.3 基本统计分析121

4.4.4 分类与回归123

4.4.5 协同过滤136

4.4.6 聚类138

4.4.7 降维139

4.4.8 特征提取与转换141

4.4.9 频繁模式挖掘146

4.4.10 最优化算法147

4.4.11 导出PMML模式149

4.5 SparkR150

4.5.1 SparkR DataFrame150

4.5.2 DataFrame的相关操作152

4.5.3 从SparkR运行SQL查询153

第5章 Spark系统配置与调优154

5.1 Spark运行监控154

5.2 Spark配置参数158

5.2.1 应用属性159

5.2.2 运行环境属性159

5.2.3 Shuffle操作属性160

5.2.4 压缩与序列化属性161

5.2.5 数据序列化161

5.3 内存调优162

5.3.1 调整数据结构162

5.3.2 序列化RDD存储162

5.3.3 GC162

5.4 其他调优164

5.4.1 并行度164

5.4.2 Reduce任务164

5.4.3 广播变量165

5.4.4 数据本地化165

5.4.5 网络通信调优165

5.4.6 磁盘空间优化166

5.4.7 任务执行速度“倾斜”166

5.5 本章小结166

第三篇 机制篇168

第6章 RDD内部结构168

6.1 RDD接口168

6.2 分区169

6.2.1 分区接口169

6.2.2 分区个数170

6.2.3 分区内部的记录个数171

6.3 依赖关系172

6.3.1 依赖与RDD173

6.3.2 依赖分类173

6.3.3 窄依赖174

6.3.4 Shuffle依赖175

6.3.5 依赖与容错机制176

6.3.6 依赖与并行计算177

6.4 计算函数179

6.4.1 compute方法179

6.4.2 iterator方法179

6.5 分区器181

6.5.1 哈希分区器181

6.5.2 范围分区器181

6.5.3 默认分区器182

6.6 持久化183

6.7 检查点184

6.8 本章小结184

第7章 Spark调度机制186

7.1 调度基础186

7.1.1 基本概念187

7.1.2 通信框架187

7.2 集群资源调度188

7.2.1 集群部署图188

7.2.2 集群资源注册189

7.2.3 集群资源申请与分配191

7.3 DAG调度194

7.3.1 DAG调度通信机制194

7.3.2 作业处理流程195

7.3.3 阶段划分200

7.4 任务调度201

7.4.1 任务分类与执行201

7.4.2 任务划分与提交202

7.4.3 任务调度算法204

7.4.4 任务调度相关类205

7.4.5 任务分配205

7.4.6 任务接收与执行207

7.5 本章小结207

第8章 Shuffle过程208

8.1 与Hadoop Shuffle过程的区别208

8.1.1 MR模型的Shuffle过程208

8.1.2 聚合器209

8.1.3 哈希Shuffle与排序Shuffle211

8.1.4 Spark的Shuffle过程211

8.2 Shuffle写过程213

8.2.1 哈希Shuffle写过程213

8.2.2 排序Shuffle写过程215

8.3 Shuffle读过程216

8.4 本章小结218

第四篇 应用篇220

第9章 视频娱乐领域220

9.1 腾讯公司在Hadoop和Spark平台上的应用220

9.1.1 公司背景特点220

9.1.2 业务需求221

9.1.3 解决方案221

9.1.4 方案效果225

9.1.5 小结225

9.2 Spotify公司在Hadoop和Spark平台ALS算法的运行时间对比226

9.2.1 公司背景特点226

9.2.2 业务需求226

9.2.3 解决方案226

9.2.4 方案效果227

9.2.5 小结228

9.3 本章小结228

第10章 电商领域229

10.1 淘宝公司在Spark平台上对GraphX与Bagel的运行效果对比229

10.1.1 公司背景特点229

10.1.2 业务需求229

10.1.3 解决方案230

10.1.4 方案效果232

10.1.5 小结232

10.2 Yahoo !关于Hive与Shark的应用233

10.2.1 公司背景特点233

10.2.2 业务需求233

10.2.3 解决方案234

10.2.4 方案效果235

10.2.5 小结235

10.3 本章小结235

第11章 电信领域236

11.1 Telefonica应用Spark和Cassandra方案解决多用户事务查询236

11.1.1 公司背景特点236

11.1.2 业务需求236

11.1.3 解决方案237

11.1.4 方案效果239

11.1.5 小结239

11.2 NTT DATA对Spark on YARN架构各项性能测试分析240

11.2.1 公司背景特点240

11.2.2 业务需求240

11.2.3 解决方案240

11.2.4 方案效果245

11.2.5 小结245

11.3 本章小结245

第12章 零售领域246

12.1 Euclid Analysis基于Spark的地理位置分析服务246

12.1.1 公司背景特点246

12.1.2 业务需求247

12.1.3 解决方案248

12.1.4 方案效果249

12.1.5 小结250

12.2 Graphflow应用Spark MLlib进行实时个性化推荐250

12.2.1 公司背景特点251

12.2.2 业务需求251

12.2.3 解决方案252

12.2.4 方案效果253

12.2.5 小结254

12.3 本章小结254

第13章 其他领域255

13.1 Uber基于Spark的私家车搭乘服务255

13.1.1 公司背景特点255

13.1.2 业务需求256

13.1.3 解决方案257

13.1.4 方案效果258

13.1.5 小结259

13.2 PubMatic应用Spark提供广告服务260

13.2.1 公司背景特点260

13.2.2 业务需求260

13.2.3 解决方案261

13.2.4 方案效果262

13.2.5 小结263

13.3 本章小结264

热门推荐