图书介绍
大数据技术与应用专业规划教材 大数据基础及应用PDF|Epub|txt|kindle电子书版本网盘下载
- 吕云翔,钟巧灵,衣志昊编著 著
- 出版社: 北京:清华大学出版社
- ISBN:7302466918
- 出版时间:2017
- 标注页数:232页
- 文件大小:30MB
- 文件页数:248页
- 主题词:
PDF下载
下载说明
大数据技术与应用专业规划教材 大数据基础及应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 大数据概述及基础3
第1章 大数据概念和发展背景3
1.1 什么是大数据3
1.2 大数据的特点3
1.3 大数据的发展4
1.4 大数据的应用5
1.5 习题6
第2章 大数据系统架构概述7
2.1 总体架构概述7
2.1.1 总体架构设计原则7
2.1.2 总体架构参考模型9
2.2 运行架构概述11
2.2.1 物理架构11
2.2.2 集成架构11
2.2.3 安全架构12
2.3 阿里云飞天系统体系架构13
2.3.1 阿里云飞天整体架构13
2.3.2 阿里云飞天平台内核15
2.3.3 阿里云飞天开放服务15
2.3.4 阿里云飞天的特色17
2.4 主流大数据系统厂商18
2.4.1 阿里云数加平台18
2.4.2 Cloudera19
2.4.3 Hortonworks20
2.4.4 Amazon20
2.4.5 Google21
2.4.6 微软21
2.5 习题22
第3章 分布式通信与协同23
3.1 数据编码传输23
3.1.1 数据编码概述23
3.1.2 LZSS算法24
3.1.3 Snappy压缩库25
3.2 分布式通信系统26
3.2.1 远程过程调用26
3.2.2 消息队列27
3.2.3 应用层多播通信27
3.2.4 阿里云夸父RPC系统28
3.2.5 Hadoop IPC的应用29
3.3 分布式协同系统30
3.3.1 Chubby锁服务30
3.3.2 ZooKeeper32
3.3.3 阿里云女娲协同系统33
3.3.4 ZooKeeper在HDFS高可用方案中的使用33
3.4 习题35
第4章 大数据存储36
4.1 大数据存储技术的发展37
4.2 海量数据存储的关键技术38
4.2.1 数据分片与路由38
4.2.2 数据复制与一致性43
4.3 重要数据结构和算法44
4.3.1 Bloom Filter44
4.3.2 LSM Tree46
4.3.3 Merkle Tree47
4.3.4 Cuckoo Hash49
4.4 分布式文件系统49
4.4.1 文件存储格式49
4.4.2 GFS52
4.4.3 HDFS54
4.4.4 阿里云盘古55
4.5 分布式数据库NoSQL56
4.5.1 NoSQL数据库概述56
4.5.2 KV数据库57
4.5.3 列式数据库58
4.5.4 图数据库60
4.5.5 文档数据库62
4.6 阿里云数据库63
4.6.1 云数据库Redis63
4.6.2 云数据库RDS66
4.6.3 云数据库Memcache68
4.7 大数据存储技术的趋势72
4.8 习题72
第二部分 大数据处理75
第5章 分布式处理75
5.1 CPU多核和POSIX Thread75
5.2 MFI并行计算框架76
5.3 Hadoop MapReduce77
5.4 Spark78
5.5 数据处理技术的发展79
5.6 习题80
第6章 Hadoop MapReduce解析81
6.1 Hadoop MapReduce架构81
6.2 Hadoop MapReduce与高效能计算、网格计算的区别83
6.3 MapReduce工作机制83
6.3.1 Map84
6.3.2 Reduce85
6.3.3 Combine85
6.3.4 Shuffle85
6.3.5 Speculative Task86
6.3.6 任务容错87
6.4 应用案例88
6.4.1 WordCount88
6.4.2 WordMean91
6.4.3 Grep93
6.5 MapReduce的缺陷与不足95
6.6 习题95
第7章 Spark解析96
7.1 Spark RDD96
7.2 Spark与MapReduce的对比97
7.3 Spark的工作机制98
7.3.1 DAG工作图98
7.3.2 Partition99
7.3.3 Lineage容错方法100
7.3.4 内存管理100
7.3.5 数据持久化102
7.4 数据的读取102
7.4.1 HDFS102
7.4.2 Amazon S3102
7.4.3 HBase103
7.5 应用案例103
7.5.1 日志挖掘103
7.5.2 判别西瓜好坏104
7.6 Spark的发展趋势107
7.7 习题107
第8章 流计算108
8.1 流计算概述108
8.2 流计算与批处理系统的对比109
8.3 Storm流计算系统109
8.4 Samza流计算系统112
8.5 阿里云流计算113
8.6 集群日志文件的实时分析115
8.7 流计算的发展趋势119
8.8 习题120
第9章 图计算121
9.1 图计算概述121
9.2 图计算与流计算、批处理的对比123
9.3 Spark GraphX124
9.4 Pregel126
9.5 航班机场状态分析127
9.6 图计算的发展趋势128
9.7 习题129
第10章 阿里云大数据计算服务平台130
10.1 MaxCompute概述130
10.2 MR计算131
10.3 SQL计算138
10.4 Graph计算140
10.5 习题144
第11章 集群资源管理与调度145
11.1 集群资源统一管理系统146
11.1.1 集群资源管理概述146
11.1.2 Apache YARN147
11.1.3 Apache Mesos152
11.1.4 Google Omega153
11.2 资源管理模型154
11.2.1 基于slot的资源表示模型154
11.2.2 基于最大最小公平原则的资源分配模型154
11.3 资源调度策略155
11.3.1 调度策略概述155
11.3.2 Capacity Scheduler调度156
11.3.3 Fair Scheduler调度158
11.4 在YARN上运行计算框架160
11.4.1 MapReduce on YARN160
11.4.2 Spark on YARN161
11.4.3 YARN程序设计162
11.5 阿里云伏羲调度系统168
11.5.1 伏羲调度系统架构168
11.5.2 5K挑战169
11.5.3 伏羲优化实践170
11.6 习题171
第三部分 大数据分析与应用175
第12章 数据分析175
12.1 数据操作与绘图175
12.1.1 数据结构175
12.1.2 绘图功能176
12.2 初级数据分析177
12.2.1 描述性统计分析178
12.2.2 回归诊断178
12.3 交互式数据分析179
12.3.1 交互式数据分析的特征179
12.3.2 交互式数据处理的典型应用179
12.3.3 典型的处理系统180
12.4 数据仓库与分析181
12.4.1 数据仓库的基本架构182
12.4.2 数据仓库的实现步骤182
12.4.3 分布式数据仓库Hive184
12.4.4 数据仓库之SQL分析186
12.4.5 阿里云MaxCompute数据仓库案例187
12.5 习题192
第13章 数据挖掘与机器学习技术193
13.1 相关理论基础知识193
13.1.1 数据挖掘与机器学习简介193
13.1.2 关联分析194
13.1.3 分类与回归197
13.1.4 聚类分析200
13.1.5 离群点检测201
13.1.6 复杂数据类型的挖掘202
13.2 应用实践203
13.2.1 广告点击率预测203
13.2.2 并行随机梯度下降203
13.2.3 自然语言处理:文档相似性的计算204
13.2.4 阿里云PAI与ET205
13.3 深度学习207
13.3.1 深度学习简介207
13.3.2 DistBelief208
13.3.3 TensorFlow209
13.4 数据挖掘与机器学习的发展趋势212
13.5 习题212
第14章 大数据实践:基于数加平台的推荐系统213
14.1 数据集简介213
14.2 数据探索214
14.3 方案设计216
14.4 训练集构造216
14.4.1 MapReduce环境配置216
14.4.2 MapReduce代码编写217
14.4.3 特征提取与标签提取222
14.4.4 训练集采样224
14.4.5 缺失值填充225
14.5 模型训练与预测225
14.6 模型预测的准确性评测229
14.7 特征重要性的评估230
14.8 总结231
参考文献232