图书介绍
大数据技术全解 基础、设计、开发与实践PDF|Epub|txt|kindle电子书版本网盘下载
![大数据技术全解 基础、设计、开发与实践](https://www.shukui.net/cover/12/35035391.jpg)
- 杨巨龙编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121223433
- 出版时间:2014
- 标注页数:358页
- 文件大小:63MB
- 文件页数:378页
- 主题词:企业管理-数据管理
PDF下载
下载说明
大数据技术全解 基础、设计、开发与实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1篇 基础篇2
第1章 大数据的三把利剑2
1.1 豌豆杂交实验2
1.2 曹冲称象启示2
1.3 谷歌的三把利剑4
1.4 智慧改变世界4
第2章 企业的大数据观5
2.1 企业面临的挑战5
2.1.1 数据能力是核心竞争力5
2.1.2 从粗放经营到智慧经营6
2.1.3 技术与商业的双重挑战6
2.2 企业大数据从哪来7
2.2.1 来自于主体的产生7
2.2.2 来自于客体的产生8
2.2.3 来自于社会的产生9
2.3 企业大数据如何存储9
2.3.1 非结构化数据存储9
2.3.2 结构化数据存储10
2.3.3 半结构化数据存储11
2.3.4 大数据存储的问题12
2.4 企业大数据如何加工13
2.4.1 分析或挖掘模型设计14
2.4.2 并行处理程序编码15
2.4.3 结果在全局中呈现17
2.5 企业的大数据到哪里去17
2.5.1 大数据对企业影响深远17
2.5.2 大数据是一种新商品18
2.5.3 精准营销需要大数据18
2.6 企业大数据观总结19
第3章 大数据和大数据系统20
3.1 大数据20
3.1.1 大数据概念20
3.1.2 大数据的特征21
3.1.3 数据计量单位21
3.1.4 大数据来源22
3.1.5 大数据类型22
3.2 大数据系统22
3.2.1 设计目标和原则23
3.2.2 系统的设计思想23
3.2.3 系统的逻辑架构25
3.2.4 与现有系统的关系26
3.2.5 当前的大数据系统28
第2篇 技术篇36
第4章 分布、键值对与族36
4.1 分布与MapReduce36
4.2 键值对的奥妙所在38
4.3 动态数据库表原理39
第5章 HDFS(分布式文件系统)40
5.1 设计目标40
5.2 基本概念40
5.2.1 块41
5.2.2 名称节点与数据节点41
5.3 系统架构42
5.3.1 逻辑架构42
5.3.2 物理架构43
5.4 运行机制43
5.4.1 文件读取43
5.4.2 文件写入44
5.4.3 特别关注46
5.5 系统功能49
5.5.1 多文件系统49
5.5.2 目录管理50
5.5.3 文件管理50
5.5.4 文件归档51
5.5.5 并行复制52
5.6 系统I/O特性52
5.6.1 完整性校验52
5.6.2 压缩与编码解码54
5.6.3 序列化55
5.6.4 特殊文件结构56
5.7 非Java访问接口57
5.8 系统性能58
5.8.1 可靠性措施58
5.8.2 性能优化59
第6章 MapReduce分布式编程模式60
6.1 不同于传统60
6.2 设计思想61
6.3 基本概念61
6.3.1 map()函数62
6.3.2 reduce()函数62
6.3.3 键值对63
6.3.4 中间结果63
6.3.5 移动代码64
6.3.6 作业和任务节点65
6.4 系统架构65
6.4.1 逻辑架构65
6.4.2 物理架构66
6.5 运行机制67
6.5.1 作业运行67
6.5.2 作业调度69
6.5.3 任务执行70
6.5.4 状态更新70
6.5.5 作业完成71
6.5.6 故障处理71
6.6 关键技术72
6.6.1 计数器72
6.6.2 排序73
6.6.3 连接73
6.6.4 shuffle74
6.6.5 内存处理75
6.6.6 分布式缓存76
6.7 类型与格式77
6.7.1 MR的类型77
6.7.2 输入格式78
6.7.3 输出格式80
6.8 MR的开发81
6.8.1 开发端环境的建立82
6.8.2 开发及单元测试84
6.8.3 本地运行测试87
6.8.4 集群运行89
6.8.5 作业调试92
6.8.6 远程调试93
6.8.7 作业调优94
6.9 MR 工作流95
第7章 HBase分布式数据库96
7.1 设计目标96
7.2 基本概念97
7.2.1 逻辑模型97
7.2.2 物理模型98
7.2.3 区域99
7.2.4 基本单元99
7.2.5 Region服务器100
7.2.6 Master主服务器101
7.2.7.META.元数据表101
7.2.8 -ROOT-元数据表102
7.3 系统架构103
7.3.1 逻辑架构104
7.3.2 物理架构105
7.4 运行机制105
7.5 系统功能107
7.5.1 用户界面107
7.5.2 shell操作109
7.6 库表设计112
7.7 访问接口112
第3篇 设计篇116
第8章 系统设计背景和目标116
8.1 系统设计背景116
8.2 系统设计目标117
8.2.1 存在问题117
8.2.2 设计目标118
第9章 系统架构设计121
9.1 逻辑架构设计121
9.1.1 系统逻辑架构121
9.1.2 系统运行逻辑122
9.2 功能架构设计123
9.2.1 大数据管理系统的功能124
9.2.2 ZooKeeper系统的功能126
9.2.3 Chukwa采集系统的功能127
9.2.4 Pig系统功能127
9.2.5 Hive系统功能128
9.3 数据架构设计128
9.3.1 数据总体架构129
9.3.2 分布式文件数据结构130
9.3.3 分布式数据库数据结构130
9.3.4 关系型数据库数据构成131
第10章 运行架构设计132
10.1 物理架构设计133
10.1.1 网络拓扑133
10.1.2 软/件选型133
10.2 集成架构设计135
10.2.1 总体集成设计135
10.2.2 专项集成设计137
10.3 安全架构设计140
10.3.1 用户层安全140
10.3.2 应用层安全141
10.3.3 数据层安全141
10.4 开发架构设计142
第4篇 安装篇144
第11章 安装规划144
11.1 安装目标144
11.2 安装步骤145
第12章 环境准备147
12.1 主机准备147
12.2 介质准备147
12.3 基础安装148
12.3.1 JDK安装148
12.3.2 用户创建148
12.3.3 SSH配置149
第13章 集群安装150
13.1 HDFS集群150
13.1.1 解析配置150
13.1.2 模板创建151
13.1.3 复制分发153
13.1.4 运行启动153
13.1.5 测试验证154
13.2 HBase集群156
13.2.1 解析配置156
13.2.2 模板创建157
13.2.3 复制分发158
13.2.4 运行启动158
13.2.5 测试验证158
13.3 ZooKeeper集群159
13.3.1 解析配置159
13.3.2 模板创建160
13.3.3 复制分发160
13.3.4 运行启动161
13.3.5 测试验证161
第14章 分布式应用安装163
14.1 Pig安装163
14.1.1 本地安装163
14.1.2 本地验证164
14.1.3 集成配置164
14.1.4 集成验证165
14.2 Hive安装165
14.2.1 内嵌安装与验证166
14.2.2 从内嵌改为独立166
14.2.3 从独立改为远程169
14.3 Chukwa安装171
14.3.1 基础系统安装171
14.3.2 代理系统安装172
14.3.3 收集系统的安装174
14.3.4 作业系统的安装175
14.3.5 HICC系统的安装176
第15章 集成联调177
15.1 集群间的集成联调177
15.1.1 HBase与HDFS集成联调177
15.1.2 HBase与ZooKeeper集成联调178
15.2 分布式应用与集群间的集成联调179
15.2.1 Pig与HDFS的集成179
15.2.2 Hive与HDFS的集成180
15.2.3 Hive与Hbase的集成181
15.2.4 Chukwa与HDFS的集成183
15.3 客户端与分布式系统间的集成联调184
15.3.1 与分布式集群系统的集成184
15.3.2 与分布式应用系统的集成185
第5篇 开发篇188
第16章 大数据系统应用开发思路和环境188
16.1 总体思路188
16.1.1 大数据读写应用的开发188
16.1.2 大数据分析应用的开发188
16.2 开发环境189
16.2.1 Plugin插件的安装189
16.2.2 Hadoop开发环境的配置190
16.2.3 示例程序验证191
第17章 HDFS文件读/写应用开发196
17.1 文件列表196
17.2 文件读取197
17.3 文件上传198
17.4 文件创建199
17.5 文件写入200
17.6 文件压缩与解压201
17.6.1 压缩写入201
17.6.2 解压后读取203
17.7 目录创建205
17.8 文件重命名206
17.9 删除文件207
17.10 查看文件时间208
17.11 查看文件是否存在209
17.12 查找文件位置210
17.13 查找集群所有的节点211
17.14 SequenceFile文件格式转换212
17.14.1 创建SequenceFile格式的文件213
17.14.2 读取SequenceFile格式的文件215
17.15 MapFile文件格式转换217
17.15.1 创建MapFile格式的文件217
17.15.2 读取MapFile格式的文件218
17.15.3 SequenceFile格式转换成MapFile格式220
第18章 HBase数据库读/写应用开发222
18.1 创建表222
18.2 删除表224
18.3 查询数据库中的表225
18.4 插入记录226
18.5 查询记录228
18.5.1 列族的查询228
18.5.2 查询所有记录229
18.5.3 基于行键查询231
18.5.4 基于标签值查询232
18.5.5 组合条件查询234
18.6 修改记录236
18.7 删除记录237
第19章 ZooKeeper开发238
19.1 创建节点238
19.2 删除节点240
19.3 加入子节点242
19.4 列出节点成员242
19.5 获取节点内容244
第20章 MapReduce开发247
20.1 定制数据类型247
20.2 定制输入格式250
20.3 定制输出格式254
20.4 将整个文件作为输入259
20.5 小文件聚合成一个文件264
20.6 多集合文件输出266
20.7 对压缩数据处理268
20.8 定制partioner271
20.9 定制combiner274
20.10 MapReduce组合278
20.10.1 迭代组合278
20.10.2 线性组合283
20.10.3 依赖组合284
20.10.4 前后链式组合288
20.11 多数据源连接292
20.11.1 Reduce端连接292
20.11.2 Map端连接297
20.11.3 Map端过滤的Reduce端连接300
20.12 全局参数应用305
20.13 全局文件应用309
20.14 关系数据库访问311
20.14.1 关系数据库读取312
20.14.2 关系数据库的写入315
第21章 Pig开发319
21.1 脚本编程319
21.1.1 脚本语言319
21.1.2 脚本编程322
21.1.3 脚本运行323
21.2 自定义函数327
21.2.1 编译打包327
21.2.2 测试运行328
第22章 Hive开发329
22.1 HiveQL语言329
22.1.1 HiveQL的数据类型329
22.1.2 HiveQL的常用操作330
22.2 UDF编码339
22.3 UDAF编码341
22.4 客户端编码343
22.4.1 与Hive服务器端连接建立343
22.4.2 与Hive进行指令交互344
22.4.3 客户端命令组织345
22.4.4 程序运行结果346
第6篇 实践篇348
第23章 企业大数据盘系统348
23.1 系统开发背景348
23.2 系统架构设计348
23.3 系统功能设计349
23.4 系统代码实现350
第24章 Hadoop的日志分析352
24.1 系统开发背景352
24.2 系统架构设计352
24.3 系统功能设计353
24.4 系统代码实现353
24.4.1 系统连接代码353
24.4.2 Hive模块代码355
24.4.3 系统组织代码356
24.5 系统实现效果357
参考文献358