图书介绍

Hive实战PDF|Epub|txt|kindle电子书版本网盘下载

Hive实战
  • (美)斯科特·肖,(南非)安德烈亚斯·弗朗索瓦·弗穆尔恩 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115493910
  • 出版时间:2018
  • 标注页数:238页
  • 文件大小:60MB
  • 文件页数:249页
  • 主题词:数据库系统-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hive实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 为Hive打好基础:Hadoop1

1.1 一只小象出生了2

1.2 Hadoop的结构3

1.3 数据冗余6

1.3.1 传统的高可用性6

1.3.2 Hadoop的高可用性9

1.4 MapReduce处理12

1.4.1 超越MapReduce16

1.4.2 YARN和现代数据架构17

1.4.3 Hadoop和开源社区19

1.4.4 我们身在何处22

第2章 Hive简介24

2.1 Hadoop发行版25

2.2 集群架构27

2.3 Hive的安装30

2.4 探寻你的方式32

2.5 Hive CLI35

第3章 Hive架构37

3.1 Hive组件37

3.2 HCatalog38

3.3 HiveServer240

3.4 客户端工具42

3.5 执行引擎:Tez46

第4章 Hive表D D L48

4.1 schema-on-read48

4.2 Hive数据模型49

4.2.1 模式/数据库49

4.2.2 为什么使用多个模式/数据库49

4.2.3 创建数据库49

4.2.4 更改数据库50

4.2.5 删除数据库50

4.2.6 列出数据库51

4.3 Hive中的数据类型51

4.3.1 基本数据类型51

4.3.2 选择数据类型51

4.3.3 复杂数据类型52

4.4 表53

4.4.1 创建表53

4.4.2 列出表54

4.4.3 内部表/外部表54

4.4.4 内部表/受控表55

4.4.5 内部表/外部表示例55

4.4.6 表的属性59

4.4.7 生成已有表的CREATE TABLE命令60

4.4.8 分区和分桶61

4.4.9 分区注意事项63

4.4.10 对日期列进行高效分区63

4.4.11 分桶的注意事项65

4.4.12 更改表66

4.4.13 ORC文件格式67

4.4.14 更改表分区68

4.4.15 修改列72

4.4.16 删除表/分区72

4.4.17 保护表/分区73

4.4.18 其他CREATE TABLE命令选项73

第5章 数据操作语言75

5.1 将数据装载到表中75

5.1.1 使用存储在HDFS中的文件装载数据75

5.1.2 使用查询装载数据77

5.1.3 将查询到的数据写入文件系统80

5.1.4 直接向表插入值81

5.1.5 直接更新表中数据83

5.1.6 在表中直接删除数据84

5.1.7 创建结构相同的表85

5.2 连接86

5.2.1 使用等值连接来整合表86

5.2.2 使用外连接87

5.2.3 使用左半连接89

5.2.4 用单次MapReduce实现连接90

5.2.5 最后使用最大的表91

5.2.6 事务处理92

5.2.7 ACID是什么,以及为什么要用到它92

5.2.8 Hive配置92

第6章 将数据装载到Hive94

6.1 装载数据之前的设计注意事项94

6.2 将数据装载到HDFS95

6.2.1 Ambari文件视图95

6.2.2 Hadoop命令行97

6.2.3 HDFS的NFS Gateway97

6.2.4 Sqoop98

6.2.5 Apache NiFi101

6.3 用Hive访问数据105

6.3.1 外部表105

6.3.2 LOAD DATA语句106

6.4 在Hive中装载增量变更数据107

6.5 Hive流处理107

6.6 小结108

第7章 查询半结构化数据109

7.1 点击流数据111

7.1.1 摄取数据113

7.1.2 创建模式116

7.1.3 装载数据116

7.1.4 查询数据116

7.2 摄取JSON数据119

7.2.1 使用UDF查询JSON121

7.2.2 使用SerDe访问JSON122

第8章 Hive分析125

8.1 构建分析模型125

8.1.1 使用太阳模型获取需求125

8.1.2 将太阳模型转换为星型模式129

8.1.3 构建数据仓库137

8.2 评估分析模型140

8.2.1 评估太阳模型140

8.2.2 评估聚合结果142

8.2.3 评估数据集市143

8.3 掌握数据仓库管理144

8.3.1 必备条件144

8.3.2 检索数据库144

8.3.3 评估数据库147

8.3.4 过程数据库160

8.3.5 转换数据库185

8.3.6 你掌握了什么192

8.3.7 组织数据库192

8.3.8 报表数据库196

8.3.9 示例报表197

8.4 高级分析199

8.5 接下来学什么199

第9章 Hive性能调优200

9.1 Hive性能检查表200

9.2 执行引擎201

9.2.1 MapReduce201

9.2.2 Tez201

9.3 存储格式203

9.3.1 ORC格式203

9.3.2 Parquet格式205

9.4 矢量化查询执行206

9.5 查询执行计划206

9.5.1 基于代价的优化208

9.5.2 执行计划210

9.5.3 性能检查表小结212

第10章 Hive的安全性213

10.1 数据安全性的几个方面213

10.1.1 身份认证214

10.1.2 授权214

10.1.3 管理214

10.1.4 审计214

10.1.5 数据保护214

10.2 Hadoop的安全性215

10.3 Hive的安全性215

10.3.1 默认授权模式215

10.3.2 基于存储的授权模式216

10.3.3 基于SQL标准的授权模式217

10.3.4 管理通过SQL进行的访问218

10.4 使用Ranger进行Hive授权219

10.4.1 访问Ranger用户界面220

10.4.2 创建Ranger策略220

10.4.3 使用Ranger审计222

第11章 Hive的未来224

11.1 LLAP224

11.2 Hive-on-Spark225

11.3 Hive: ACID和MERGE225

11.4 可调隔离等级225

11.5 ROLAP/基于立方体的分析226

11.6 HiveServer2的发展226

11.7 面向不同工作负载的多个HiveServer2实例226

附录A 建立大数据团队227

附录B Hive函数231

热门推荐