图书介绍

Spark机器学习 核心技术与实践PDF|Epub|txt|kindle电子书版本网盘下载

Spark机器学习 核心技术与实践
  • (美)亚历克斯·特列斯,(美)马克斯·帕普拉,(美)迈克尔·马洛赫拉瓦著;邵赛赛,阳卫清,唐明洁译 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111598466
  • 出版时间:2018
  • 标注页数:229页
  • 文件大小:27MB
  • 文件页数:246页
  • 主题词:机器学习

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark机器学习 核心技术与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大规模机器学习和Spark入门1

1.1 数据科学2

1.2 数据科学家:21世纪最炫酷的职业2

1.2.1 数据科学家的一天3

1.2.2 大数据处理4

1.2.3 分布式环境下的机器学习算法4

1.2.4 将数据拆分到多台机器6

1.2.5 从Hadoop MapReduce到Spark6

1.2.6 什么是Databricks7

1.2.7 Spark包含的内容8

1.3 H2O.ai简介8

1.4 H2O和Spark MLlib的区别10

1.5 数据整理10

1.6 数据科学:一个迭代过程11

1.7 小结11

第2章 探索暗物质:希格斯玻色子12

2.1 Ⅰ型错误与Ⅱ型错误12

2.1.1 寻找希格斯玻色子13

2.1.2 LHC和数据的创建13

2.1.3 希格斯玻色子背后的理论14

2.1.4 测量希格斯玻色子14

2.1.5 数据集14

2.2 启动Spark与加载数据15

2.2.1 标记点向量22

2.2.2 创建训练和测试集合24

2.2.3 第一个模型:决策树26

2.2.4 下一个模型:集合树32

2.2.5 最后一个模型:H2O深度学习37

2.2.6 构建一个3层DNN39

2.3 小结45

第3章 多元分类的集成方法46

3.1 数据47

3.2 模型目标48

3.2.1 挑战48

3.2.2 机器学习工作流程48

3.2.3 使用随机森林建模61

3.3 小结78

第4章 使用NLP和Spark Streaming预测电影评论80

4.1 NLP简介81

4.2 数据集82

4.3 特征提取85

4.3.1 特征提取方法:词袋模型85

4.3.2 文本标记86

4.4 特征化——特征哈希89

4.5 我们来做一些模型训练吧92

4.5.1 Spark决策树模型93

4.5.2 Spark朴素贝叶斯模型94

4.5.3 Spark随机森林模型95

4.5.4 Spark GBM模型96

4.5.5 超级学习器模型97

4.6 超级学习器97

4.6.1 集合所有的转换101

4.6.2 使用超级学习器模型105

4.7 小结105

第5章 word2vec预测和聚类107

5.1 词向量的动机108

5.2 word2vec解释108

5.2.1 什么是单词向量108

5.2.2 CBOW模型110

5.2.3 skip-gram模型111

5.2.4 玩转词汇向量112

5.2.5 余弦相似性113

5.3 doc2vec解释113

5.3.1 分布式内存模型113

5.3.2 分布式词袋模型114

5.4 应用word2vec并用向量探索数据116

5.5 创建文档向量118

5.6 监督学习任务119

5.7 小结123

第6章 从点击流数据中抽取模式125

6.1 频繁模式挖掘126

6.2 使用Spark MLlib进行模式挖掘130

6.2.1 使用FP-growth进行频繁模式挖掘131

6.2.2 关联规则挖掘136

6.2.3 使用prefix span进行序列模式挖掘138

6.2.4 在MSNBC点击流数据上进行模式挖掘141

6.3 部署模式挖掘应用147

6.4 小结154

第7章 使用GraphX进行图分析155

7.1 基本的图理论156

7.1.1 图156

7.1.2 有向和无向图156

7.1.3 阶和度157

7.1.4 有向无环图158

7.1.5 连通分量159

7.1.6 树160

7.1.7 多重图160

7.1.8 属性图161

7.2 GraphX分布式图计算引擎162

7.2.1 GraphX中图的表示163

7.2.2 图的特性和操作165

7.2.3 构建和加载图170

7.2.4 使用Gephi可视化图结构172

7.2.5 图计算进阶178

7.2.6 GraphFrame181

7.3 图算法及其应用183

7.3.1 聚类183

7.3.2 顶点重要性185

7.4 GraphX在上下文中188

7.5 小结189

第8章 Lending Club借贷预测190

8.1 动机190

8.1.1 目标191

8.1.2 数据192

8.1.3 数据字典192

8.2 环境准备193

8.3 数据加载193

8.4 探索——数据分析194

8.4.1 基本清理194

8.4.2 预测目标200

8.4.3 使用模型评分221

8.4.4 模型部署224

8.5 小结229

热门推荐