图书介绍

数据挖掘 商业数据分析技术与实践PDF|Epub|txt|kindle电子书版本网盘下载

数据挖掘 商业数据分析技术与实践
  • (美)盖丽特·徐茉莉(Galit Shmueli)著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302497660
  • 出版时间:2018
  • 标注页数:399页
  • 文件大小:56MB
  • 文件页数:416页
  • 主题词:商业信息-数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据挖掘 商业数据分析技术与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 预备知识2

1 导论2

1.1 什么是商业分析?2

1.2 什么是数据挖掘?4

1.3 数据挖掘及相关用语4

1.4 大数据5

1.5 数据科学6

1.6 为什么会有这么多不同的方法?7

1.7 术语和符号7

1.8 本书框架9

2 数据挖掘概述13

2.1 引言13

2.2 数据挖掘的核心思想14

2.3 数据挖掘步骤16

2.4 初步步骤18

2.5 预测能力和过拟合24

2.6 用JMP Pro建立预测模型29

2.7 用JMP Pro进行数据挖掘36

2.8 自动化数据挖掘解决方案37

第二部分 数据探索与降维46

3 数据可视化46

3.1 数据可视化的用途46

3.2 数据实例47

3.3 基本图形:条形图、折线图和散点图49

3.4 多维可视化56

3.5 特殊可视化68

3.6 基于数据挖掘目标的主要可视化方案和操作概要72

4 降维76

4.1 引言76

4.2 维度灾难77

4.3 实际考虑77

4.4 数据汇总78

4.5 相关分析82

4.6 减少分类变量中的类别数量82

4.7 将分类型变量转换为连续型变量84

4.8 主成分分析84

4.9 利用回归模型降维94

4.10 利用分类和回归树降维94

第三部分 性能评估98

5 评估预测效果98

5.1 引言98

5.2 评价预测性能99

5.3 评判分类效果101

5.4 评判分类性能112

5.5 过采样115

第四部分 预测与分类方法122

6 多元线性回归122

6.1 引言122

6.2 解释模型与预测模型123

6.3 估计回归方程和预测124

6.4 线性回归中的变量选择129

7 k近邻法142

7.1 k-NN分类(分类型结果变量)142

7.2 数值型结果变量下的k-NN方法147

7.3 k-NN算法的优点和缺点149

8 朴素贝叶斯分类器153

8.1 引言153

8.2 使用完全(精确)贝叶斯分类器155

8.3 朴素贝叶斯方法的优点和缺点163

9 分类和回归树168

9.1 引言168

9.2 分类树169

9.3 生成树172

9.4 评估分类树的效果176

9.5 避免过拟合178

9.6 树中的分类准则181

9.7 多分类的分类树182

9.8 回归树182

9.9 树的优点和缺点184

9.10 预测方法的提高:组合多棵树186

9.11 不纯度的提取和度量188

10 逻辑回归193

10.1 引言193

10.2 逻辑回归模型195

10.3 评价分类性能202

10.4 完整分析案例:预测航班延误205

10.5 附录:逻辑回归的概括214

11 神经网络225

11.1 引言225

11.2 神经网络的概念和结构226

11.3 拟合数据226

11.4 JMP Pro用户输入240

11.5 探索预测变量和响应变量的关系242

11.6 神经网络的优点和缺陷243

12 判别分析247

12.1 引言247

12.2 观测值到类的距离249

12.3 从距离到倾向和分类251

12.4 判别分析的分类性能254

12.5 先验概率255

12.6 多类别分类256

12.7 优点和缺点258

13 组合方法:集成算法和增量模型263

13.1 集成算法263

13.2 增量(说服)模型268

13.3 总结274

第五部分 挖掘记录之间的关系280

14 聚类分析280

14.1 引言280

14.2 定义两个观测值之间的距离284

14.3 定义两个类之间的距离288

14.4 系统(凝聚)聚类290

14.5 非系统聚类:k-means算法299

第六部分 时间序列预测310

15 时间序列处理310

15.1 引言310

15.2 描述性与预测性建模311

15.3 商业中的主流预测方法312

15.4 时间序列的构成312

15.5 数据分割和性能评价316

16 回归预测模型321

16.1 趋势模型321

16.2 季节模型327

16.3 趋势和季节模型330

16.4 自相关和ARIMA模型331

17 平滑法350

17.1 引言350

17.2 移动平均法351

17.3 简单指数平滑法355

17.4 高级指数平滑法358

第七部分 案例372

18 案例372

18.1 查尔斯图书俱乐部372

18.2 德国信贷378

18.3 太古软件编目382

18.4 政治说教385

18.5 出租车订单取消388

18.6 浴皂的消费者细分390

18.7 直邮筹款393

18.8 破产预测395

18.9 时间序列案例:预测公共交通需求398

热门推荐