图书介绍
从零开始学Python数据分析与挖掘PDF|Epub|txt|kindle电子书版本网盘下载
![从零开始学Python数据分析与挖掘](https://www.shukui.net/cover/27/32423138.jpg)
- 刘顺祥著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302509875
- 出版时间:2018
- 标注页数:366页
- 文件大小:182MB
- 文件页数:378页
- 主题词:软件工具-程序设计
PDF下载
下载说明
从零开始学Python数据分析与挖掘PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 数据分析与挖掘概述1
1.1 什么是数据分析和挖掘1
1.2 数据分析与挖掘的应用领域2
1.2.1 电商领域——发现破坏规则的“害群之马”2
1.2.2 交通出行领域——为打车平台进行私人订制3
1.2.3 医疗健康领域——找到最佳医疗方案3
1.3 数据分析与挖掘的区别4
1.4 数据挖掘的流程5
1.4.1 明确目标5
1.4.2 数据搜集6
1.4.3 数据清洗6
1.4.4 构建模型7
1.4.5 模型评估7
1.4.6 应用部署8
1.5 常用的数据分析与挖掘工具8
1.6 本章小结9
第2章 从收入的预测分析开始10
2.1 下载与安装Anoconda10
2.1.1 基于Windows系统安装11
2.1.2 基于Mac系统安装12
2.1.3 基于Linux系统安装14
2.2 基于Python的案例实战14
2.2.1 数据的预处理14
2.2.2 数据的探索性分析16
2.2.3 数据建模19
2.3 本章小结28
第3章 Python快速入门29
3.1 数据结构及方法29
3.1.1 列表29
3.1.2 元组34
3.1.3 字典35
3.2 控制流38
3.2.1 if分支38
3.2.2 for循环39
3.2.3 while循环41
3.3 字符串处理方法43
3.3.1 字符串的常用方法43
3.3.2 正则表达式45
3.4 自定义函数47
3.4.1 自定义函数语法47
3.4.2 自定义函数的几种参数49
3.5 一个爬虫案例52
3.6 本章小结54
第4章 Python数值计算工具——Numpy56
4.1 数组的创建与操作56
4.1.1 数组的创建56
4.1.2 数组元素的获取57
4.1.3 数组的常用属性58
4.1.4 数组的形状处理59
4.2 数组的基本运算符62
4.2.1 四则运算62
4.2.2 比较运算63
4.2.3 广播运算65
4.3 常用的数学和统计函数66
4.4 线性代数的相关计算67
4.4.1 矩阵乘法68
4.4.2 diag函数的使用69
4.4.3 特征根与特征向量69
4.4.4 多元线性回归模型的解70
4.4.5 多元一次方程组的求解70
4.4.6 范数的计算71
4.5 伪随机数的生成71
4.6 本章小结74
第5章 Python数据处理工具——Pandas76
5.1 序列与数据框的构造76
5.1.1 构造序列77
5.1.2 构造数据框78
5.2 外部数据的读取79
5.2.1 文本文件的读取79
5.2.2 电子表格的读取81
5.2.3 数据库数据的读取83
5.3 数据类型转换及描述统计85
5.4 字符与日期数据的处理89
5.5 常用的数据清洗方法93
5.5.1 重复观测处理93
5.5.2 缺失值处理94
5.5.3 异常值处理97
5.6 数据子集的获取99
5.7 透视表功能101
5.8 表之间的合并与连接104
5.9 分组聚合操作107
5.10 本章小结108
第6章 Python数据可视化110
6.1 离散型变量的可视化110
6.1.1 饼图110
6.1.2 条形图115
6.2 数值型变量的可视化125
6.2.1 直方图与核密度曲线125
6.2.2 箱线图129
6.2.3 小提琴图133
6.2.4 折线图135
6.3 关系型数据的可视化139
6.3.1 散点图139
6.3.2 气泡图142
6.3.3 热力图144
6.4 多个图形的合并146
6.5 本章小结148
第7章 线性回归预测模型150
7.1 一元线性回归模型150
7.2 多元线性回归模型153
7.2.1 回归模型的参数求解154
7.2.2 回归模型的预测155
7.3 回归模型的假设检验157
7.3.1 模型的显著性检验——F检验158
7.3.2 回归系数的显著性检验——t检验160
7.4 回归模型的诊断162
7.4.1 正态性检验162
7.4.2 多重共线性检验164
7.4.3 线性相关性检验165
7.4.4 异常值检验167
7.4.5 独立性检验170
7.4.6 方差齐性检验170
7.5 本章小结173
第8章 岭回归与LASSO回归模型174
8.1 岭回归模型174
8.1.1 参数求解175
8.1.2 系数求解的几何意义176
8.2 岭回归模型的应用177
8.2.1 可视化方法确定λ值177
8.2.2 交叉验证法确定λ值179
8.2.3 模型的预测180
8.3 LASSO回归模型182
8.3.1 参数求解182
8.3.2 系数求解的几何意义183
8.4 LASSO回归模型的应用184
8.4.1 可视化方法确定λ值184
8.4.2 交叉验证法确定λ值186
8.4.3 模型的预测187
8.5 本章小结189
第9章 Logistic回归分类模型190
9.1 Logistic模型的构建191
9.1.1 Logistic模型的参数求解193
9.1.2 Logistic模型的参数解释195
9.2 分类模型的评估方法195
9.2.1 混淆矩阵196
9.2.2 ROC曲线197
9.2.3 K-S曲线198
9.3 Logistic回归模型的应用200
9.3.1 模型的构建200
9.3.2 模型的预测202
9.3.3 模型的评估203
9.4 本章小结207
第10章 决策树与随机森林208
10.1 节点字段的选择209
10.1.1 信息增益210
10.1.2 信息增益率212
10.1.3 基尼指数213
10.2 决策树的剪枝216
10.2.1 误差降低剪枝法217
10.2.2 悲观剪枝法217
10.2.3 代价复杂度剪枝法219
10.3 随机森林220
10.4 决策树与随机森林的应用222
10.4.1 分类问题的解决222
10.4.2 预测问题的解决229
10.5 本章小结231
第11章 KNN模型的应用233
11.1 KNN算法的思想233
11.2 最佳k值的选择234
11.3 相似度的度量方法235
11.3.1 欧式距离235
11.3.2 曼哈顿距离236
11.3.3 余弦相似度236
11.3.4 杰卡德相似系数237
11.4 近邻样本的搜寻方法238
11.4.1 KD树搜寻法238
11.4.2 球树搜寻法242
11.5 KNN模型的应用244
11.5.1 分类问题的解决245
11.5.2 预测问题的解决248
11.6 本章小结251
第12章 朴素贝叶斯模型253
12.1 朴素贝叶斯理论基础253
12.2 几种贝叶斯模型255
12.2.1 高斯贝叶斯分类器255
12.2.2 高斯贝叶斯分类器的应用257
12.2.3 多项式贝叶斯分类器259
12.2.4 多项式贝叶斯分类器的应用261
12.2.5 伯努利贝叶斯分类器264
12.2.6 伯努利贝叶斯分类器的应用266
12.3 本章小结271
第13章 SVM模型的应用272
13.1 SVM简介273
13.1.1 距离公式的介绍273
13.1.2 SVM的实现思想274
13.2 几种常见的SVM模型276
13.2.1 线性可分的SVM276
13.2.2 一个手动计算的案例279
13.2.3 近似线性可分SVM281
13.2.4 非线性可分SVM284
13.2.5 几种常用的SVM核函数285
13.2.6 SVM的回归预测287
13.3 分类问题的解决289
13.4 预测问题的解决291
13.5 本章小结294
第14章 GBDT模型的应用296
14.1 提升树算法297
14.1.1 AdaBoost算法的损失函数297
14.1.2 AdaBoost算法的操作步骤299
14.1.3 AdaBoost算法的简单例子300
14.1.4 AdaBoost算法的应用302
14.2 梯度提升树算法308
14.2.1 GBDT算法的操作步骤308
14.2.2 GBDT分类算法309
14.2.3 GBDT回归算法309
14.2.4 GBDT算法的应用310
14.3 非平衡数据的处理313
14.4 XGBoost算法315
14.4.1 XGBoost算法的损失函数315
14.4.2 损失函数的演变317
14.4.3 XGBoost算法的应用319
14.5 本章小结324
第15章 Kmeans聚类分析326
15.1 Kmeans聚类327
15.1.1 Kmeans的思想327
15.1.2 Kmeans的原理328
15.2 最佳k值的确定329
15.2.1 拐点法329
15.2.2 轮廓系数法332
15.2.3 间隔统计量法333
15.3 Kmeans聚类的应用336
15.3.1 iris数据集的聚类336
15.3.2 NBA球员数据集的聚类339
15.4 Kmeans聚类的注意事项343
15.5 本章小结343
第16章 DBSCAN与层次聚类分析345
16.1 密度聚类简介345
16.1.1 密度聚类相关的概念346
16.1.2 密度聚类的步骤347
16.2 密度聚类与Kmeans的比较349
16.3 层次聚类353
16.3.1 簇间的距离度量354
16.3.2 层次聚类的步骤356
16.3.3 三种层次聚类的比较357
16.4 密度聚类与层次聚类的应用359
16.5 本章小结365