图书介绍
数据科学实战PDF|Epub|txt|kindle电子书版本网盘下载
![数据科学实战](https://www.shukui.net/cover/72/34409917.jpg)
- (美)舒特,(美)奥尼尔著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115383495
- 出版时间:2015
- 标注页数:290页
- 文件大小:49MB
- 文件页数:333页
- 主题词:数据管理
PDF下载
下载说明
数据科学实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 简介:什么是数据科学1
1.1 大数据和数据科学的喧嚣1
1.2 冲出迷雾2
1.3 为什么是现在3
1.4 数据科学的现状和历史5
1.5 数据科学的知识结构8
1.6 思维实验:元定义10
1.7 什么是数据科学家11
1.7.1 学术界对数据科学家的定义12
1.7.2 工业界对数据科学家的定义12
第2章 统计推断、探索性数据分析和数据科学工作流程14
2.1 大数据时代的统计学思考14
2.1.1 统计推断15
2.1.2 总体和样本16
2.1.3 大数据的总体和样本17
2.1.4 大数据意味着大胆的假设19
2.1.5 建模21
2.2 探索性数据分析26
2.2.1 探索性数据分析的哲学27
2.2.2 练习:探索性数据分析29
2.3 数据科学的工作流程31
2.4 思维实验:如何模拟混沌34
2.5 案例学习:RealDirect35
2.5.1 RealDirect是如何赚钱的36
2.5.2 练一练:RealDirect公司的数据策略36
第3章 算法39
3.1 机器学习算法40
3.2 三大基本算法41
3.2.1 线性回归模型42
3.2.2 k近邻模型(k-NN)55
3.2.3 k均值算法64
3.3 练习:机器学习算法基础68
3.4 总结72
3.5 思维实验:关于统计学家的自动化73
第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理74
4.1 思维实验:从实例中学习74
4.1.1 线性回归为何不适用75
4.1.2 k近邻效果如何77
4.2 朴素贝叶斯模型78
4.2.1 贝叶斯法则79
4.2.2 个别单词的过滤器80
4.2.3 直通朴素贝叶斯82
4.3 拉普拉斯平滑法83
4.4 对比朴素贝叶斯和k近邻85
4.5 Bash代码示例85
4.6 网页抓取:API和其他工具87
4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型88
第5章 逻辑回归92
5.1 思维实验93
5.2 分类器94
5.2.1 运行时间95
5.2.2 你自己95
5.2.3 模型的可解释性95
5.2.4 可扩展性96
5.3 逻辑回归:一个来自M6D的真实案例研究96
5.3.1 点击模型96
5.3.2 模型背后97
5.3.3 α和β的参数估计99
5.3.4 牛顿法101
5.3.5 随机梯度下降法101
5.3.6 操练101
5.3.7 模型评价102
5.4 练习题105
第6章 时间戳数据与金融建模110
6.1 Kyle Teague与GetGlue公司110
6.2 时间戳112
6.2.1 探索性数据分析(EDA)113
6.2.2 指标和新变量117
6.2.3 下一步怎么做117
6.3 轮到Cathy O’Neill了118
6.4 思维实验118
6.5 金融建模119
6.5.1 样本期内外以及因果关系120
6.5.2 金融数据处理121
6.5.3 对数收益率123
6.5.4 实例:标准普尔指数124
6.5.5 如何衡量波动率126
6.5.6 指数平滑法128
6.5.7 金融模型的反馈128
6.5.8 聊聊回归模型130
6.5.9 先验信息量130
6.5.10 一个小例子131
6.6 练习:GetGlue提供的时间戳数据134
第7章 从数据到结论136
7.1 William Cukierski136
7.1.1 背景介绍:数据科学竞赛136
7.1.2 背景介绍:众包模式137
7.2 Kaggle模式139
7.2.1 Kaggle的参赛者140
7.2.2 Kaggle的客户141
7.3 思维实验:关于作业自动评分系统143
7.4 特征选择145
7.4.1 例子:留住用户146
7.4.2 过滤型149
7.4.3 包装型149
7.4.4 决策树与嵌入型变量选择151
7.4.5 熵153
7.4.6 决策树算法155
7.4.7 如何在决策树模型中处理连续性变量156
7.4.8 随机森林157
7.4.9 用户黏性:模型的预测能力与可解释性159
7.5 David Huffaker:谷歌社会学研究的新方法160
7.5.1 从描述性统计到预测模型161
7.5.2 谷歌的社交研究163
7.5.3 隐私保护163
7.5.4 思维实验:如何消除用户的顾虑164
第8章 构建面向大量用户的推荐引擎165
8.1 一个真实的推荐引擎166
8.1.1 最近邻算法回顾167
8.1.2 最近邻模型的已知问题168
8.1.3 超越近邻模型:基于机器学习的分类模型169
8.1.4 高维度问题171
8.1.5 奇异值分解(SVD)172
8.1.6 关于SVD的重要特性172
8.1.7 主成分分析(PCA)173
8.1.8 交替最小二乘法174
8.1.9 固定矩阵V,更新矩阵U175
8.1.10 关于这些算法的一点思考176
8.2 思维实验:如何过滤模型中的泡沫176
8.3 练习:搭建自己的推荐系统176
第9章 数据可视化与欺诈侦测179
9.1 数据可视化的历史179
9.1.1 Gabriel Tarde180
9.1.2 Mark的思维实验181
9.2 到底什么是数据科学181
9.2.1 Processing182
9.2.2 Franco Moretti182
9.3 一个数据可视化的方案实例183
9.4 Mark的数据可视化项目186
9.4.1 《纽约时报》大厅里的可视化:Moveable Type186
9.4.2 屏幕上的生命:Cascade可视化项目188
9.4.3 Cronkite广场项目189
9.4.4 eBay与图书网购190
9.4.5 公共剧场里的“莎士比亚机”192
9.4.6 这些展览的目的是什么193
9.5 数据科学和风险193
9.5.1 关于Square公司194
9.5.2 支付风险194
9.5.3 模型效果的评估问题197
9.5.4 建模小贴士200
9.6 数据可视化在Square203
9.7 Ian的思维实验204
9.8 关于数据可视化204
第10章 社交网络与数据新闻学207
10.1 Morning Analytics与社交网络207
10.2 社交网络分析209
10.3 关于社交网络分析的相关术语209
10.3.1 如何衡量向心性210
10.3.2 使用哪种向心性测度211
10.4 思维实验212
10.5 Momingside Analytics212
10.6 从统计学的角度看社交网络分析215
10.6.1 网络的表示方法与特征值向心度215
10.6.2 随机网络的第一个例子:Erdos-Renyi模型217
10.6.3 随机网络的第二个例子:指数随机网络图模型217
10.7 数据新闻学220
10.7.1 关于数据新闻学的历史回顾220
10.7.2 数据新闻报告的写作:来自专家的建议220
第11章 因果关系研究222
11.1 相关性并不代表因果关系223
11.1.1 对因果关系提问223
11.1.2 干扰因子:一个关于在线约会网站的例子224
11.2 OK Cupid的发现225
11.3 黄金准则:随机化临床实验226
11.4 A/B测试228
11.5 退一步求其次:关于观察性研究229
11.5.1 辛普森悖论230
11.5.2 鲁宾因果关系模型231
11.5.3 因果关系的可视化232
11.5.4 定义:因果关系233
11.6 三个小建议235
第12章 流行病学236
12.1 Madigan的学术背景236
12.2 思维实验237
12.3 统计学在现代238
12.4 医学文献与观察性研究238
12.5 分层法不解决干扰因子的问题239
12.6 就没有更好的办法吗241
12.7 研究性实验(OMOP)242
12.8 最后的思维实验246
第13章 从竞赛中学到的:数据泄漏和模型评价247
13.1 Claudia作为数据科学家的知识结构247
13.1.1 首席数据科学家的生活248
13.1.2 作为一名女数据科学家248
13.2 数据挖掘竞赛249
13.3 如何成为出色的建模者250
13.4 数据泄漏250
13.4.1 市场预测251
13.4.2 亚马逊案例学习:出手阔绰的顾客251
13.4.3 珠宝抽样问题251
13.4.4 IBM客户锁定252
13.4.5 乳腺癌检测253
13.4.6 预测肺炎253
13.5 如何避免数据泄漏254
13.6 模型评价255
13.6.1 准确度重要吗256
13.6.2 概率的重要性,不是非0即1256
13.7 如何选择算法259
13.8 最后一个例子259
13.9 临别感言260
第14章 数据工程:MapReduce、Pregel、Hadoop261
14.1 关于David Crawshaw262
14.2 思维实验262
14.3 MapReduce263
14.4 单词频率问题264
14.5 其他MapReduce案例267
14.6 Pregel268
14.7 关于Josh Wills269
14.8 思维实验269
14.9 给数据科学家的话269
14.9.1 数据丰富和数据质乏270
14.9.2 设计模型270
14.10 算算Hadoop的经济账270
14.10.1 Hadoop简介271
14.10.2 Cloudera271
14.11 Josh的工作流程272
14.12 如何开始使用Hadoop272
第15章 听听学生们怎么说273
15.1 重在过程273
15.2 不再简单274
15.3 援助之手275
15.4 殊途同归277
15.5 逢山开路,遇水架桥279
15.6 作品展示279
第16章 下一代数据科学家、自大狂和职业道德281
16.1 前面都讲了些什么281
16.2 什么是数据科学(再问一次)282
16.3 谁是下一代的数据科学家283
16.3.1 成为解决问题的人284
16.3.2 培养软技能284
16.3.3 成为提问者285
16.4 做一个有道德感的数据科学家286
16.5 对于职业生涯的建议289