图书介绍
探寻数据背后的逻辑 R语言数据挖掘之道PDF|Epub|txt|kindle电子书版本网盘下载
![探寻数据背后的逻辑 R语言数据挖掘之道](https://www.shukui.net/cover/14/31321598.jpg)
- 宋云生,张坚洪,黎新年著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121338618
- 出版时间:2018
- 标注页数:416页
- 文件大小:57MB
- 文件页数:434页
- 主题词:数据采集-研究
PDF下载
下载说明
探寻数据背后的逻辑 R语言数据挖掘之道PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 万事不只开头难1
1.1 工欲善其事,必先利其器:安装1
1.1.1 安装R和RStudio1
1.1.2 安装数据包3
1.1.3 数据包加载、卸载、升级,查看帮助文档5
1.1.4 什么样的R包值得相信7
1.2 了解R的对象8
1.2.1 如何进行常见的算术运算8
1.2.2 R语言的三大数据类型10
1.2.3 向量及其运算12
1.2.4 因子变量鲜有人知的秘密15
1.2.5 矩阵相关运算及神奇的特征值17
1.2.6 数据框及其筛选、替换、添加、排序、去重18
1.2.7 与数组(array)相比,表单(list)的用处更加广泛22
1.2.8 如何进行数据结构之间的转化23
1.3 R语言的重器:函数26
1.3.1 自编函数26
1.3.2 有用的R字符串函数29
1.4 控制流在R语言里只是一种辅助工具31
1.4.1 判断32
1.4.2 循环33
1.5 数据的读入与输出35
1.5.1 常见数据格式的输入/输出(CSV、TXT、RDATA、XLSX)35
1.5.2 数据库连接:Oracle、MySQL及Hive37
1.5.3 乱码就像马赛克一样让人讨厌39
第2章 数据探索,招招都是利器41
2.1 不要在工作后才认识“脏数据”41
2.1.1 以老板信服的方式处理缺失数据42
2.1.2 异常值预警48
2.1.3 字符处理正则表达式不再是天书49
2.2 数据透视、数据整形、关联融合与批量处理50
2.2.1 还忘不掉Excel的数据透视表吗50
2.2.2 你能给数据做整形手术吗:long型和wide型52
2.2.3 关联合并表54
2.2.4 数据批处理:R语言里最重要的一个函数家族:*pply55
2.3 一招完成数据探索报告58
2.4 拯救你的很多时候是基础理论61
2.4.1 参数检验及非参检验62
2.4.2 学了很多算法却忘了方差分析68
2.4.3 多因素方差分析及协方差作用70
2.4.4 很多熟悉的数据处理方法已经成笑话,工具箱该换了73
第3章 从商务气质的数据可视化说起84
3.1 说说数据可视化的专业素养84
3.1.1 数据可视化历史上有多少背影等你仰望84
3.1.2 商务图表应该具有哪些素质87
3.1.3 那些你不知道的图表误导性伎俩94
3.1.4 如何快速解构著名杂志的图表98
3.2 ggplot2包:一个价值8万美元的态度103
3.2.1 一张图学会ggplot2包的绘图原理105
3.2.2 基础绘图科学:ggplot2包的主题函数继承关系图(关系网络图)127
3.2.3 基础图表一网打尽132
3.2.4 古老的地图焕发新颜151
3.3 将静态图转为D3交互图表:plotly156
3.4 从基础到进阶的变形图表157
3.4.1 马赛克图(分类变量描述性分析)157
3.4.2 Sankey图和chordDiagram图158
第4章 分位数回归模拟股票指数风险通道163
4.1 用线性回归预测医院的药品销售额163
4.2 多项式回归及常见回归方程的书写168
4.3 Lasso回归和回归评价的常见指标170
4.4 分位数回归拟合上证指数风险通道175
第5章 时间序列分析181
5.1 时间序列分析:分析带有时间属性的数列181
5.2 不是所有序列都叫时间序列181
5.3 时间序列三件宝:趋势、周期、随机波动183
5.3.1 趋势183
5.3.2 周期184
5.3.3 随机波动186
5.4 预测分析186
5.4.1 指数平滑法186
5.4.2 ARIMA模型预测188
第6章 选择什么算法也有一套流程192
6.1 重新审视一下这几个模型192
6.1.1 Logistic回归192
6.1.2 我要的不是一棵树,而是整座森林:随机森林195
6.1.3 神奇的神经网络196
6.2 银行信用卡评估模型之变量筛选197
6.2.1 变量构建197
6.2.2 Logistic回归变量筛选198
6.2.3 随机森林变量筛选203
6.2.4 人工神经网络建模204
6.3 必须面对的模型评估204
第7章 深入浅出十大算法208
7.1 C5.0算法208
7.1.1 一个重要的概念:信息熵208
7.1.2 非列变量选择的实例209
7.1.3 C5.0算法的R实现210
7.2 K-means算法212
7.2.1 K-means算法的R实现212
7.2.2 怎么确定聚类数213
7.3 支持向量机(SVM)算法213
7.3.1 通俗理解SVM214
7.3.2 SVM的R实现216
7.4 Apriori算法216
7.4.1 举例说明Apriori217
7.4.2 Apriori算法的R实现219
7.5 EM算法220
7.5.1 举例说明EM算法221
7.5.2 EM算法的R实现222
7.6 PageRank算法223
7.7 AdaBoost算法224
7.8 KNN算法与K-means算法有什么不同226
7.9 Naive Bayes(朴素贝叶斯)算法227
7.10 CART算法228
第8章 数据抓取231
8.1 数据挖掘工程师不可抱怨“巧妇难为无米之炊”231
8.2 抓取股市龙虎榜数据,碰碰运气232
8.2.1 了解XML和Html树状结构,才能庖丁解牛233
8.2.2 了解RCurl包和网页解析函数234
8.2.3 抓取股票龙虎榜235
8.2.4 资金流入分析237
8.3 抓取某家医药信息网站全站药品销售数据240
8.3.1 所有医药公司名称一网打尽240
8.3.2 为什么抓取数据时可以使用For循环242
8.3.3 不要把代码写复杂244
8.3.4 用Sankey数据流描绘医药市场份额流动248
第9章 不可不说的社交网络关系254
9.1 社交网络图254
9.1.1 社交网络图告诉你和谁交朋友254
9.1.2 这几个基本概念你需要抓牢256
9.1.3 还有比本章任务更有趣的数据挖掘吗259
9.2 你还要装备几个评价指标260
9.2.1 社交网络大小260
9.2.2 社交网络关系的完备性261
9.2.3 节点实力评价262
9.3 全球某货物贸易中的亲密关系263
9.3.1 全球某货物贸易数据整合清洗263
9.3.2 分组和社交网络中心267
9.3.3 全球某货物交易圈:寻找各自的小伙伴270
9.4 中国电影演艺圈到底有没有“圈”276
9.4.1 数据清洗与整形276
9.4.2 看看演艺圈长什么样279
9.4.3 谁才是演艺圈的“关系户”281
9.4.4 用Apriori算法查查演艺圈合作的“朋友”关系283
9.4.5 给范冰冰推荐合作伙伴284
第10章 情感分析:一种准确率高达90%的新方法?287
10.1 情感分析及其应用:这是老生常谈287
10.1.1 情感分析的用途287
10.1.2 情感分析的方法论288
10.1.3 有关情感分析的一些知识和方向289
10.2 文本分析的基本武器:R290
10.2.1 RJava包配置290
10.2.2 Rwordseg包安装291
10.2.3 jieba分词包安装291
10.3 基于词典的情感分析的效果好过瞎猜吗292
10.3.1 数据整理及词典构建292
10.3.2 分词整理297
10.3.3 情感指数计算299
10.3.4 方法评价:优、缺点分析300
10.4 监督式情感分析:挑选训练数据集是所有人心中的痛301
10.4.1 TFIDF指标301
10.4.2 构建语料库302
10.4.3 随机森林模型304
10.4.4 算法评估:随机森林应该建多少棵树308
10.5 一种准确率高达90%的新方法316
10.5.1 拿来主义的启示316
10.5.2 情感词典和规则构建317
10.5.3 朴素贝叶斯情感分析器329
10.5.4 支持向量机(SVM)、决策树等情感分析器330
10.5.5 如何选择支持SVM的核函数339
10.5.6 情感分类器方法评价343
10.6 谈谈情感分析的下一步思考344
第11章 话题模型:很多牛人过不去的坎儿346
11.1 话题模型与文案文本集346
11.1.1 任务仍然是以处理dirty data开始347
11.1.2 数据清洗348
11.2 话题模型中几个重要的数据处理步骤350
11.2.1 中文分词350
11.2.2 数据整型352
11.2.3 怎样设定“阈值”353
11.3 上帝有多少个色子:话题数量估计356
11.3.1 通俗地说一遍话题模型356
11.3.2 主题数估计与交叉检验357
11.3.3 如何使用复杂度、对数似然值确定主题数362
11.4 LDA话题模型竟然能输出这么多关系368
11.4.1 输出主题——词汇及其概率矩阵368
11.4.2 输出主题——文档归属及其概率矩阵369
11.5 话题之间也有社交(衍生)关系吗370
11.6 话题模型的几个强大衍生品372
11.6.1 话题模型提取特征词372
11.6.2 三种方法确定聚类的类数和文本层次聚类373
11.6.3 漂亮的文本聚类树和批量绘制大类词云图375
第12章 排名就是简单的推荐系统吗?378
12.1 全球宜居城市综合实力排行378
12.1.1 综合实力排行:专家法VS数据驱动法379
12.1.2 怎么比较两个排名结果382
12.2 协同过滤推荐系统383
12.2.1 基于商品的协同过滤系统(ItemCF)386
12.2.2 基于用户的系统过滤系统(UserCF)388
12.2.3 推荐系统效果评比390
第13章 生物信息学中的数据挖掘案例392
13.1 生物信息学与R语言392
13.2 生物信息学中常用的软件包392
13.2.1 软件包简介392
13.2.2 数据表示方式——对象类(class)393
13.2.3 生物信息学R包简介:Bioconductor和C RAN393
13.2.4 ape包394
13.2.5 读懂你的对象404
13.2.6 修改工具包中的函数以适应新情况407
第14章 产品化:关于内存、速度和自动化411
14.1 不同终端调用、自动化执行R脚本及参数传递411
14.2 与速度、内存、并行相关的程序优化414