图书介绍
R语言与数据分析实战PDF|Epub|txt|kindle电子书版本网盘下载
![R语言与数据分析实战](https://www.shukui.net/cover/24/31922693.jpg)
- (韩)徐珉久著;武传海译 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115442468
- 出版时间:2017
- 标注页数:460页
- 文件大小:66MB
- 文件页数:478页
- 主题词:程序语言-程序设计
PDF下载
下载说明
R语言与数据分析实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章搭建R编程环境1
1.1为什么是R2
1.2安装R2
1.2.1在Windows操作系统中安装R4
1.2.2在Linux系统下安装R6
1.2.3在Mac OS X中安装R12
1.3启动R15
1.4查看帮助16
1.5 R集成开发环境19
1.6批处理21
1.7使用包22
参考资料24
第2章数据类型25
2.1变量26
2.1.1变量命名规则26
2.1.2变量赋值26
2.2调用函数时指定参数27
2.3标量28
2.3.1数值28
2.3.2 NA29
2.3.3 NULL29
2.3.4字符串30
2.3.5逻辑值31
2.3.6因子32
2.4向量34
2.4.1创建向量35
2.4.2访问向量中的数据36
2.4.3向量运算39
2.4.4连续数字组成的向量41
2.4.5保存重复值的向量42
2.5列表43
2.5.1创建列表43
2.5.2访问列表中的数据44
2.6矩阵45
2.6.1 创建矩阵45
2.6.2访问矩阵中的数据48
2.6.3矩阵运算49
2.7数组52
2.7.1创建数组53
2.7.2访问数组数据54
2.8数据框54
2.8.1创建数据框55
2.8.2访问数据框57
2.8.3实用工具函数59
2.9类型判别61
2.10类型转换62
参考资料64
第3章 R语言编程65
3.1 R的特征66
3.2流程控制(条件语句与循环语句)66
3.2.1 if语句66
3.2.2循环语句67
3.3运算69
3.3.1数值运算70
3.3.2向量运算70
3.3.3 NA处理72
3.4定义函数74
3.4.1基本定义74
3.4.2可变长参数75
3.4.3嵌套函数76
3.5作用域80
3.6值传递80
3.7对象的不变性81
3.8模块模式83
3.8.1队列84
3.8.2编写队列模块85
参考资料86
第4章数据操作Ⅰ:基于向量的处理与外部数据处理87
4.1 鸢尾花数据集88
4.2读写文件90
4.2.1读写CSV文件90
4.2.2读写对象文件93
4.3合并数据框的行与列94
4.4 apply系列函数96
4.4.1 apply()97
4.4.2 lapply()函数99
4.4.3 sapply()102
4.4.4 tapply()104
4.4.5 mapply()106
4.5数据分组并调用函数107
4.5.1 summaryBy()108
4.5.2 orderBy()110
4.5.3 sampleBy()112
4.6数据拆分与合并114
4.6.1 split()115
4.6.2 subset()116
4.6.3数据合并117
4.7数据排序119
4.7.1 solit()119
4.7.2 order()120
4.8 访问数据框中的列121
4.8.1 with()121
4.8.2 within()122
4.8.3 attach()与detach()124
4.9查找符合条件的数据索引126
4.10分组运算127
4.11更易处理的数据表现形式128
4.12与MySQL联动131
4.12.1安装MySQL及RMySQL131
4.12.2使用RMySQL访问MySQL数据库140
参考资料141
第5章数据操作Ⅱ:数据处理及加工143
5.1数据处理及加工相关包144
5.2使用SQL处理数据144
5.3数据分析拆分、应用、合并146
5.3.1 adply()函数147
5.3.2 ddply()函数149
5.3.3轻松进行按组运算150
5.3.4 mdply()153
5.4数据结构变形与汇总154
5.4.1 melt()155
5.4.2 cast()157
5.4.3数据汇总158
5.5数据表:更快、更方便的数据框160
5.5.1创建数据表160
5.5.2数据访问与分组运算162
5.5.3使用key快速访问数据164
5.5.4使用key合并数据表166
5.5.5利用引用修改数据167
5.5.6将列表转换为数据框168
5.6更好的循环语句170
5.7并行处理172
5.7.1设置进程数173
5.7.2 plyr并行化174
5.7.3 foreach并行化176
5.8单元测试与调试177
5.8.1 testthat177
5.8.2使用test_ that()进行测试分组179
5.8.3测试文件的结构180
5.8.4调试181
5.9测定代码执行时间187
5.9.1测定命令语句执行时间187
5.9.2代码性能测试189
参考资料191
第6章绘图193
6.1散点图194
6.2图形选项195
6.2.1坐标轴名称196
6.2.2图形标题197
6.2.3点的类型197
6.2.4点的大小198
6.2.5颜色199
6.2.6坐标轴的取值范围200
6.2.7图形类型201
6.2.8线型204
6.2.9图形排列204
6.2.10抖动205
6.3基本图形207
6.3.1点207
6.3.2折线209
6.3.3直线211
6.3.4曲线212
6.3.5多边形213
6.4字符串216
6.5识别图形中的数据218
6.6图例219
6.7绘制矩阵中的数据(matplot、 matlines、 matpoints)220
6.8应用图形221
6.8.1箱线图222
6.8.2直方图225
6.8.3密度图227
6.8.4条形图229
6.8.5饼图230
6.8.6马赛克图232
6.8.7散点图矩阵234
6.8.8透视图、等高线图235
参考资料238
第7章统计分析239
7.1生成随机数与分布函数240
7.2基本统计量243
7.2.1样本均值、样本方差、样本标准差243
7.2.2五数概括244
7.2.3众数246
7.3样本抽取246
7.3.1简单随机抽样247
7.3.2考虑权值的样本抽取248
7.3.3分层随机抽样249
7.3.4系统抽样251
7.4列联表252
7.4.1创建列联表253
7.4.2求和与百分比254
7.4.3独立性检验256
7.4.4费舍尔精确检验261
7.4.5 McNemar检验262
7.5拟合优度检验265
7.5.1卡方检验265
7.5.2夏皮罗-威尔克检验265
7.5.3柯尔莫诺夫-斯米尔诺夫检验266
7.5.4 Q-Q图268
7.6相关分析271
7.6.1皮尔逊相关系数272
7.6.2斯皮尔曼相关系数275
7.6.3肯德尔等级相关系数277
7.6.4相关系数检验277
7.7估计与检验278
7.7.1单样本均值279
7.7.2两独立样本均值282
7.7.3两配对样本均值285
7.7.4两样本方差287
7.7.5 单样本比率288
7.7.6两样本比率290
参考资料291
第8章线性回归293
8.1线性回归的基本假设294
8.2简单线性回归295
8.2.1创建模型295
8.2.2提取线性回归结果296
8.2.3预测与置信区间298
8.2.4模型评估299
8.2.5方差分析及模型间比较302
8.2.6模型诊断图形304
8.2.7回归直线的可视化306
8.3多元回归307
8.3.1创建及评估模型307
8.3.2分类变量308
8.3.3多元回归模型的可视化310
8.3.4使用函数Ⅰ()312
8.3.5变量的变换314
8.3.6交互作用314
8.4异常值320
8.5变量选择321
8.5.1选择变量的方法322
8.5.2比较所有情形325
参考资料328
第 9章分类算法Ⅰ:数据探索、预处理、模型评估方法331
9.1数据探索332
9.1.1技术统计332
9.1.2数据可视化337
9.2预处理340
9.2.1数据变换340
9.2.2缺失值处理345
9.2.3变量选择348
9.3模型评估方法358
9.3.1评估指标358
9.3.2 ROC曲线361
9.3.3交叉检验365
参考资料375
第10章分类算法Ⅱ:机器学习算法377
10.1逻辑回归模型378
10.2多项逻辑回归分析381
10.3决策树384
10.3.1决策树模型385
10.3.2分类与回归树386
10.3.3条件推断决策树389
10.3.4随机森林391
10.4神经网络396
10.4.1神经网络模型396
10.4.2神经网络模型学习398
10.5 支持向量机402
10.5.1支持向量机模型403
10.5.2支持向量机学习404
10.6类别不平衡408
10.6.1向上取样、向下取样409
10.6.2 SMOTE411
10.7文档分类413
10.7.1语料库与文档413
10.7.2文档变换414
10.7.3文档的矩阵表示415
10.7.4高频词418
10.7.5词语之间的相关关系419
10.7.6文档分类420
10.7.7从文件创建语料库422
10.7.8 元数据424
10.8 caret包427
参考资料431
第11章利用泰坦尼克数据练习机器学习433
11.1泰坦尼克数据格式434
11.2读入数据434
11.2.1转换数据类型435
11.2.2分离测试数据437
11.2.3准备交叉检验438
11.3数据探索440
11.4评估指标444
11.5决策树模型444
11.5.1 rpart的交叉检验445
11.5.2准确度评估446
11.5.3条件推断决策树447
11.6发现其他特征448
11.6.1使用ticket识别家庭448
11.6.2预测生还概率449
11.6.3添加家庭ID450
11.6.4合并家庭成员的生还概率452
11.6.5使用家庭信息建模ctree()454
11.6.6性能评估455
11.7交叉检验并行化457
11.7.1反复执行3次10层交叉检验457
11.7.2使用foreach()与%dopar%进行并行化458
11.8开发更好的算法459
参考资料460