图书介绍
基于R语言的自动数据收集 网络抓取和文本挖掘实用指南PDF|Epub|txt|kindle电子书版本网盘下载
![基于R语言的自动数据收集 网络抓取和文本挖掘实用指南](https://www.shukui.net/cover/59/30030336.jpg)
- (德)西蒙·蒙策尔特(Simon Munzert)著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111527503
- 出版时间:2016
- 标注页数:366页
- 文件大小:53MB
- 文件页数:383页
- 主题词:数据采集-研究
PDF下载
下载说明
基于R语言的自动数据收集 网络抓取和文本挖掘实用指南PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 概述1
1.1 案例研究:濒危世界遗产地1
1.2 有关网络数据质量的一些讨论6
1.3 传播、提取和保存网络数据的技术8
1.3.1 在网络上传播内容的技术8
1.3.2 从Web文档中提取信息的技术9
1.3.3 数据保存的技术10
1.4 本书的结构11
第一部分 网络和数据技术入门14
第2章 HTML14
2.1 浏览器显示及源代码14
2.2 语法规则16
2.2.1 标签、元素和属性16
2.2.2 树形结构17
2.2.3 注释18
2.2.4 保留字符和特殊字符18
2.2.5 文档类型定义19
2.2.6 空格和换行19
2.3 标签和属性19
2.3.1 锚标签<a>20
2.3.2 元数据标签<meta>20
2.3.3 外部引用标签<link>21
2.3.4 强调标签<b>、<i>和<strong>21
2.3.5 段落标签<P>22
2.3.6 标题标签<h1>、<h2>、<h3>等22
2.3.7 通过<u1>、<o1>和<d1>列举内容22
2.3.8 组织型标签<div>和<span>22
2.3.9 <form>标签及其同伴23
2.3.10 外部脚本标签<script>25
2.3.11 表格标签<table>、<tr>、<td>和<th>26
2.4 解析26
2.4.1 解析简介27
2.4.2 丢弃节点28
2.4.3 在创建过程中提取信息30
小结31
延伸阅读31
习题32
第3章 XML和JSON34
3.1 XML文档示例34
3.2 XML语法规则36
3.2.1 元素和属性36
3.2.2 XML结构38
3.2.3 命名及特殊字符39
3.2.4 注释及字符数据40
3.2.5 XML语法总结41
3.3 结构良好或合法的XML文档的条件41
3.4 XML扩展与技术43
3.4.1 命名空间43
3.4.2 XML的扩展44
3.4.3 示例:RSS45
3.4.4 示例:可缩放矢量图48
3.5 XML和R的实践49
3.5.1 解析XML50
3.5.2 对XML文档的基本操作51
3.5.3 从XML获取数据框或列表53
3.5.4 事件驱动的解析54
3.6 JSON文档示例56
3.7 JSON语法规则57
3.8 JSON和R的实践59
小结63
延伸阅读63
习题63
第4章 XPath65
4.1 XPath:一种网页查询语言65
4.2 用XPath确定节点集66
4.2.1 XPath查询的基本结构66
4.2.2 节点关系69
4.2.3 XPath谓语71
4.3 提取节点元素76
4.3.1 扩展fun参数77
4.3.2 XML命名空间79
4.3.3 XPath的辅助性小工具80
小结81
延伸阅读81
习题81
第5章 HTTP83
5.1 HTTP基础知识84
5.1.1 和Web服务器的简短对话84
5.1.2 URL的语法86
5.1.3 HTTP消息88
5.1.4 请求方法89
5.1.5 状态码89
5.1.6 标头字段90
5.2 HTTP的高级特性95
5.2.1 身份识别96
5.2.2 身份验证99
5.2.3 代理101
5.3 HTTP之外的协议102
5.3.1 HTTP安全协议102
5.3.2 FTP104
5.4 HTTP实战104
5.4.1 libcurl库105
5.4.2 基本请求方法105
5.4.3 RCurl的底层函数108
5.4.4 在多个请求里保持连接109
5.4.5 选项110
5.4.6 调试114
5.4.7 错误处理117
5.4.8 用RCurl还是httr呢118
小结118
延伸阅读119
习题120
第6章 AJAX122
6.1 JavaScript123
6.1.1 JavaScript的使用方式123
6.1.2 DOM操作123
6.2 XHR126
6.2.1 加载外部HTML/XML文档127
6.2.2 加载JSON128
6.3 利用Web开发者工具探索AJAX130
6.3.1 初试Chrome的Web开发者工具130
6.3.2 元素面板130
6.3.3 网络面板131
小结132
延伸阅读133
习题133
第7章 SQL和关系型数据库134
7.1 概况及术语135
7.2 关系型数据库137
7.2.1 在表中保存数据137
7.2.2 规范化139
7.2.3 关系型数据库和DBMS的高级特性142
7.3 SQL:一种与数据库通信的语言143
7.3.1 SQL概述143
7.3.2 数据控制语言——DCL145
7.3.3 数据定义语言——DDL145
7.3.4 数据操作语言——DML147
7.3.5 子句151
7.3.6 事务控制语言——TCL153
7.4 数据库实战154
7.4.1 管理数据库的R组件154
7.4.2 通过基于DBI的组件在R里执行SQL154
7.4.3 通过RODBC在R里执行SQL156
小结157
延伸阅读158
习题158
第8章 正则表达式和基本字符串函数160
8.1 正则表达式161
8.1.1 严格的字符匹配161
8.1.2 正则表达式的广义化163
8.1.3 重新分析入门例子168
8.2 字符串处理169
8.2.1 stringr组件169
8.2.2 其他实用函数173
8.3 字符编码简介175
小结177
延伸阅读177
习题178
第二部分 网络抓取和文本挖掘实用工具箱180
第9章 网络抓取180
9.1 数据检索的场景181
9.1.1 下载现成的文件181
9.1.2 从FTP索引下载多个文件184
9.1.3 操作URL访问多个页面186
9.1.4 从HTML网页采集链接、列表和表格的便利函数189
9.1.5 处理HTML表单191
9.1.6 HTTP身份验证200
9.1.7 通过HTTPS进行的连接201
9.1.8 使用cookie202
9.1.9 利用Selenium/Rwebdriver从AJAX增强的网页抓取数据205
9.1.10 从API检索数据211
9.1.11 用OAuth进行身份验证218
9.2 数据提取策略221
9.2.1 正则表达式221
9.2.2 XPath224
9.2.3 应用编程接口225
9.3 网络抓取:良好实践227
9.3.1 网络抓取是否合法227
9.3.2 robots.txt简介229
9.3.3 做个友好的(机器)人232
9.4 有价值的灵感来源238
小结239
延伸阅读240
习题240
第10章 统计性文本处理242
10.1 实例:对英国政府的新闻公告进行分类243
10.2 处理文本数据244
10.2.1 大规模文本操作:tm组件244
10.2.2 构建一个词条-文档矩阵248
10.2.3 数据清理250
10.2.4 稀疏度和n元文法251
10.3 有监督的学习技术252
10.3.1 支持向量机253
10.3.2 随机森林254
10.3.3 最大熵254
10.3.4 RTextTools组件254
10.3.5 应用:政府新闻公告254
10.4 无监督的学习技术257
10.4.1 隐含狄式分布及相关主题模型258
10.4.2 应用:政府新闻公告258
小结263
延伸阅读263
第11章 管理数据项目265
11.1 与文件系统交互265
11.2 处理多个文档或链接266
11.2.1 使用for循环266
11.2.2 使用while循环和控制结构268
11.2.3 使用plyr组件269
11.3 组织抓取程序270
11.3.1 进度反馈的实现:消息和进度条272
11.3.2 错误和异常处理274
11.4 定期执行R脚本275
11.4.1 在Mac OS和Linux上安排定时任务276
11.4.2 在Windows平台上安排定时任务278
第三部分 一组案例分析283
第12章 美国参议院里的合作网络283
12.1 有关法案的信息283
12.2 有关参议员的信息289
12.3 分析网络结构291
12.3.1 描述性统计292
12.3.2 网络分析294
12.4 结论295
第13章 从半结构化文档解析信息297
13.1 从FTP服务器下载数据297
13.2 解析半结构化文本数据299
13.3 把气象站和气温数据视觉化304
第14章 利用Twitter预测2014年奥斯卡奖307
14.1 Twitter API概述307
14.1.1 REST API307
14.1.2 数据流API308
14.1.3 采集并预处理数据309
14.2 基于Twitter的2014年奥斯卡奖预测309
14.2.1 对数据进行视觉化309
14.2.2 挖掘推文进行预测311
14.3 结论313
第15章 绘制姓氏地理分布图314
15.1 制定一套数据采集策略314
15.2 查看网站315
15.3 数据检索和信息提取317
15.4 映射姓氏319
15.5 处理过程自动化321
小结326
第16章 采集关于手机的数据328
16.1 页面探索328
16.1.1 查找指定品牌的手机328
16.1.2 提取产品信息331
16.2 抓取程序335
16.2.1 提取有关多个生产商的数据335
16.2.2 数据清理336
16.3 图形分析336
16.4 数据存储337
16.4.1 总体思路337
16.4.2 用于存储的表的定义338
16.4.3 考虑未来存储的数据表定义340
16.4.4 方便数据访问的视图定义340
16.4.5 保存数据的函数342
16.4.6 数据存储和检查343
第17章 分析产品评论里的情绪345
17.1 介绍345
17.2 采集数据345
17.2.1 下载文件346
17.2.2 信息提取349
17.2.3 数据库存储351
17.3 分析数据353
17.3.1 数据预处理353
17.3.2 基于字典的情绪分析354
17.3.3 挖掘评论的内容358
17.4 结论359
参考文献360