图书介绍

大数据搜索与挖掘PDF|Epub|txt|kindle电子书版本网盘下载

大数据搜索与挖掘
  • 张华平,黄河燕,赵燕平著 著
  • 出版社: 北京:科学出版社
  • ISBN:9787030403186
  • 出版时间:2014
  • 标注页数:292页
  • 文件大小:55MB
  • 文件页数:310页
  • 主题词:情报检索-研究;数据采集-研究

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据搜索与挖掘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1大数据4

1.2云计算及Hadoop简介5

1.3 Web搜索、全文索引与Lucene简介6

1.3.1 Web搜索7

1.3.2全文索引9

1.3.3 Lucene简介11

1.4大数据挖掘13

1.5本书主要内容及其知识点14

1.6本章小结16

参考文献17

第2章 大数据搜索挖掘综述18

2.1常用的信息检索模型18

2.1.1传统布尔检索与扩展布尔检索模型18

2.1.2向量空间模型19

2.1.3概率检索模型23

2.1.4语言模型24

2.2自然语言理解与处理概述26

2.3中文词法分析中的分词处理28

2.3.1基于词典和规则的汉字分词30

2.3.2基于大规模语料库的统计学习的分词方法30

2.3.3规则和统计方法相结合的汉字分词方法32

2.4未登录词及其识别32

2.4.1命名实体及其识别33

2.4.2未登录词与新词识别34

2.5有意义串及其识别36

2.6词典组织与管理37

2.6.1基于Trie索引树的词典管理37

2.6.2基于哈希表的词典管理38

2.7文本分类39

2.8文本聚类41

2.8.1文本表示41

2.8.2相似度度量42

2.8.3聚类算法体系43

2.9话题识别与跟踪46

2.10句子及其检索48

2.10.1传统的文档检索方法48

2.10.2信息过滤方法48

2.10.3分类方法49

2.10.4语义比较方法49

2.10.5隐马尔可夫模型方法50

2.10.6自动文摘方法51

2.11句子级新信息检测52

2.11.1词重叠度52

2.11.2最大区间相关度52

2.11.3余弦冗余度52

2.11.4命名实体触发方法53

2.11.5统计机器翻译模型53

2.11.6 LexRank方法54

2.12本章小结55

参考文献56

第3章 大数据检索与分词62

3.1概述62

3.2分词对中文信息检索的影响63

3.3分词精度与检索性能的关系66

3.4大数据应用环境下中文信息检索的分词算法及其特点70

3.4.1分词算法的时间性能要求高70

3.4.2分词正确率的提高并不一定带来检索性能的提高70

3.4.3分词切分粒度需在查询扩展层面进行相关处理70

3.4.4未登录词识别的准确率要比召回率更重要71

3.5基于双数组Trie树优化算法的词典72

3.5.1双数组Trie树算法介绍及其优化72

3.5.2利用优化的双数组Trie树算法组织词典74

3.5.3实验结果与分析76

3.6本章小结77

参考文献78

第4章 基于层次隐马尔可夫模型的浅层词法分析80

4.1概述80

4.2英文浅层分析的实现81

4.2.1英文断句与词汇切分81

4.2.2词性标注82

4.2.3词干抽取与词形还原83

4.3停用词处理与特征词选择84

4.3.1停用词处理84

4.3.2特征词选择85

4.4基于层次隐马尔可夫模型的汉语浅层分析及其应用86

4.4.1层次隐马尔可夫模型87

4.4.2基于类的隐马尔可夫分词算法89

4.4.3 N最短路径的切分排歧策略90

4.4.4未登录词的隐马尔可夫识别方法91

4.5汉语词法分析系统ICTCLAS性能实验与分析93

4.5.1词法分析与层次隐马尔可夫模型94

4.5.2 ICTCLAS在973评测中的测试结果95

4.5.3第一届国际分词大赛的评测结果95

4.6基于单字位置成词概率识别未登录词的算法96

4.6.1字的位置成词概率96

4.6.2局部二元串频统计98

4.6.3有关未登录词识别的实验结果99

4.7本章小结100

参考文献102

第5章 大数据语言新特征发现104

5.1概述104

5.2基于上下文邻接分析和语言模型的有意义串提取106

5.2.1上下文邻接分析107

5.2.2语言模型分析109

5.2.3重复串发现及处理流程111

5.2.4实验设计及结果分析115

5.3基于局部性原理的低频有意义串提取120

5.3.1有意义串的局部性121

5.3.2局部性度量122

5.3.3算法流程123

5.3.4实验结果与分析124

5.4基于伪相关反馈模型的有意义串提取127

5.4.1算法的基本思想128

5.4.2相关度的定义129

5.4.3位置成词概率PWP的更新129

5.4.4算法流程129

5.4.5实验结果及分析130

5.5本章小结133

参考文献135

第6章 大数据聚类与分类138

6.1概述138

6.2基于关键词提取的搜索结果聚类139

6.2.1相关术语简介139

6.2.2关键词提取139

6.2.3基于关键词的检索结果聚类方法141

6.2.4实验结果及分析142

6.3基于K-means算法的有意义串主题聚类算法144

6.4基于邻接串种类的有意义串语境聚类146

6.5有意义串对分类的改进149

6.6本章小结153

参考文献154

第7章 大数据文本自动摘要156

7.1概述156

7.2相关工作综述156

7.2.1基于抽取的自动文摘158

7.2.2基于理解的自动文摘160

7.3基于关键词提取的自动摘要160

7.3.1文本预处理160

7.3.2停用词处理161

7.3.3双数组Trie树162

7.3.4关键词提取164

7.3.5句子切分166

7.3.6句子相似度计算166

7.4面向主题的自动摘要167

7.4.1改进的最大边缘相关度方法167

7.4.2面向主题的词特征统计168

7.4.3领域主题词表169

7.4.4句子间的包含关系170

7.5实验与分析171

7.5.1稳定性测试171

7.5.2时间性能171

7.5.3文摘质量174

7.6自动摘要应用场景分析及大数据搜索与挖掘软件应用示例174

7.7本章小结176

参考文献176

第8章JZSearch大数据精准搜索引擎178

8.1概述178

8.2 JZSearch大数据搜索引擎系统架构178

8.3 JZSearch索引关键技术180

8.3.1索引字段类型180

8.3.2索引词项的设计181

8.3.3索引压缩技术181

8.3.4内存交换184

8.3.5增量索引184

8.3.6数据库检索185

8.4 JZSearch搜索技术187

8.4.1 JZSearch排序算法187

8.4.2 JZSearch结果格式188

8.4.3 JZSearch检索语法说明188

8.5 JZSearch搜索引擎管理193

8.5.1搜索引擎可视化管理客户端193

8.5.2客户端管理命令语法194

8.6 JZSearch大数据搜索应用案例194

8.6.1中国邮政集团名址信息中心首页的邮址垂直搜索194

8.6.2河北省标准化研究院的标准搜索195

8.6.3中国对外承包工程商会的知识搜索门户196

8.6.4富基融通的商品比价搜索196

8.6.5微博人物搜索196

8.6.6维吾尔语搜索196

8.7本章小结198

参考文献199

第9章 面向大数据的句子检索与新颖性监测200

9.1概述200

9.2句子检索的查询扩展方法201

9.2.1语义扩展201

9.2.2伪相关反馈扩展203

9.2.3局部共现扩展204

9.3语言模型检索206

9.3.1概述206

9.3.2句子级语言模型及其改进207

9.4句子检索实验与分析207

9.4.1浅层语言分析的贡献度207

9.4.2三种句子检索模型的基准实验209

9.4.3查询扩展实验211

9.5新信息检测212

9.5.1词重叠度及其扩展213

9.5.2相似度比较方法214

9.5.3信息增强评价方法215

9.5.4其他方法215

9.5.5新信息检测实验与分析217

9.6监督学习条件下的句子检索与新信息检测219

9.6.1监督学习环境下的参数调整与阈值设置219

9.6.2基于分类的句子检索与新信息检测方法221

9.6.3实验与分析222

9.7本章小结224

参考文献225

第10章 人物追踪中的数据预处理与属性抽取227

10.1概述227

10.1.1研究背景227

10.1.2人物追踪及其处理流程228

10.2数据预处理228

10.2.1数据预处理的主要流程229

10.2.2网页正文提取与噪声过滤229

10.2.3人名识别232

10.2.4人名指代处理232

10.2.5人物对应语段的确定233

10.2.6时间和时序标签的确定234

10.3人物属性抽取234

10.3.1人物属性抽取的总体框架235

10.3.2标注人物属性抽取语料235

10.3.3分类器模型237

10.4本章小结243

参考文献245

第11章 人物模型组织与基于事件的信息处理246

11.1概述246

11.2人物模型的特征表示247

11.2.1属性特征的表示247

11.2.2数值特征的表示247

11.2.3各项特征的分布规律249

11.3人物模型的相似度计算方法249

11.3.1基本属性的相似度计算249

11.3.2介绍性属性的相似度计算249

11.3.3词场的相似度计算251

11.3.4人物模型相似度计算251

11.4人物模型的同一性判别与合并252

11.5实验结果与分析253

11.5.1数据集与评测方法253

11.5.2实验结果254

11.6基于宏观粒度的事件组织258

11.6.1宏观粒度事件的特征258

11.6.2针对事件特点的话题识别方法259

11.6.3基于多层聚类的话题层次化组织方法261

11.6.4实验结果与分析265

11.7本章小结270

参考文献272

附录A ICTCLAS/NLPIR 2014汉语分词系统介绍274

附录B NLPIR大数据搜索与挖掘共享开发平台281

热门推荐