图书介绍

驾驭文本 文本的发现、组织和处理PDF|Epub|txt|kindle电子书版本网盘下载

驾驭文本 文本的发现、组织和处理
  • (美)英格索尔,(美)莫顿,(美)法里斯著;王斌译 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121252303
  • 出版时间:2015
  • 标注页数:318页
  • 文件大小:53MB
  • 文件页数:342页
  • 主题词:自然语言处理-研究

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

驾驭文本 文本的发现、组织和处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 开始驾驭文本1

1.1 驾驭文本重要的原因2

1.2 预览:一个基于事实的问答系统4

1.2.1 嗨,弗兰肯斯坦医生5

1.3 理解文本很困难8

1.4 驾驭的文本11

1.5 文本及智能应用:搜索及其他13

1.5.1 搜索和匹配13

1.5.2 抽取信息14

1.5.3 对信息分组15

1.5.4 一个智能应用15

1.6 小结15

1.7 相关资源16

第2章 驾驭文本的基础17

2.1 语言基础知识18

2.1.1 词语及其类别19

2.1.2 短语及子句20

2.1.3 词法21

2.2 文本处理常见工具23

2.2.1 字符串处理工具23

2.2.2 词条及切词23

2.2.3 词性标注25

2.2.4 词干还原27

2.2.5 句子检测29

2.2.6 句法分析和文法31

2.2.7 序列建模33

2.3 从常见格式文件中抽取内容并做预处理34

2.3.1 预处理的重要性35

2.3.2 利用Apache Tika抽取内容37

2.4 小结39

2.5 相关资源40

第3章 搜索41

3.1 搜索和多面示例:Amazon.com42

3.2 搜索概念入门44

3.2.1 索引内容45

3.2.2 用户输入47

3.2.3 利用向量空间模型对文档排名51

3.2.4 结果展示54

3.3 Apache Solr搜索服务器介绍57

3.3.1 首次运行Solr58

3.3.2 理解Solr中的概念59

3.4 利用Apache Solr对内容构建索引63

3.4.1 使用XML构建索引64

3.4.2 利用Solr和Apache Tika对内容进行抽取和索引66

3.5 利用Apache Solr来搜索内容69

3.5.1 Solr查询输入参数71

3.5.2 抽取内容的多面展示74

3.6 理解搜索性能因素77

3.6.1 数量判定77

3.6.2 判断数量81

3.7 提高搜索性能82

3.7.1 硬件改进82

3.7.2 分析的改进83

3.7.3 提高查询性能85

3.7.4 其他评分模型88

3.7.5 提升Solr性能的技术89

3.8 其他搜索工具91

3.9 小结93

3.10 相关资源93

第4章 模糊字符串匹配94

4.1 模糊字符串匹配方法96

4.1.1 字符重合度度量方法96

4.1.2 编辑距离99

4.1.3 n元组编辑距离102

4.2 寻找模糊匹配串105

4.2.1 在Solr中使用前缀来匹配105

4.2.2 利用trie树进行前缀匹配106

4.2.3 使用n元组进行匹配111

4.3 构建模糊串匹配应用112

4.3.1 在搜索中加入提前输入功能113

4.3.2 搜索中的查询拼写校正117

4.3.3 记录匹配122

4.4 小结127

4.5 相关资源128

第5章 命名实体识别129

5.1 命名实体的识别方法131

5.1.1 基于规则的实体识别131

5.1.2 基于统计分类器的实体识别132

5.2 基于OpenNLP的基本实体识别133

5.2.1 利用OpenNLP寻找人名134

5.2.2 OpenNLP识别的实体解读136

5.2.3 基于概率过滤实体137

5.3 利用OpenNLP进行深度命名实体识别137

5.3.1 利用OpenNLP识别多种实体类型138

5.3.2 OpenNLP识别实体的背后机理141

5.4 OpenNLP的性能143

5.4.1 结果的质量144

5.4.2 运行性能145

5.4.3 OpenNLP的内存使用146

5.5 对新领域定制OpenNLP实体识别147

5.5.1 训练模型的原因和方法147

5.5.2 训练OpenNLP模型148

5.5.3 改变建模输入150

5.5.4 对实体建模的新方法152

5.6 小结154

5.7 进一步阅读材料155

第6章 文本聚类156

6.1 Google News中的文档聚类157

6.2 聚类基础158

6.2.1 三种聚类的文本类型158

6.2.2 选择聚类算法160

6.2.3 确定相似度161

6.2.4 给聚类结果打标签162

6.2.5 聚类结果的评估163

6.3 搭建一个简单的聚类应用165

6.4 利用Carrot2对搜索结果聚类166

6.4.1 使用Carrot2API166

6.4.2 使用Carrot2对Solr的搜索结果聚类168

6.5 利用Apache Mahout对文档集聚类171

6.5.1 对聚类的数据进行预处理172

6.5.2 K-means聚类175

6.6 利用Apache Mahout进行主题建模180

6.7 考察聚类性能183

6.7.1 特征选择与特征约简183

6.7.2 Carrot2的性能和质量186

6.7.3 Mahout基准聚类算法187

6.8 致谢192

6.9 小结192

6.10 参考文献193

第7章 分类及标注195

7.1 分类及归类概述197

7.2 分类过程200

7.2.1 选择分类机制201

7.2.2 识别文本分类中的特征202

7.2.3 训练数据的重要性203

7.2.4 评估分类器性能206

7.2.5 将分类器部署到生产环境208

7.3 利用Apache Lucene构建文档分类器209

7.3.1 利用Lucene对文本进行分类210

7.3.2 为MoreLikeThis分类器准备训练数据212

7.3.3 训练MoreLikeThis分类器214

7.3.4 利用MoreLikeThis分类器对文档进行分类217

7.3.5 测试MoreLikeThis分类器220

7.3.6 将MoreLikeThis投入生产环境223

7.4 利用Apache Mahout训练朴素贝叶斯分类器223

7.4.1 利用朴素贝叶斯算法进行文本分类224

7.4.2 准备训练数据225

7.4.3 留存测试数据229

7.4.4 训练分类器229

7.4.5 测试分类器231

7.4.6 改进自举过程232

7.4.7 将Mahout贝叶斯分类器集成到Solr234

7.5 利用OpenNLP进行文档分类238

7.5.1 回归模型及最大熵文档分类239

7.5.2 为最大熵文档分类器准备训练数据241

7.5.3 训练最大熵文档分类器242

7.5.4 测试最大熵文档分类器248

7.5.5 生产环境下的最大熵文档分类器249

7.6 利用Apache Solr构建标签推荐系统250

7.6.1 为标签推荐收集训练数据253

7.6.2 准备训练数据255

7.6.3 训练Solr标签推荐系统256

7.6.4 构建推荐标签258

7.6.5 对标签推荐系统进行评估261

7.7 小结263

7.8 参考文献265

第8章 构建示例问答系统266

8.1 问答系统基础知识268

8.2 安装并运行QA代码270

8.3 一个示例问答系统的架构271

8.4 理解问题并产生答案274

8.4.1 训练答案类型分类器275

8.4.2 对查询进行组块分析279

8.4.3 计算答案类型280

8.4.4 生成查询283

8.4.5 对候选段落排序284

8.5 改进系统的步骤287

8.6 本章小结287

8.7 相关资源288

第9章 未驾驭的文本:探索未来前沿289

9.1 语义、篇章和语用:探索高级NLP290

9.1.1 语义291

9.1.2 篇章292

9.1.3 语用294

9.2 文档及文档集自动摘要295

9.3 关系抽取298

9.3.1 关系抽取方法综述299

9.3.2 评估302

9.3.3 关系抽取工具303

9.4 识别重要内容和人物303

9.4.1 全局重要性及权威度304

9.4.2 个人重要性305

9.4.3 与重要性相关的资源及位置306

9.5 通过情感分析来探测情感306

9.5.1 历史及综述307

9.5.2 工具及数据需求308

9.5.3 一个基本的极性算法309

9.5.4 高级话题311

9.5.5 用于情感分析的开源库312

9.6 跨语言检索313

9.7 本章小结315

9.8 相关资源315

热门推荐