图书介绍
解密搜索引擎技术实战 Lucene&Java精华版PDF|Epub|txt|kindle电子书版本网盘下载
![解密搜索引擎技术实战 Lucene&Java精华版](https://www.shukui.net/cover/78/35061489.jpg)
- 罗刚等编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121217326
- 出版时间:2014
- 标注页数:502页
- 文件大小:82MB
- 文件页数:512页
- 主题词:互联网络-情报检索
PDF下载
下载说明
解密搜索引擎技术实战 Lucene&Java精华版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 搜索引擎总体结构1
1.1 搜索引擎基本模块1
1.2 开发环境2
1.3 搜索引擎工作原理3
1.3.1 网络爬虫4
1.3.2 全文索引结构与Lucene实现4
1.3.3 搜索用户界面7
1.3.4 计算框架8
1.3.5 文本挖掘9
1.4 本章小结9
第2章 网络爬虫的原理与应用11
2.1 爬虫的基本原理11
2.2 爬虫架构14
2.2.1 基本架构14
2.2.2 分布式爬虫架构16
2.2.3 垂直爬虫架构17
2.3 抓取网页18
2.3.1 下载网页的基本方法19
2.3.2 网页更新23
2.3.3 抓取限制应对方法25
2.3.4 URL地址提取28
2.3.5 抓取JavaScript动态页面28
2.3.6 抓取即时信息31
2.3.7 抓取暗网32
2.3.8 信息过滤33
2.3.9 最好优先遍历39
2.4 存储URL地址40
2.4.1 BerkeleyDB40
2.4.2 布隆过滤器42
2.5 并行抓取45
2.5.1 多线程爬虫46
2.5.2 垂直搜索的多线程爬虫48
2.5.3 异步I/O49
2.6 RSS抓取53
2.7 抓取FTP55
2.8 下载图片55
2.9 图像的OCR识别56
2.9.1 图像二值化57
2.9.2 切分图像60
2.9.3 SVM分类63
2.10 Web结构挖掘67
2.10.1 存储Web图67
2.10.2 PageRank算法71
2.10.3 HITs算法77
2.10.4 主题相关的PageRank81
2.11 部署爬虫83
2.12 本章小结83
第3章 索引内容提取86
3.1 从HTML文件中提取文本86
3.1.1 识别网页的编码86
3.1.2 网页编码转换为字符串编码89
3.1.3 使用正则表达式提取数据89
3.1.4 结构化信息提取91
3.1.5 网页的DOM结构94
3.1.6 使用NekoHTML提取信息95
3.1.7 使用Jsoup提取信息101
3.1.8 网页去噪105
3.1.9 网页结构相似度计算110
3.1.10提取标题112
3.1.11提取日期113
3.2 从非HTML文件中提取文本113
3.2.1 提取标题的一般方法114
3.2.2 PDF文件118
3.2.3 Word文件122
3.2.4 Rtf文件123
3.2.5 Excel文件134
3.2.6 PowerPoint文件137
3.3 流媒体内容提取137
3.3.1 音频流内容提取138
3.3.2 视频流内容提取140
3.4 存储提取内容142
3.5 本章小结143
第4章 中文分词的原理与实现144
4.1 Lucene中的中文分词145
4.1.1 Lucene切分原理145
4.1.2 Lucene中的Analyzer146
4.1.3 自己写Analyzer148
4.1.4 Lietu中文分词150
4.2 查找词典算法151
4.2.1 标准Trie树151
4.2.2 三叉Trie树154
4.3 中文分词的原理159
4.4 中文分词流程与结构162
4.5 形成切分词图164
4.6 概率语言模型的分词方法170
4.7 N元分词方法174
4.8 新词发现178
4.9 未登录词识别180
4.10 词性标注181
4.10.1 隐马尔可夫模型184
4.10.2 基于转换的错误学习方法192
4.11 平滑算法194
4.12 本章小结198
第5章 让搜索引擎理解自然语言199
5.1 停用词表200
5.2 句法分析树201
5.3 相似度计算205
5.4 文档排重209
5.4.1 语义指纹210
5.4.2 SimHash213
5.4.3 分布式文档排重223
5.5 中文关键词提取223
5.5.1 关键词提取的基本方法223
5.5.2 HITS算法应用于关键词提取226
5.5.3 从网页中提取关键词228
5.6 相关搜索词228
5.6.1 挖掘相关搜索词229
5.6.2 使用多线程计算相关搜索词231
5.7 信息提取232
5.8 拼写检查与建议237
5.8.1 模糊匹配问题240
5.8.2 英文拼写检查242
5.8.3 中文拼写检查244
5.9 自动摘要247
5.9.1 自动摘要技术247
5.9.2 自动摘要的设计247
5.9.3 Lucene中的动态摘要254
5.10 文本分类257
5.10.1 特征提取259
5.10.2 中心向量法262
5.10.3 朴素贝叶斯265
5.10.4 支持向量机272
5.10.5 规则方法279
5.10.6 网页分类282
5.11 拼音转换283
5.12 概念搜索284
5.13 多语言搜索292
5.14 跨语言搜索293
5.15 情感识别295
5.15.1 确定词语的褒贬倾向298
5.15.2 实现情感识别300
5.16 本章小结301
第6章 Lucene原理与应用303
6.1 Lucene深入介绍304
6.1.1 常用查询对象304
6.1.2 查询语法与解析304
6.1.3 查询原理308
6.1.4 分析文本309
6.1.5 使用Filter筛选搜索结果316
6.1.6 遍历索引库317
6.1.7 索引数值列318
6.2 Lucene中的压缩算法322
6.2.1 变长压缩322
6.2.2 PForDelta324
6.2.3 前缀压缩326
6.2.4 差分编码328
6.3 创建和维护索引库330
6.3.1 创建索引库330
6.3.2 向索引库中添加索引文档331
6.3.3 删除索引库中的索引文档334
6.3.4 更新索引库中的索引文档334
6.3.5 索引的合并335
6.3.6 索引文件格式335
6.4 查找索引库338
6.4.1 查询过程338
6.4.2 常用查询342
6.4.3 基本词查询343
6.4.4 模糊匹配343
6.4.5 布尔查询345
6.4.6 短语查询347
6.4.7 跨度查询349
6.4.8 FieldScoreQuery353
6.5 读写并发控制356
6.6 检索模型356
6.6.1 向量空间模型357
6.6.2 BM25概率模型361
6.6.3 统计语言模型367
6.7 本章小结369
第7章 搜索引擎用户界面370
7.1 实现Lucene搜索370
7.2 实现搜索接口372
7.2.1 编码识别372
7.2.2 布尔搜索375
7.2.3 指定范围搜索375
7.2.4 搜索结果排序376
7.2.5 搜索页面的索引缓存与更新377
7.3 历史搜索词记录380
7.4 实现关键词高亮显示381
7.5 实现分类统计视图383
7.6 实现Ajax搜索联想词388
7.6.1 估计查询词的文档频率388
7.6.2 搜索联想词总体结构389
7.6.3 服务器端处理389
7.6.4 浏览器端处理390
7.6.5 服务器端改进395
7.6.6 拼音提示398
7.6.7 部署总结399
7.7 集成其他功能399
7.7.1 拼写检查399
7.7.2 分类统计400
7.7.3 相关搜索402
7.7.4 再次查找405
7.7.5 搜索日志405
7.8 搜索日志分析407
7.8.1 日志信息过滤407
7.8.2 信息统计409
7.8.3 挖掘日志信息411
7.9 本章小结412
第8章 使用Solr实现企业搜索413
8.1 Solr简介413
8.2 Solr基本用法414
8.2.1 Solr服务器端的配置与中文支持415
8.2.2 把数据放进Solr421
8.2.3 删除数据423
8.2.4 Solr客户端与搜索界面424
8.2.5 Spring实现的搜索界面425
8.2.6 Solr索引库的查找436
8.2.7 索引分发440
8.2.8 Solr搜索优化442
8.3 Solr扩展与定制445
8.3.1 Solr中字词混合索引445
8.3.2 相关检索447
8.3.3 搜索结果去重449
8.3.4 定制输入输出453
8.3.5 分布式搜索457
8.3.6 SolrJ查询分析器458
8.3.7 扩展SolrJ466
8.3.8 扩展Solr467
8.3.9 查询Web图471
8.4 本章小结473
第9章 地理信息系统案例分析474
9.1 新闻提取474
9.2 POI信息提取479
9.2.1 提取主体484
9.2.2 提取地区485
9.2.3 指代消解487
9.3 机器翻译489
9.3.1 词对齐490
9.3.2 翻译公司名491
9.3.3 调整语序493
9.4 本章小结494
第10章 户外活动搜索案例分析495
10.1 爬虫495
10.2 信息提取497
10.3 活动分类500
10.4 搜索501
10.5 本章小结501
参考资料502