图书介绍

搜索引擎技术基础PDF|Epub|txt|kindle电子书版本网盘下载

刘奕群，马少平，洪涛编著著
出版社：北京：清华大学出版社
ISBN：9787302227960
出版时间：2010
标注页数：257页
文件大小：53MB
文件页数：274页
主题词：互联网络－情报检索－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：7326cda21370100661ffdc6af819bbdf

下载说明

搜索引擎技术基础PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章为什么要关注搜索引擎1

1.1 互联网上最重要的应用系统1

1.2 人类历史上最大规模的信息集散平台2

1.3 学术界重要的技术研发平台3

1.4 经济领域能够盈利的“生意”4

第2章搜索引擎的基本概念与发展历史6

2.1 互联网与万维网的发展6

2.2 英雄辈出：搜索引擎的发展历史回顾11

2.3 搜索引擎的定义与运行原理概述15

2.4 总结：我们能够从历史中学到什么？17

参考文献18

第3章搜索引擎性能评价20

3.1 搜索引擎评价与Cranfield评价体系22

3.2 查询样例集合构建24

3.2.1 查询样例集合构建中的真实性24

3.2.2 查询样例集合构建中的代表性26

3.2.3 查询样例集合构建中信息需求表述的完整性27

3.3 正确答案集合构建31

3.4 搜索引擎评价指标34

3.5 搜索引擎性能评价的新进展39

参考文献42

第4章搜索引擎体系结构概述44

4.1 数据抓取子系统的主要功能与性能需求46

4.1.1 及时性47

4.1.2 全面性50

4.1.3 高效性51

4.2 内容索引子系统的主要功能与性能需求54

4.2.1 内容索引子系统的主要功能54

4.2.2 倒排索引结构55

4.2.3 内容索引子系统的性能需求57

4.3 内容检索子系统的主要功能与性能需求60

4.3.1 内容检索子系统与文本信息检索系统60

4.3.2 内容检索子系统的相关性需求62

4.3.3 内容检索子系统的查询理解需求64

4.3.4 内容检索子系统的效率需求67

4.4 链接结构分析子系统的主要功能与性能需求68

4.4.1 基于链接结构分析评价数据质量68

4.4.2 基于链接结构分析扩展文档描述69

4.4.3 链接结构分析子系统的效率需求71

4.5 搜索引擎体系结构设计理念72

参考文献73

第5章数据抓取子系统设计及核心算法75

5.1 抓取系统的基本架构75

5.2 数据抓取涉及的网络协议77

5.2.1 URL规范77

5.2.2 HTTP协议78

5.2.3 User－Agent79

5.2.4 robots协议80

5.3 网页抓取技术81

5.3.1 网页抓取的基本过程81

5.3.2 基于异步I／O模型的抓取器82

5.3.3 抓取压力控制84

5.3.4 对URL重定向的支持84

5.3.5 对HTTPS协议的支持85

5.4 链接选取策略86

5.4.1 爬虫的抓取方式86

5.4.2 抓取优先级策略87

5.4.3 网页的重访策略89

5.4.4 链接去重策略90

5.5 网页存储技术91

5.5.1 分布式哈希存储系统92

5.5.2 基于BigTable的网页存储系统94

参考文献94

第6章内容索引子系统设计及核心算法96

6.1 最小的语义单位——词项97

6.1.1 中文分词问题97

6.1.2 英文词干抽取101

6.1.3 停用词去除102

6.1.4 词项列表的构建103

6.2 索引的数据结构105

6.2.1 词项出现信息记录105

6.2.2 倒排索引和正排索引108

6.2.3 索引的并行存储结构108

6.3 索引子系统的运行方式111

6.3.1 预处理111

6.3.2 建立索引113

6.3.3 使用索引117

参考文献119

第7章内容检索子系统设计及其核心算法121

7.1 文本信息检索模型121

7.1.1 布尔模型122

7.1.2 向量空间模型124

7.1.3 概率模型129

7.1.4 语言模型131

7.2 内容检索子系统运行方式136

7.2.1 内容相似程度136

7.2.2 数据质量评估结果138

7.2.3 用户偏好情况139

7.2.4 竞价排名情况140

7.2.5 合并排序依据141

参考文献142

第8章链接结构分析子系统设计及核心算法144

8.1 万维网链接结构图144

8.1.1 万维网链接图的规模145

8.1.2 万维网链接图的连通情况146

8.1.3 万维网链接图的入度和出度分布148

8.2 超链接结构分析的基础149

8.3 HITS算法的基本思路及实现153

8.4 PageRank算法的基本思路及实现156

8.5 链接结构分析结果的应用与排序因素融合163

参考文献165

第9章万维网数据质量评估167

9.1 万维网数据质量评估困境168

9.2 数据质量评估的解决思路169

9.2.1 宏观粒度网络数据质量评估技术169

9.2.2 微观粒度网络数据质量评估技术170

9.2.3 冗余页面识别技术172

9.2.4 网络数据质量评估方式总述173

9.3 面向搜索引擎需求的网络数据质量定义174

9.3.1 基于万维网链接结构分析的网页质量定义174

9.3.2 基于搜索引擎用户信息需求分析的网页质量定义174

9.4 基于万维网链接结构分析的网页质量评估176

9.4.1 PageRank在真实万维网环境中的困境176

9.4.2 用户访问数据与用户浏览关系图179

9.4.3 基于用户浏览关系图的页面质量评估180

9.5 基于搜索引擎用户信息需求分析的网页质量评估182

9.5.1 网页查询无关特征182

9.5.2 查询目标页面与普通页面的差异分析183

9.5.3 查询目标页面与普通页面的长度特征差异184

9.5.4 查询目标页面与普通页面的PageRank特征差异185

9.5.5 基于用户信息需求分析的网页质量评估方法186

9.5.6 基于用户信息需求分析的网页质量评估效果187

参考文献190

第10章万维网垃圾网页识别193

10.1 垃圾网页作弊方式195

10.1.1 基于内容的作弊方式195

10.1.2 基于链接的作弊方式205

10.1.3 垃圾网页作弊与搜索引擎优化210

10.2 垃圾网页盈利方式211

10.2.1 垃圾网页作弊目的及其分类212

10.2.2 促进广告浏览及点击213

10.2.3 促进移动增值服务订制214

10.2.4 促进站点访问流量提升215

10.2.5 欺诈和违法信息宣传215

10.2.6 软件产品推广217

10.2.7 垃圾网页作弊目的分布情况218

10.3 垃圾网页识别方法219

10.3.1 垃圾网页识别的效果评价219

10.3.2 基于网页内容的垃圾网页识别222

10.3.3 基于链接结构的垃圾网页识别228

10.3.4 基于用户行为的垃圾网页识别231

参考文献233

第11章搜索引擎广告技术235

11.1 引言235

11.2 历史、现状和未来235

11.3 搜索引擎付费搜索原理240

11.4 搜索引擎广告的检索和匹配算法244

11.5 计算广告学245

参考文献248

第12章中文搜索引擎的现状与未来251

12.1 国内外搜索引擎市场的发展现状251

12.2 搜索引擎的未来发展展望254

12.2.1 手持设备搜索254

12.2.2 暗网数据与用户产生内容（UGC）的获取255

12.2.3 搜索引擎将成为社会和自然科学研究的重要平台？255

12.2.4 搜索引擎向其他产业进军256

本书特色257